Convertire PDF in XML
Estraete testo strutturato e metadati dai file PDF in formato XML.
Come convertire PDF in XML
1.
Carica il PDF – Seleziona il documento PDF contenente il testo e la struttura da estrarre.
2.
Estrai in XML – Clicca su converti per analizzare la struttura del documento in nodi XML.
3.
Scarica l'XML – Salva il file XML estratto sul tuo dispositivo.
Estrazione nodi e metadati
Carica un documento PDF. Lo strumento estrae stringhe di testo e marcatori di layout in nodi XML strutturati.
Considerazioni per i PDF scansionati
L'estrazione XML standard cattura solo i contenitori di immagini dai file scansionati. È necessario elaborare prima il documento con OCR PDF per garantire il riconoscimento degli elementi testuali.
PDF protetti da password
La crittografia blocca l'analisi strutturale. Usa sblocca PDF per rimuovere la password prima di caricare il file per la conversione XML.
Domande frequenti
Cosa fa la conversione da PDF a XML?
Analizza la struttura interna del PDF e mappa il testo, i font e gli elementi di layout in nodi XML.
Questo strumento riconosce le celle delle tabelle?
Sì, le strutture di base delle tabelle vengono mappate in XML. Tuttavia, per importazioni dirette in fogli di calcolo, la conversione in CSV è spesso più efficiente.
Perché mancano testi nel mio file XML?
Se il PDF sorgente è un documento scansionato o composto da immagini piatte, è necessario applicare prima l'OCR per generare testo riconoscibile.
L'XML include immagini?
No. L'output XML si concentra esclusivamente sull'esposizione del testo strutturale e dei metadati all'interno del documento.
Posso elaborare più PDF contemporaneamente?
Sì, puoi caricare un batch di PDF. Lo strumento li analizzerà individualmente e genererà file XML separati.
Serve un software speciale per leggere l'XML?
L'XML è un linguaggio di markup in puro testo. Può essere aperto con qualsiasi editor di codice o di testo.
Il risultato XML è formattato?
Sì, il codice estratto è formattato con i rientri standard, rendendolo facilmente leggibile.
I miei dati sono sicuri?
Sì. L'analisi avviene tramite HTTPS e sia i documenti PDF che i file XML risultanti vengono eliminati dai nostri server poco dopo l'elaborazione.