Konwertuj PDF na XML
Wyodrębniaj sformatowany tekst i metadane z plików PDF do formatu XML.
Jak przekonwertować PDF na XML
1.
Wgraj PDF – Wybierz dokument PDF zawierający tekst i strukturę, które chcesz wyodrębnić.
2.
Wyodrębnij do XML – Kliknij konwertuj, aby przeanalizować strukturę dokumentu na węzły XML.
3.
Pobierz XML – Zapisz wyodrębniony plik XML na urządzeniu.
Wyodrębnianie węzłów i metadanych
Wgraj dokument PDF. Narzędzie wyodrębnia ciągi tekstowe i znaczniki układu do strukturalnych węzłów XML.
Uwagi dotyczące skanowanych plików PDF
Standardowa ekstrakcja XML przechwytuje tylko kontenery obrazów ze skanowanych plików. Musisz najpierw przetworzyć dokument za pomocą OCR PDF, aby zapewnić rozpoznawanie elementów tekstowych.
Pliki PDF chronione hasłem
Szyfrowanie blokuje analizę strukturalną. Użyj odblokuj PDF, aby usunąć hasło przed wgraniem pliki do konwersji XML.
Często zadawane pytania
Co robi konwersja PDF na XML?
Analizuje wewnętrzną strukturę pliku PDF i mapuje tekst, czcionki oraz elementy układu na węzły XML.
Czy to narzędzie rozpoznaje komórki tabeli?
Tak, podstawowe struktury tabel są mapowane na XML. Jednak w przypadku bezpośredniego importu do arkuszy kalkulacyjnych, konwersja na CSV jest często wydajniejsza.
Dlaczego w moim pliku XML brakuje tekstu?
Jeśli źródłowy plik PDF jest skanem lub składa się ze spłaszczonych obrazów, musisz najpierw zastosować OCR, aby wygenerować rozpoznawalny tekst.
Czy XML zawiera obrazy?
Nie. Dane wyjściowe XML koncentrują się wyłącznie na wyodrębnieniu tekstu strukturalnego i metadanych z dokumentu.
Czy mogę przetwarzać wiele plików PDF naraz?
Tak, możesz wgrać partię plików PDF. Narzędzie przeanalizuje je indywidualnie i wygeneruje oddzielne pliki XML.
Czy potrzebuję specjalnego oprogramowania do odczytu XML?
XML jest językiem znaczników w formacie czystego tekstu. Można go otworzyć w dowolnym edytorze kodu lub tekstu.
Czy wynik XML jest sformatowany?
Tak, wyodrębniony kod jest sformatowany ze standardowymi wcięciami, co czyni go czytelnym.
Czy moje dane są bezpieczne?
Tak. Analiza odbywa się przez bezpieczne połączenie HTTPS, a pliki PDF i wynikowe pliki XML są usuwane z naszych serwerów wkrótce po zakończeniu.