Конвертировать PDF в XML
Извлекайте структурированный текст и метаданные из PDF-файлов в формат XML.
Как конвертировать PDF в XML
1.
Загрузите PDF – Выберите документ PDF, содержащий текст и структуру, которые нужно извлечь.
2.
Извлеките в XML – Нажмите кнопку конвертации, чтобы разобрать структуру документа на XML-узлы.
3.
Скачайте XML – Сохраните извлеченный XML-файл на ваше устройство.
Извлечение узлов и метаданных
Загрузите PDF-документ. Инструмент извлекает текстовые строки и маркеры разметки в структурированные XML-узлы.
Особенности отсканированных PDF
Стандартное извлечение XML захватывает только контейнеры изображений из отсканированных файлов. Вам необходимо сначала обработать документ с помощью OCR PDF, чтобы обеспечить распознавание текста.
PDF, защищенные паролем
Шифрование блокирует структурный анализ. Используйте разблокировку PDF, чтобы снять пароль перед загрузкой файла для конвертации в XML.
Часто задаваемые вопросы
Что делает конвертация PDF в XML?
Она разбирает внутреннюю структуру PDF и сопоставляет текст, шрифты и элементы разметки с узлами XML.
Распознает ли этот инструмент ячейки таблиц?
Да, базовые структуры таблиц сопоставляются с XML. Однако для прямого импорта в электронные таблицы конвертация в CSV часто более эффективна.
Почему в моем XML-файле отсутствует текст?
Если исходный PDF является отсканированным или состоит из плоских изображений, вам нужно сначала применить OCR для создания распознаваемого текста.
Включает ли XML изображения?
Нет. Выходной XML строго ориентирован на представление структурированного текста и метаданных документа.
Можно ли обрабатывать несколько PDF одновременно?
Да, вы можете загрузить пакет PDF. Инструмент разберет их по отдельности и создаст отдельные файлы XML.
Нужно ли специальное ПО для чтения XML?
XML — это язык разметки в текстовом формате. Его можно открыть любым редактором кода или текстовым редактором.
Форматируется ли выходной XML?
Да, извлеченный код форматируется со стандартными отступами, что делает его легко читаемым.
Безопасны ли мои данные?
Да. Анализ происходит по протоколу HTTPS, и как ваши PDF, так и итоговые XML-файлы удаляются с наших серверов вскоре после обработки.