PDFをXMLに変換

PDFファイルから構造化されたテキストとメタデータを抽出し、XML形式で保存します。

またはここにPDFをドロップ
またはクリックして参照

PDFをXMLに変換する方法

1.

PDFをアップロード – テキストと構造を抽出したいPDFドキュメントを選択します。

2.

XMLへ抽出 – 変換をクリックして、ドキュメント構造をXMLノードに解析します。

3.

XMLをダウンロード – 抽出されたXMLファイルをデバイスに保存します。

ノードとメタデータの抽出

PDFドキュメントをアップロードすると、ツールがテキストおよびレイアウト情報を構造化されたXMLノードとして抽出します。

スキャンされたPDFについて

スキャンデータの場合、標準の抽出では画像情報のみ取得されます。テキストを正確に認識させるには、あらかじめOCR PDFで処理を行ってください。

パスワード保護されたPDF

暗号化されていると構造解析が制限されます。抽出前にPDFパスワード解除を使用してセキュリティを解除してください。

よくある質問

PDFからXMLへの変換で何ができますか?
PDFの内部構造を解析し、テキスト、フォント、レイアウト要素をXMLノードに関連付けます。
表のセルも認識されますか?
はい、基本的な表構造はXMLに反映されます。ただし、スプレッドシートへのインポートが目的の場合は、CSVへの変換の方が効率的です。
XMLファイルにテキストが含まれていないのはなぜですか?
元のPDFがスキャンデータや画像のみで構成されている場合、OCR処理を行わない限り解析可能なテキストデータとして出力されません。
XMLに画像も含まれますか?
いいえ。XML出力は、ドキュメント内の構造化テキストとメタデータの公開に厳密に焦点を当てています。
複数のPDFを同時に処理できますか?
はい。複数のPDFを一度にアップロードでき、個別に解析されてそれぞれXMLファイルとして出力されます。
XMLを読むのに専用ソフトは必要ですか?
XMLはテキストベースの言語です。任意のコードエディタ、テキストエディタで開くことができ、プログラムで解析することも可能です。
XMLは整形されていますか?
はい。抽出されたコードは標準的なインデントで整形(プリティプリント)されており、そのままの状態でも読みやすくなっています。
セキュリティは安全ですか?
はい。すべての通信はHTTPSで行われ、完了後短時間でファイルはサーバーから自動的に完全削除されます。

TOOLS