PDFをXMLに変換

PDFファイルから構造化されたテキストとメタデータを抽出し、XML形式で保存します。

PDFをXMLに変換する方法

PDFをアップロード – テキストと構造を抽出したいPDFドキュメントを選択します。

XMLへ抽出 – 変換をクリックして、ドキュメント構造をXMLノードに解析します。

XMLをダウンロード – 抽出されたXMLファイルをデバイスに保存します。

ノードとメタデータの抽出

PDFドキュメントをアップロードすると、ツールがテキストおよびレイアウト情報を構造化されたXMLノードとして抽出します。

スキャンされたPDFについて

スキャンデータの場合、標準の抽出では画像情報のみ取得されます。テキストを正確に認識させるには、あらかじめOCR PDFで処理を行ってください。

パスワード保護されたPDF

暗号化されていると構造解析が制限されます。抽出前にPDFパスワード解除を使用してセキュリティを解除してください。

よくある質問

PDFからXMLへの変換で何ができますか？

PDFの内部構造を解析し、テキスト、フォント、レイアウト要素をXMLノードに関連付けます。

表のセルも認識されますか？

はい、基本的な表構造はXMLに反映されます。ただし、スプレッドシートへのインポートが目的の場合は、CSVへの変換の方が効率的です。

XMLファイルにテキストが含まれていないのはなぜですか？

元のPDFがスキャンデータや画像のみで構成されている場合、OCR処理を行わない限り解析可能なテキストデータとして出力されません。

XMLに画像も含まれますか？

いいえ。XML出力は、ドキュメント内の構造化テキストとメタデータの公開に厳密に焦点を当てています。

複数のPDFを同時に処理できますか？

はい。複数のPDFを一度にアップロードでき、個別に解析されてそれぞれXMLファイルとして出力されます。

XMLを読むのに専用ソフトは必要ですか？

XMLはテキストベースの言語です。任意のコードエディタ、テキストエディタで開くことができ、プログラムで解析することも可能です。

XMLは整形されていますか？

はい。抽出されたコードは標準的なインデントで整形（プリティプリント）されており、そのままの状態でも読みやすくなっています。

セキュリティは安全ですか？

はい。すべての通信はHTTPSで行われ、完了後短時間でファイルはサーバーから自動的に完全削除されます。

TOOLS

マージ＆編集

PDFを編集

PDFをマージ

PDFを回転

ページを削除

PDFを整理

PDFを分割

PDFを1ページに