Chuyển PDF sang XML
Trích xuất văn bản có cấu trúc và siêu dữ liệu từ tệp PDF sang định dạng XML.
Cách chuyển đổi PDF sang XML
1.
Tải lên PDF – Chọn tài liệu PDF chứa văn bản và cấu trúc bạn cần trích xuất.
2.
Trích xuất XML – Nhấp vào chuyển đổi để bóc tách cấu trúc tài liệu thành các nút XML.
3.
Tải xuống XML – Lưu tệp XML đã trích xuất về thiết bị của bạn.
Trích xuất Nút & Siêu dữ liệu
Tải lên tài liệu PDF. Công cụ sẽ bóc tách các chuỗi văn bản và dấu hiệu bố cục thành các nút XML có cấu trúc.
Lưu ý đối với PDF dạng ảnh quét
Trích xuất XML tiêu chuẩn chỉ nắm bắt được các khung ảnh từ tệp quét. Bạn phải xử lý tài liệu bằng OCR PDF trước để đảm bảo các thành phần văn bản được nhận diện.
PDF có mật khẩu bảo vệ
Mã hóa sẽ chặn việc bóc tách cấu trúc. Hãy sử dụng mở khóa PDF để loại bỏ mật khẩu trước khi tải tệp lên để chuyển đổi XML.
Câu hỏi thường gặp
Chuyển đổi PDF sang XML có tác dụng gì?
Nó bóc tách cấu trúc nội bộ của PDF và ánh xạ văn bản, phông chữ và các thành phần bố cục vào các nút XML.
Công cụ này có nhận diện được các ô trong bảng không?
Có, các cấu trúc bảng cơ bản sẽ được ánh xạ vào XML. Tuy nhiên, để nhập trực tiếp vào bảng tính, việc chuyển sang CSV thường hiệu quả hơn.
Tại sao tệp XML của tôi bị thiếu văn bản?
Nếu PDF gốc là tài liệu quét hoặc ảnh phẳng, bạn cần chạy OCR trước để tạo ra văn bản có thể bóc tách được.
Tệp XML có bao gồm hình ảnh không?
Không. Đầu ra XML tập trung nghiêm ngặt vào việc hiển thị văn bản cấu trúc và siêu dữ liệu trong tài liệu.
Tôi có thể xử lý nhiều tệp PDF cùng lúc không?
Có, bạn có thể tải lên hàng loạt. Công cụ sẽ bóc tách riêng lẻ từng tệp và xuất ra các tệp XML khác nhau.
Tôi có cần phần mềm đặc biệt để đọc XML không?
XML là ngôn ngữ đánh dấu dạng văn bản thuần túy. Bạn có thể mở nó bằng bất kỳ trình chỉnh sửa mã, trình soạn thảo văn bản nào hoặc phân tích bằng code.
Đầu ra XML có được định dạng không?
Có, mã XML được trích xuất có thụt đầu dòng tiêu chuẩn, giúp con người có thể đọc được ngay.
Dữ liệu của tôi có an toàn không?
Có. Quá trình bóc tách diễn ra qua HTTPS, và cả tệp PDF tải lên lẫn tệp XML kết quả đều được xóa khỏi máy chủ của chúng tôi sau khi xử lý.