PDF को XML में बदलें

PDF फ़ाइलों से संरचित टेक्स्ट और मेटाडेटा को XML फ़ॉर्मेट में निकालें।

या PDFs यहाँ छोड़ें
या ब्राउज़ करने के लिए क्लिक करें

PDF को XML में कैसे बदलें

1.

PDF अपलोड करें – उस PDF दस्तावेज़ को चुनें जिसमें टेक्स्ट और स्ट्रक्चर है जिसे आप निकालना चाहते हैं।

2.

XML में निकालें – दस्तावेज़ स्ट्रक्चर को XML नोड्स में पार्स करने के लिए कनवर्ट पर क्लिक करें।

3.

XML डाउनलोड करें – निकाले गए XML फ़ाइल को अपने डिवाइस पर सहेजें।

नोड्स और मेटाडेटा एक्सट्रैक्शन

एक PDF दस्तावेज़ अपलोड करें। टूल टेक्स्ट स्ट्रिंग्स और लेआउट मार्कर्स को संरचित XML नोड्स में निकालता है।

स्कैन किए गए PDF पर ध्यान दें

स्टैंडर्ड XML एक्सट्रैक्शन केवल स्कैन की गई फ़ाइलों से इमेज कंटेनर ही कैप्चर करता है। टेक्स्ट को पहचानने के लिए आपको पहले दस्तावेज़ को OCR PDF के साथ प्रोसेस करना होगा।

पासवर्ड से सुरक्षित PDF

एन्क्रिप्शन स्ट्रक्चरल पार्सिंग को रोकता है। XML कन्वर्जन के लिए फ़ाइल अपलोड करने से पहले पासवर्ड हटाने के लिए PDF अनलॉक का उपयोग करें।

अक्सर पूछे जाने वाले सवाल

PDF से XML कन्वर्जन क्या करता है?
यह PDF के आंतरिक स्ट्रक्चर को पार्स करता है और टेक्स्ट, फोंट और लेआउट एलिमेंट्स को XML नोड्स में मैप करता है।
क्या यह टूल टेबल सेल्स को पहचान लेगा?
हाँ, बेसिक टेबल स्ट्रक्चर XML में मैप किए जाते हैं। हालाँकि, सीधे स्प्रेडशीट इम्पोर्ट के लिए, CSV में बदलना अक्सर अधिक कुशल होता है।
मेरी XML फ़ाइल में टेक्स्ट क्यों गायब है?
यदि स्रोत PDF एक स्कैन किया हुआ दस्तावेज़ है, तो आपको पार्स करने योग्य टेक्स्ट जनरेट करने के लिए पहले OCR करना होगा।
क्या XML में चित्र शामिल हैं?
नहीं। XML आउटपुट सख्ती से दस्तावेज़ के भीतर स्ट्रक्चरल टेक्स्ट और मेटाडेटा को एक्सपोज़ करने पर केंद्रित है।
क्या मैं एक साथ कई PDF प्रोसेस कर सकता हूँ?
हाँ, आप बैच अपलोड कर सकते हैं। टूल उन्हें अलग-अलग पार्स करेगा और अलग XML फ़ाइलें जनरेट करेगा।
क्या मुझे XML पढ़ने के लिए विशेष सॉफ़्टवेयर की आवश्यकता है?
XML एक सादा टेक्स्ट मार्कअप भाषा है। इसे किसी भी कोड एडिटर या टेक्स्ट एडिटर में खोला जा सकता है।
क्या XML आउटपुट फॉर्मेटेड है?
हाँ, निकाला गया कोड स्टैंडर्ड इंडेंटेशन के साथ फॉर्मेटेड है, जिससे इसे पढ़ना आसान हो जाता है।
क्या मेरा डेटा सुरक्षित है?
हाँ। पार्सिंग HTTPS पर होती है, और प्रोसेसिंग के कुछ समय बाद फ़ाइलें हमारे सर्वर से हटा दी जाती हैं।

TOOLS