PDF को XML में बदलें
PDF फ़ाइलों से संरचित टेक्स्ट और मेटाडेटा को XML फ़ॉर्मेट में निकालें।
PDF को XML में कैसे बदलें
1.
PDF अपलोड करें – उस PDF दस्तावेज़ को चुनें जिसमें टेक्स्ट और स्ट्रक्चर है जिसे आप निकालना चाहते हैं।
2.
XML में निकालें – दस्तावेज़ स्ट्रक्चर को XML नोड्स में पार्स करने के लिए कनवर्ट पर क्लिक करें।
3.
XML डाउनलोड करें – निकाले गए XML फ़ाइल को अपने डिवाइस पर सहेजें।
नोड्स और मेटाडेटा एक्सट्रैक्शन
एक PDF दस्तावेज़ अपलोड करें। टूल टेक्स्ट स्ट्रिंग्स और लेआउट मार्कर्स को संरचित XML नोड्स में निकालता है।
स्कैन किए गए PDF पर ध्यान दें
स्टैंडर्ड XML एक्सट्रैक्शन केवल स्कैन की गई फ़ाइलों से इमेज कंटेनर ही कैप्चर करता है। टेक्स्ट को पहचानने के लिए आपको पहले दस्तावेज़ को OCR PDF के साथ प्रोसेस करना होगा।
पासवर्ड से सुरक्षित PDF
एन्क्रिप्शन स्ट्रक्चरल पार्सिंग को रोकता है। XML कन्वर्जन के लिए फ़ाइल अपलोड करने से पहले पासवर्ड हटाने के लिए PDF अनलॉक का उपयोग करें।
अक्सर पूछे जाने वाले सवाल
PDF से XML कन्वर्जन क्या करता है?
यह PDF के आंतरिक स्ट्रक्चर को पार्स करता है और टेक्स्ट, फोंट और लेआउट एलिमेंट्स को XML नोड्स में मैप करता है।
क्या यह टूल टेबल सेल्स को पहचान लेगा?
हाँ, बेसिक टेबल स्ट्रक्चर XML में मैप किए जाते हैं। हालाँकि, सीधे स्प्रेडशीट इम्पोर्ट के लिए, CSV में बदलना अक्सर अधिक कुशल होता है।
मेरी XML फ़ाइल में टेक्स्ट क्यों गायब है?
यदि स्रोत PDF एक स्कैन किया हुआ दस्तावेज़ है, तो आपको पार्स करने योग्य टेक्स्ट जनरेट करने के लिए पहले OCR करना होगा।
क्या XML में चित्र शामिल हैं?
नहीं। XML आउटपुट सख्ती से दस्तावेज़ के भीतर स्ट्रक्चरल टेक्स्ट और मेटाडेटा को एक्सपोज़ करने पर केंद्रित है।
क्या मैं एक साथ कई PDF प्रोसेस कर सकता हूँ?
हाँ, आप बैच अपलोड कर सकते हैं। टूल उन्हें अलग-अलग पार्स करेगा और अलग XML फ़ाइलें जनरेट करेगा।
क्या मुझे XML पढ़ने के लिए विशेष सॉफ़्टवेयर की आवश्यकता है?
XML एक सादा टेक्स्ट मार्कअप भाषा है। इसे किसी भी कोड एडिटर या टेक्स्ट एडिटर में खोला जा सकता है।
क्या XML आउटपुट फॉर्मेटेड है?
हाँ, निकाला गया कोड स्टैंडर्ड इंडेंटेशन के साथ फॉर्मेटेड है, जिससे इसे पढ़ना आसान हो जाता है।
क्या मेरा डेटा सुरक्षित है?
हाँ। पार्सिंग HTTPS पर होती है, और प्रोसेसिंग के कुछ समय बाद फ़ाइलें हमारे सर्वर से हटा दी जाती हैं।