डेटा विश्लेषण, सामग्री अनुक्रमण और पाठ प्रसंस्करण जैसे कई अनुप्रयोगों के लिए PDF से पाठ निकालना आवश्यक है। दस्तावेज़ भंडारण के लिए पीडीएफ का व्यापक रूप से उपयोग किया जाता है, लेकिन उनसे पढ़ने योग्य पाठ को मैन्युअल रूप से निकालना समय लेने वाला और अक्षम हो सकता है। सौभाग्य से, Node.js के साथ, हम इस प्रक्रिया को स्वचालित कर सकते हैं और एक विश्वसनीय दस्तावेज़ रूपांतरण लाइब्रेरी का उपयोग करके पाठ को कुशलतापूर्वक निकाल सकते हैं। एक सरल स्क्रिप्ट लिखकर, हम Node.js का उपयोग करके पीडीएफ को टेक्स्ट में परिवर्तित कर सकते हैं, जिससे विभिन्न दस्तावेजों से पाठ्य सामग्री को संभालना आसान हो जाता है। यह दृष्टिकोण उन व्यवसायों के लिए विशेष रूप से उपयोगी है जो रिपोर्ट, अनुबंध या स्कैन किए गए दस्तावेज़ों से निपटते हैं जिन्हें पाठ निष्कर्षण की आवश्यकता होती है। इस लेख में, हम कोड की कुछ पंक्तियों का उपयोग करके Node.js में टेक्स्ट में पीडीएफ निर्यात करने की एक आसान विधि के बारे में जानेंगे।
Node.js का उपयोग करके पीडीएफ को टेक्स्ट में बदलने के चरण
- पीडीएफ-टू-टेक्स्ट रूपांतरण सक्षम करने के लिए अपने प्रोजेक्ट में जावा के माध्यम से Node.js के लिए GroupDocs.Conversion सेट अप और एकीकृत करें
- विभिन्न फ़ाइल प्रारूप रूपांतरणों को प्रबंधित करने के लिए रूपांतरण मॉड्यूल को अपने एप्लिकेशन में आयात करें
- Converter क्लास को इंस्टेंट करें और पीडीएफ दस्तावेज़ को लोड करने के लिए फ़ाइल पथ प्रदान करें
- टेक्स्ट निष्कर्षण के लिए रूपांतरण सेटिंग्स कॉन्फ़िगर करें और आउटपुट स्वरूप के रूप में TXT का चयन करें
- पीडीएफ को संसाधित करने और एक टेक्स्ट फ़ाइल तैयार करने के लिए कनवर्टर क्लास की कन्वर्ट विधि को कॉल करें
नीचे दिया गया कोड सबसे पहले रूपांतरण लाइब्रेरी को आरंभ करता है और पीडीएफ फाइल को लोड करता है। इसके बाद यह WordProcessingConvertOptions का उपयोग करके आउटपुट स्वरूप को सादे पाठ के रूप में निर्दिष्ट करता है, यह सुनिश्चित करता है कि अनावश्यक स्वरूपण को अनदेखा करते हुए सभी पठनीय पाठ निकाला जाता है। निकाले गए टेक्स्ट को .txt फ़ाइल में सहेजा जाता है, जिससे आगे की प्रक्रिया करना आसान हो जाता है। यह दृष्टिकोण उन अनुप्रयोगों के लिए फायदेमंद है जिनके लिए प्राकृतिक भाषा प्रसंस्करण, सामग्री अनुक्रमण या स्वचालित पाठ विश्लेषण की आवश्यकता होती है। इसके अतिरिक्त, यह विधि बड़े दस्तावेज़ों को संभालने के लिए कुशल है, यह सुनिश्चित करते हुए कि महत्वपूर्ण टेक्स्ट डेटा को मैन्युअल हस्तक्षेप के बिना बनाए रखा जाता है। निम्नलिखित स्क्रिप्ट दर्शाती है कि न्यूनतम प्रयास के साथ Node.js में पीडीएफ से टेक्स्ट कैसे उत्पन्न किया जाए।
Node.js का उपयोग करके पीडीएफ को टेक्स्ट में बदलने के लिए कोड
const conversion = require('@groupdocs/groupdocs.conversion') | |
const licensePath = "GroupDocs.Search.lic"; | |
const license = new conversion.License() | |
license.setLicense(licensePath); | |
// Load the input PDF file | |
const converter = new conversion.Converter("sample.pdf"); | |
const options = new conversion.WordProcessingConvertOptions(); | |
options.setFormat(conversion.WordProcessingFileType.Txt); | |
// Save output TXT to disk | |
converter.convert("output.txt", options); | |
process.exit(0); |
इस समाधान को अपने वर्कफ़्लो में एकीकृत करने से दस्तावेज़ प्रसंस्करण सरल हो जाता है और उत्पादकता बढ़ जाती है। यह कोड की कुछ पंक्तियों के साथ चालान, अनुबंध और रिपोर्ट से तेज़, सटीक पाठ निष्कर्षण को सक्षम बनाता है। Node.js का उपयोग करके पीडीएफ को टेक्स्ट में बदलने की प्रक्रिया स्वचालन को सुव्यवस्थित करती है, डेटा पहुंच में सुधार करती है, और खोज क्षमता को बढ़ाती है। वित्त, कानूनी और स्वास्थ्य देखभाल जैसे उद्योगों के लिए आदर्श, यह समय बचाता है, त्रुटियों को कम करता है, और निर्बाध दस्तावेज़ प्रबंधन के लिए वर्कफ़्लो को अनुकूलित करता है।
पहले, हमने Node.js का उपयोग करके पीडीएफ को एक्सेल में परिवर्तित करने पर एक विस्तृत गाइड प्रदान किया था। चरण-दर-चरण पूर्वाभ्यास के लिए, Node.js का उपयोग करके PDF को Excel में बदलें कैसे करें, इस पर हमारा गहन ट्यूटोरियल देखें।