आधुनिक डिजिटल परिदृश्य में, जावा प्रोग्रामिंग का उपयोग करके दस्तावेज़ों से पाठ निकालने की क्षमता निश्चित रूप से फायदेमंद है। चाहे आप डेटा पुनर्प्राप्ति को स्वचालित कर रहे हों, खोज सुविधाओं को लागू कर रहे हों, या पाठ्य विश्लेषण कर रहे हों, पीडीएफ को प्रोग्रामेटिक रूप से हेरफेर करने की क्षमता आपके वर्कफ़्लो को महत्वपूर्ण रूप से बढ़ा सकती है और उत्पादकता बढ़ा सकती है। इस गाइड में, हम आपको जावा का उपयोग करके पीडीएफ से टेक्स्ट निकालने के बुनियादी चरणों के बारे में बताएंगे। आप नीचे दिए गए चरणों का पालन करके जावा में पीडीएफ से टेक्स्ट को कुशलतापूर्वक निकालने के लिए व्यूअर लाइब्रेरी की क्षमताओं का उपयोग कर सकते हैं।
जावा का उपयोग करके पीडीएफ से टेक्स्ट निकालने के चरण
- पीडीएफ टेक्स्ट पढ़ने के लिए मेवेन रिपोजिटरी का उपयोग करके GroupDocs.Viewer for Java इंस्टॉल करें
- पीडीएफ टेक्स्ट निकालने के लिए, अपने प्रोजेक्ट में GroupDocs.Viewer संदर्भ जोड़ें
- इसके कंस्ट्रक्टर में इनपुट पीडीएफ फ़ाइल के पथ का उपयोग करके Viewer क्लास ऑब्जेक्ट को इंस्टेंट करें
- दृश्य के बारे में जानकारी प्राप्त करने के लिए ViewInfoOptions.forHtmlView विधि पर कॉल करें
- पीडीएफ टेक्स्ट निष्कर्षण को सक्षम करने के लिए ViewInfoOptions.extractText प्रॉपर्टी का मान true पर सेट करें
- पीडीएफ पेजों की पूरी सूची प्राप्त करने के लिए PdfViewInfo.Pages प्रॉपर्टी का उपयोग करें
- प्रत्येक पंक्ति के पाठ को पढ़ने के लिए Page.Lines प्रॉपर्टी का उपयोग करके प्रत्येक पृष्ठ पर पंक्तियों के संग्रह पर पुनरावृति करें
जावा का उपयोग करके पीडीएफ फाइलों से पाठ निकालने का ज्ञान प्राप्त करना आपको पीडीएफ दस्तावेजों में संलग्न मूल्यवान जानकारी का लाभ उठाने की क्षमता प्रदान करता है। चाहे आप डेटा-केंद्रित परियोजनाओं, दस्तावेज़ प्रबंधन, या व्यावसायिक वर्कफ़्लो को सुव्यवस्थित करने में लगे हों, यह विशेषज्ञता एक मूल्यवान संपत्ति साबित होती है। पीडीएफ से जावा एक्सट्रेक्ट डेटा विधि को लागू करना एक सीधा काम है, और यह विंडोज, मैकओएस और लिनक्स जैसे प्रचलित ऑपरेटिंग सिस्टम के साथ संगत है, बशर्ते कि आपकी मशीन पर जावा इंस्टॉल हो। नीचे दिया गया कोड उदाहरण जावा का उपयोग करके पीडीएफ फाइल से टेक्स्ट निकालने की प्रक्रिया को दर्शाता है।
जावा का उपयोग करके पीडीएफ से टेक्स्ट निकालने के लिए कोड
import com.groupdocs.viewer.License; | |
import com.groupdocs.viewer.Viewer; | |
import com.groupdocs.viewer.options.ViewInfoOptions; | |
import com.groupdocs.viewer.results.Line; | |
import com.groupdocs.viewer.results.Page; | |
import com.groupdocs.viewer.results.PdfViewInfo; | |
public class ExtractTextfromPDFUsingJava { | |
public static void main(String[] args) throws Exception { | |
// Set License to avoid the limitations of Viewer library | |
License license = new License(); | |
license.setLicense("GroupDocs.Viewer.lic"); | |
Viewer viewer = new Viewer("input.pdf"); | |
ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView(); | |
viewInfoOptions.setExtractText(true); | |
PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions); | |
// Retrieve text from the PDF file. | |
System.out.println("Extracted document text:"); | |
for (Page page : viewInfo.getPages()) { | |
for (Line line : page.getLines()) { | |
System.out.println(line.getValue()); | |
} | |
} | |
} | |
} |
इस ट्यूटोरियल में, हमने पूरी प्रक्रिया जावा को पीडीएफ से टेक्स्ट प्राप्त करने को कवर किया है। आप ऊपर बताए गए चरणों का पालन करके इस पाठ निष्कर्षण प्रक्रिया को विभिन्न अनुप्रयोगों के लिए निर्बाध रूप से लागू कर सकते हैं। एक बार जब आप अनुशंसित लाइब्रेरी को कुशलतापूर्वक स्थापित कर लेते हैं और फ़ाइल पथों में आवश्यक समायोजन कर लेते हैं, तो टेक्स्ट निष्कर्षण कोड को अपनी परियोजनाओं में एकीकृत करना एक सरल और परेशानी मुक्त कार्य बन जाता है।
हमारे पिछले ट्यूटोरियल में, हमने पीडीएफ को पीएनजी में परिवर्तित करने के विषय पर ध्यान केंद्रित किया था। यदि आपको अतिरिक्त मार्गदर्शन की आवश्यकता है, तो हम जावा का उपयोग करके पीडीएफ को पीएनजी के रूप में प्रस्तुत करें पर हमारे लेख से परामर्श लेने की अनुशंसा करते हैं।