जावा का उपयोग करके ODT से पाठ निकालें

ओपनडॉक्यूमेंट टेक्स्ट (ODT) फ़ाइलें, जिन्हें अक्सर लिबरऑफिस और ओपनऑफिस जैसे वर्ड प्रोसेसर के साथ उपयोग किया जाता है, प्रोग्रामेटिक टेक्स्ट एक्सट्रैक्शन की बात आने पर चुनौतियाँ पेश कर सकती हैं, खासकर आगे की प्रोसेसिंग या विश्लेषण के लिए। यह लेख आपको Java में ODT से टेक्स्ट एक्सट्रैक्शन की प्रक्रिया से परिचित कराएगा। हम आवश्यक चरणों का विवरण देंगे और इस क्षमता को आपके Java प्रोजेक्ट में सहजता से एकीकृत करने के लिए नमूना कोड प्रदान करेंगे। Java का उपयोग करके ODT से टेक्स्ट एक्सट्रैक्शन प्राप्त करने के लिए, आपको एक ऐसी लाइब्रेरी की आवश्यकता होगी जो OpenDocument फ़ॉर्मेट का समर्थन करती हो। इस उद्देश्य के लिए, हम Parser लाइब्रेरी का उपयोग करेंगे, जो अपने शक्तिशाली API के लिए जानी जाती है जो ODT सहित विभिन्न दस्तावेज़ प्रकारों से टेक्स्ट एक्सट्रैक्शन की सुविधा प्रदान करती है।

जावा का उपयोग करके ODT से टेक्स्ट निकालने के चरण

  1. GroupDocs.Parser for Java को एकीकृत करके अपने विकास परिवेश को कॉन्फ़िगर करें, जो ODT फ़ाइलों से पाठ के निर्बाध निष्कर्षण को सक्षम बनाता है
  2. आरंभीकरण प्रक्रिया के भाग के रूप में एक Parser ऑब्जेक्ट बनाएं और ODT दस्तावेज़ का फ़ाइल पथ निर्दिष्ट करें
  3. दस्तावेज़ की सामग्री को पढ़ने के लिए TextReader इंस्टेंस प्राप्त करने के लिए Parser ऑब्जेक्ट पर getText विधि को कॉल करें
  4. ODT फ़ाइल से संपूर्ण पाठ्य डेटा प्राप्त करने और पढ़ने के लिए TextReader ऑब्जेक्ट पर readToEnd विधि को कॉल करें

Java में ODT टेक्स्ट एक्सट्रैक्शन के लिए बताए गए चरण Windows, macOS और Linux ऑपरेटिंग सिस्टम के साथ पूरी तरह से संगत हैं, इन प्लेटफ़ॉर्म पर आम तौर पर उपलब्ध सॉफ़्टवेयर के अलावा किसी अतिरिक्त सॉफ़्टवेयर की आवश्यकता नहीं है। यह विधि आपके ऑपरेटिंग सिस्टम द्वारा प्रदान किए गए मौजूदा संसाधनों पर पूरी तरह से निर्भर करते हुए, टेक्स्ट एक्सट्रैक्शन कार्यों को कुशलतापूर्वक स्वचालित करने की सुविधा प्रदान करती है। आवश्यक लाइब्रेरी स्थापित करने और फ़ाइल पथ सेट करने के बाद, प्रदान किए गए कोड को अपनी परियोजनाओं में शामिल करना एक सरल और सहज प्रक्रिया होनी चाहिए।

जावा का उपयोग करके ODT से टेक्स्ट निकालने का कोड

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.TextReader;
import com.groupdocs.parser.licensing.License;
public class ExtractTextfromODTusingJava {
public static void main(String[] args) throws Exception {
// Set License to avoid the limitations of Parser library
License license = new License();
license.setLicense("GroupDocs.Parser.lic");
// Create an instance of Parser class
try (Parser parser = new Parser("input.odt")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported"
: reader.readToEnd());
}
}
}
}

इस तकनीक को अपनी परियोजनाओं में एकीकृत करने से कुशल और विश्वसनीय Java ODT से पाठ पढ़ेगा प्रक्रिया सक्षम होगी, जिससे आपके एप्लिकेशन की कार्यक्षमता बढ़ेगी और आपके दस्तावेज़ प्रसंस्करण वर्कफ़्लो का अनुकूलन होगा। यह विधि दस्तावेज़ हैंडलिंग कार्यों को स्वचालित और सुव्यवस्थित करने के लिए एक मजबूत समाधान प्रदान करती है। चाहे आप डेटा माइग्रेशन, सामग्री विश्लेषण या रिपोर्ट निर्माण पर ध्यान केंद्रित कर रहे हों, यह दृष्टिकोण ODT फ़ाइलों से पाठ को प्रबंधित करने और संसाधित करने का एक भरोसेमंद और प्रभावी तरीका प्रदान करता है। इस क्षमता को शामिल करके, आप उत्पादकता में सुधार करेंगे और सुनिश्चित करेंगे कि आपके एप्लिकेशन जटिल पाठ निष्कर्षण कार्यों को आसानी से संभाल सकें।

इससे पहले, हमने जावा का उपयोग करके XLS फ़ाइलों से टेक्स्ट निकालने पर एक विस्तृत गाइड प्रदान की थी। विषय के अधिक गहन अन्वेषण के लिए, कृपया जावा का उपयोग करके XLS से पाठ निकालें पर हमारा पूरा ट्यूटोरियल देखें।

 हिन्दी