MHTML (MIME HTML) फ़ाइलें, एक वेब आर्काइव फ़ॉर्मेट, टेक्स्ट, इमेज और लिंक सहित पूरे वेबपेज की सामग्री को एक ही फ़ाइल में सहेजने की अनुमति देती हैं। विश्लेषण, दस्तावेज़ प्रबंधन या स्वचालित रिपोर्ट बनाने जैसे कार्यों के लिए वेब डेटा के साथ काम करते समय MHTML फ़ाइलों से टेक्स्ट निकालना आवश्यक हो जाता है। इस लेख में, हम Java का उपयोग करके MHTML से टेक्स्ट निकालने के तरीके को कवर करेंगे, जिससे डेवलपर्स को विभिन्न उपयोगों के लिए इन फ़ाइलों से मूल्यवान जानकारी प्राप्त करने का एक व्यावहारिक तरीका मिलेगा। उचित उपकरण और तकनीक के साथ, Java में MHTML से टेक्स्ट निकालना एक सरल प्रक्रिया है। सुनिश्चित करें कि आपके पास नवीनतम Java Development Kit (JDK), IntelliJ IDEA या Eclipse जैसा IDE और आपके Java प्रोजेक्ट में सफल कार्यान्वयन के लिए Parser लाइब्रेरी है।
जावा का उपयोग करके MHTML से टेक्स्ट निकालने के चरण
- GroupDocs.Parser for Java लाइब्रेरी को एकीकृत करके अपने विकास परिवेश को कॉन्फ़िगर करें, जो MHTML फ़ाइलों से निर्बाध पाठ निष्कर्षण को सक्षम बनाता है
- Parser क्लास को इंस्टैंसिएट करें, कन्स्ट्रक्टर में अपनी MHTML फ़ाइल का पथ प्रदान करें
- TextReader ऑब्जेक्ट प्राप्त करने के लिए Parser इंस्टेंस पर getText विधि को कॉल करें, जो आपको टेक्स्ट सामग्री तक पहुंचने की अनुमति देता है
- MHTML फ़ाइल से सभी पाठ को पुनः प्राप्त करने और पढ़ने के लिए TextReader पर readToEnd विधि का उपयोग करें
एक बार जब आप फ़ाइल पथ कॉन्फ़िगर कर लेते हैं, तो आपके प्रोजेक्ट में दिए गए कोड उदाहरण को शामिल करना एक सरल कार्य बन जाता है। अपने विकास वातावरण को सेट करने के बाद, Java में MHTML टेक्स्ट निष्कर्षण एक आसान और कुशल प्रक्रिया है। अपनी MHTML फ़ाइल के लिए एक पार्सर ऑब्जेक्ट बनाकर शुरू करें। फिर, TextReader को प्राप्त करने के लिए getText विधि का उपयोग करें, जो फ़ाइल की टेक्स्ट सामग्री तक पहुँच प्रदान करता है। एक चरण में सभी टेक्स्ट को निकालने के लिए, TextReader पर readToEnd विधि को कॉल करें। यह दृष्टिकोण विशेष रूप से बड़ी मात्रा में वेब सामग्री को संसाधित करने या वेब संग्रह रूपांतरणों को स्वचालित करने के लिए उपयोगी है।
जावा का उपयोग करके MHTML से टेक्स्ट निकालने का कोड
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.TextReader; | |
import com.groupdocs.parser.licensing.License; | |
public class ExtractTextfromMHTMLusingJava { | |
public static void main(String[] args) throws Exception { | |
// Set License to avoid the limitations of Parser library | |
License license = new License(); | |
license.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("input.mhtml")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" | |
: reader.readToEnd()); | |
} | |
} | |
} | |
} |
आप Windows, macOS और Linux सिस्टम पर Java MHTML से टेक्स्ट पढ़ें कार्य को प्रभावी ढंग से कर सकते हैं। यह Java द्वारा प्रदान किए जाने वाले किसी भी अतिरिक्त सॉफ़्टवेयर की आवश्यकता के बिना प्राप्त किया जा सकता है। टेक्स्ट निष्कर्षण की प्रक्रिया वेब सामग्री पर ध्यान केंद्रित करने वाले या दस्तावेज़ स्वचालन समाधान बनाने वाले डेवलपर्स के लिए एक महत्वपूर्ण तकनीक है। चाहे आप बड़े पैमाने पर डेटा स्क्रैपिंग, सामग्री विश्लेषण या संग्रह में शामिल हों, MHTML फ़ाइलों से प्रोग्रामेटिक रूप से टेक्स्ट निकालने की क्षमता आपके वर्कफ़्लो को अनुकूलित करेगी और आपके एप्लिकेशन की कार्यक्षमता में सुधार करेगी।
इससे पहले, हमने जावा के साथ TXT फ़ाइलों से टेक्स्ट निकालने पर एक विस्तृत गाइड प्रकाशित की थी। अधिक गहन अन्वेषण के लिए, कृपया जावा का उपयोग करके TXT से पाठ निकालें पर हमारे संपूर्ण ट्यूटोरियल को देखें।