ओपनडॉक्यूमेंट टेक्स्ट (ODT) फ़ाइलें, जो आमतौर पर लिबरऑफिस और ओपनऑफिस जैसे वर्ड प्रोसेसर के साथ उपयोग की जाती हैं, प्रोग्रामेटिक रूप से काम करने के लिए चुनौतीपूर्ण हो सकती हैं, खासकर यदि आपको आगे की प्रक्रिया या विश्लेषण के लिए टेक्स्ट निकालने की आवश्यकता है। यह लेख आपको C# में ODT से टेक्स्ट निकालने की प्रक्रिया के माध्यम से मार्गदर्शन करेगा। हम आपको आवश्यक चरणों के माध्यम से मार्गदर्शन करेंगे और आपके C# प्रोजेक्ट में इस कार्यक्षमता को आसानी से शामिल करने में आपकी सहायता के लिए नमूना कोड प्रदान करेंगे। C# का उपयोग करके ODT से टेक्स्ट निकालने के लिए, आपको एक लाइब्रेरी की आवश्यकता होगी जो ओपनडॉक्यूमेंट प्रारूप का समर्थन करती हो। इस उद्देश्य के लिए, हम .NET लाइब्रेरी के लिए GroupDocs.Parser का उपयोग करेंगे, जो ODT सहित विभिन्न दस्तावेज़ प्रारूपों से टेक्स्ट निकालने के लिए मजबूत API प्रदान करता है।
C# का उपयोग करके ODT से टेक्स्ट निकालने के चरण
- GroupDocs.Parser for .NET जोड़कर अपना विकास वातावरण सेट करें, जो ODT फ़ाइलों से पाठ निष्कर्षण को आसान बनाता है
- एक Parser ऑब्जेक्ट बनाएं और ऑब्जेक्ट को आरंभ करते समय अपनी ODT फ़ाइल का पथ सेट करें
- TextReader इंस्टैंस प्राप्त करने के लिए Parser ऑब्जेक्ट की GetText विधि का उपयोग करें
- ODT फ़ाइल से संपूर्ण पाठ सामग्री पढ़ने के लिए TextReader पर ReadToEnd विधि को कॉल करें
C# में ODT टेक्स्ट एक्सट्रैक्शन के लिए ऊपर बताए गए चरण विंडोज, मैकओएस और लिनक्स ऑपरेटिंग सिस्टम के साथ संगत हैं, इन प्लेटफ़ॉर्म के साथ आमतौर पर शामिल किए जाने वाले सॉफ़्टवेयर के अलावा किसी अतिरिक्त सॉफ़्टवेयर की आवश्यकता नहीं है। इस दृष्टिकोण की लचीलेपन का मतलब है कि आप अपने ऑपरेटिंग सिस्टम द्वारा पहले से उपलब्ध कराए गए सॉफ़्टवेयर के अलावा किसी अतिरिक्त सॉफ़्टवेयर की आवश्यकता के बिना टेक्स्ट एक्सट्रैक्शन कार्यों को स्वचालित कर सकते हैं। एक बार जब आप आवश्यक लाइब्रेरी स्थापित कर लेते हैं और फ़ाइल पथ कॉन्फ़िगर कर लेते हैं, तो आपके प्रोजेक्ट में दिए गए कोड को एकीकृत करना एक सीधा काम बन जाता है।
C# का उपयोग करके ODT से टेक्स्ट निकालने का कोड
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromODTusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.odt")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
इस तकनीक को अपनी परियोजनाओं में शामिल करके, आप ODT से C# द्वारा टेक्स्ट पढ़ने की कुशल और विश्वसनीय कार्यक्षमता सुनिश्चित कर सकते हैं, अपने एप्लिकेशन की क्षमताओं को बढ़ा सकते हैं और अपने दस्तावेज़ प्रसंस्करण वर्कफ़्लो को सुव्यवस्थित कर सकते हैं। ODT फ़ाइलों से टेक्स्ट निकालना आपके दस्तावेज़ प्रसंस्करण वर्कफ़्लो को स्वचालित और सुव्यवस्थित करने का एक शक्तिशाली तरीका है। चाहे आप डेटा माइग्रेशन, सामग्री विश्लेषण या रिपोर्ट निर्माण से निपट रहे हों, यह विधि ODT फ़ाइलों से टेक्स्ट को प्रबंधित और संसाधित करने का एक विश्वसनीय और कुशल तरीका प्रदान करती है। अपनी परियोजनाओं में इस क्षमता को एकीकृत करके, आप उत्पादकता बढ़ा सकते हैं और सुनिश्चित कर सकते हैं कि आपके एप्लिकेशन जटिल टेक्स्ट निष्कर्षण कार्यों को आसानी से संभालें।
इससे पहले, हमने C# का उपयोग करके XLS फ़ाइलों से टेक्स्ट निकालने पर एक गहन गाइड पेश की थी। अधिक विस्तृत जानकारी के लिए, C# का उपयोग करके XLS से पाठ निकालें पर हमारा पूरा ट्यूटोरियल अवश्य पढ़ें।