In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. पुराने होने के बावजूद, यह अभी भी कई संगठनों में व्यापक रूप से उपयोग किया जाता है, जिससे डेवलपर्स के लिए इन दस्तावेज़ों से पाठ निकालने में सक्षम होना महत्वपूर्ण हो जाता है। यहाँ C# का उपयोग करके DOC से पाठ निकालने के मुख्य चरण दिए गए हैं।
C# का उपयोग करके DOC से टेक्स्ट निकालने के चरण
- GroupDocs.Parser for .NET स्थापित करके अपना विकास वातावरण सेट करें, जो आपको DOC फ़ाइलों से पाठ खींचने में मदद करता है
- एक नया Parser ऑब्जेक्ट बनाएं और उसे अपनी DOC फ़ाइल का स्थान दें
- TextReader प्राप्त करने के लिए Parser ऑब्जेक्ट की GetText विधि का उपयोग करें
- अंत में, सभी पाठ को पढ़ने के लिए TextReader की ReadToEnd विधि का उपयोग करें
ऊपर बताए गए चरण विंडोज, मैकओएस या लिनक्स पर बिना किसी अतिरिक्त सॉफ़्टवेयर की आवश्यकता के काम करते हैं। आपको बस अपने सिस्टम पर .NET इंस्टॉल करना होगा। पार्सर लाइब्रेरी टेक्स्ट एक्सट्रैक्शन को संभालने का एक शक्तिशाली और कुशल तरीका प्रदान करती है, जो इसे लीगेसी DOC फ़ाइलों के साथ काम करने वाले डेवलपर्स के लिए एक बेहतरीन विकल्प बनाती है। यह दृष्टिकोण दस्तावेज़ सामग्री के साथ काम करने की आपकी क्षमता को बढ़ाता है, उत्पादकता और डेटा हैंडलिंग क्षमताओं दोनों में सुधार करता है। अपने परिवेश को कॉन्फ़िगर करने के बाद, आप C# में DOC टेक्स्ट एक्सट्रैक्शन के लिए नीचे दिए गए कोड को लागू कर सकते हैं।
C# का उपयोग करके DOC से टेक्स्ट निकालने का कोड
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
चाहे आप दस्तावेज़ रूपांतरण, डेटा विश्लेषण या सामग्री प्रबंधन पर काम कर रहे हों, यह दृष्टिकोण आपको प्रक्रिया को स्वचालित करने और आपके एप्लिकेशन की दक्षता में सुधार करने में मदद करेगा। यह दृष्टिकोण दस्तावेज़ सामग्री के साथ काम करने की आपकी क्षमता को बढ़ाता है, उत्पादकता और डेटा हैंडलिंग क्षमताओं दोनों में सुधार करता है। इस लेख का पालन करके, आप अपने अनुप्रयोगों में C# रीड टेक्स्ट फ्रॉम DOC को सहजता से एकीकृत करने में सक्षम होंगे, जिससे कुशल और विश्वसनीय दस्तावेज़ प्रसंस्करण सुनिश्चित होगा। एक बार जब आप अनुशंसित लाइब्रेरी सेट कर लेते हैं और फ़ाइल पथ समायोजित कर लेते हैं, तो आपके प्रोजेक्ट में दिए गए कोड को जोड़ना आसान हो जाना चाहिए।
इससे पहले, हमने C# का उपयोग करके XLSX से टेक्स्ट निकालने के बारे में विस्तृत गाइड प्रदान की थी। अधिक गहन समझ के लिए, C# का उपयोग करके XLSX से टेक्स्ट निकालें पर हमारा पूरा ट्यूटोरियल देखें।