यह आलेख दस्तावेज़ डेटा निकालने के लिए सर्वोत्तम .NET API में से किसी एक का उपयोग करके दस्तावेज़ों से टेक्स्ट निकालने के लिए सभी आवश्यक जानकारी के माध्यम से जाता है और आपको C#** का उपयोग करके Word दस्तावेज़ से टेक्स्ट निकालने के तरीके के बारे में मार्गदर्शन करता है। इसके अलावा, यह आवश्यक पैकेज को कॉन्फ़िगर करने के लिए जानकारी प्रदान करता है और वर्ड डॉक्यूमेंट से **सी# एक्सट्रेक्ट टेक्स्ट ** एप्लिकेशन के कार्यान्वयन को प्रदर्शित करने के लिए एक कार्यशील उदाहरण प्रदान करता है। Word दस्तावेज़ों से पाठ प्राप्त करने के लिए मुख्य चरण और साथ ही नमूना कोड यहां दिए गए हैं।
सी # का उपयोग कर वर्ड दस्तावेज़ से टेक्स्ट निकालने के लिए कदम
- Word दस्तावेज़ से टेक्स्ट निकालने के लिए .NET प्रोजेक्ट में NuGet वेबसाइट से GroupDocs.Parser for .NET पैकेज इंस्टॉल करें
- Word फ़ाइल से पाठ निकालने के लिए आवश्यक नामस्थानों का संदर्भ जोड़ें
- इनपुट DOCX दस्तावेज़ लोड करने के लिए Parser वर्ग का ऑब्जेक्ट बनाएं
- पार्सर वर्ग की GetText विधि को कॉल करें और एक TextReader ऑब्जेक्ट प्राप्त करें
- अंत में, रीडर ऑब्जेक्ट से टेक्स्ट पढ़ने के लिए ReadToEnd विधि का उपयोग करें
उपरोक्त बिंदु आपको वर्ड डॉक्यूमेंट सी#* से *टेक्स्ट टेक्स्ट निकालने के लिए जल्दी से एप्लिकेशन बनाने में सक्षम बनाते हैं। ये चरण दस्तावेज़ों से टेक्स्ट निकालने के लिए किसी भी तृतीय-पक्ष टूल पर निर्भर नहीं हैं और आप उन्हें MS Windows, Linux, और macOS जैसे किसी भी प्लेटफ़ॉर्म पर उपयोग कर सकते हैं जो .NET वातावरण का समर्थन करते हैं। इसके अलावा, आपको कोड की कुछ पंक्तियाँ लिखनी होंगी जो DOC या DOCX दस्तावेज़ों से पाठ प्राप्त करने के लिए आवश्यक लाइब्रेरी की कुछ API कॉलों का उपभोग करती हैं।
सी # का उपयोग कर वर्ड दस्तावेज़ से पाठ निकालने के लिए कोड
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromWordDocumentUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from Word document using C# | |
{ | |
// Remove the watermark in output PDF document by adding license | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.docx")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
वर्ड डॉक्यूमेंट से रीड टेक्स्ट C# क्षमता को उपरोक्त कोड स्निपेट में विकसित किया गया है ताकि आपको यह दिखाया जा सके कि DOCX दस्तावेज़ से टेक्स्ट कैसे निकाला जाए। हालाँकि, आप पाठ प्राप्त करने के लिए इस नमूना कोड में DOC प्रारूप दस्तावेज़ों का भी उपयोग कर सकते हैं। इसके अलावा, इस उदाहरण को डीओटी, आरटीएफ, एक्सएलएसएक्स, सीएसवी, एमएचटीएमएल, ईएमएल, पीपीटीएक्स, ज़िप, पीडीएफ, और कई अन्य दस्तावेज़ प्रारूपों से टेक्स्ट निकालने के लिए अनुकूलित किया जा सकता है।
हमने सी # में वर्ड दस्तावेज़ों से टेक्स्ट निकालने की प्रक्रिया पर चर्चा की है और इस पोस्ट में इसके लिए एक नमूना कोड विकसित किया है। हाल ही में, हमने C# में PDF से चित्र निकालने के लिए एक लेख प्रकाशित किया है, अधिक जानकारी के लिए सी # का उपयोग कर पीडीएफ से छवियां कैसे निकालें मार्गदर्शिका देखें।