यह आलेख दस्तावेज़ डेटा निकालने के लिए सर्वोत्तम .NET API में से किसी एक का उपयोग करके दस्तावेज़ों से टेक्स्ट निकालने के लिए सभी आवश्यक जानकारी के माध्यम से जाता है और आपको C#** का उपयोग करके Word दस्तावेज़ से टेक्स्ट निकालने के तरीके के बारे में मार्गदर्शन करता है। इसके अलावा, यह आवश्यक पैकेज को कॉन्फ़िगर करने के लिए जानकारी प्रदान करता है और वर्ड डॉक्यूमेंट से **सी# एक्सट्रेक्ट टेक्स्ट ** एप्लिकेशन के कार्यान्वयन को प्रदर्शित करने के लिए एक कार्यशील उदाहरण प्रदान करता है। Word दस्तावेज़ों से पाठ प्राप्त करने के लिए मुख्य चरण और साथ ही नमूना कोड यहां दिए गए हैं।
सी # का उपयोग कर वर्ड दस्तावेज़ से टेक्स्ट निकालने के लिए कदम
- Word दस्तावेज़ से टेक्स्ट निकालने के लिए .NET प्रोजेक्ट में NuGet वेबसाइट से GroupDocs.Parser for .NET पैकेज इंस्टॉल करें
- Word फ़ाइल से पाठ निकालने के लिए आवश्यक नामस्थानों का संदर्भ जोड़ें
- इनपुट DOCX दस्तावेज़ लोड करने के लिए Parser वर्ग का ऑब्जेक्ट बनाएं
- पार्सर वर्ग की GetText विधि को कॉल करें और एक TextReader ऑब्जेक्ट प्राप्त करें
- अंत में, रीडर ऑब्जेक्ट से टेक्स्ट पढ़ने के लिए ReadToEnd विधि का उपयोग करें
उपरोक्त बिंदु आपको वर्ड डॉक्यूमेंट सी#* से *टेक्स्ट टेक्स्ट निकालने के लिए जल्दी से एप्लिकेशन बनाने में सक्षम बनाते हैं। ये चरण दस्तावेज़ों से टेक्स्ट निकालने के लिए किसी भी तृतीय-पक्ष टूल पर निर्भर नहीं हैं और आप उन्हें MS Windows, Linux, और macOS जैसे किसी भी प्लेटफ़ॉर्म पर उपयोग कर सकते हैं जो .NET वातावरण का समर्थन करते हैं। इसके अलावा, आपको कोड की कुछ पंक्तियाँ लिखनी होंगी जो DOC या DOCX दस्तावेज़ों से पाठ प्राप्त करने के लिए आवश्यक लाइब्रेरी की कुछ API कॉलों का उपभोग करती हैं।
सी # का उपयोग कर वर्ड दस्तावेज़ से पाठ निकालने के लिए कोड
वर्ड डॉक्यूमेंट से रीड टेक्स्ट C# क्षमता को उपरोक्त कोड स्निपेट में विकसित किया गया है ताकि आपको यह दिखाया जा सके कि DOCX दस्तावेज़ से टेक्स्ट कैसे निकाला जाए। हालाँकि, आप पाठ प्राप्त करने के लिए इस नमूना कोड में DOC प्रारूप दस्तावेज़ों का भी उपयोग कर सकते हैं। इसके अलावा, इस उदाहरण को डीओटी, आरटीएफ, एक्सएलएसएक्स, सीएसवी, एमएचटीएमएल, ईएमएल, पीपीटीएक्स, ज़िप, पीडीएफ, और कई अन्य दस्तावेज़ प्रारूपों से टेक्स्ट निकालने के लिए अनुकूलित किया जा सकता है।
हमने सी # में वर्ड दस्तावेज़ों से टेक्स्ट निकालने की प्रक्रिया पर चर्चा की है और इस पोस्ट में इसके लिए एक नमूना कोड विकसित किया है। हाल ही में, हमने C# में PDF से चित्र निकालने के लिए एक लेख प्रकाशित किया है, अधिक जानकारी के लिए सी # का उपयोग कर पीडीएफ से छवियां कैसे निकालें मार्गदर्शिका देखें।