In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. Չնայած ավելի հին է, այն դեռ լայնորեն օգտագործվում է շատ կազմակերպություններում, ինչը կարևոր է դարձնում մշակողների համար այս փաստաթղթերից տեքստ հանելը: Ահա հիմնական քայլերը՝ DOC-ից C#** տեքստը հանելու համար:
Քայլեր՝ DOC-ից C#-ով տեքստ հանելու համար
- Կարգավորեք ձեր զարգացման միջավայրը՝ տեղադրելով GroupDocs.Parser for .NET-ը, որն օգնում է ձեզ տեքստ քաշել DOC ֆայլերից
- Ստեղծեք նոր Parser օբյեկտ և տվեք նրան ձեր DOC ֆայլի գտնվելու վայրը
- TextReader ստանալու համար օգտագործեք Parser օբյեկտի GetText մեթոդը
- Վերջապես, օգտագործեք TextReader-ի ReadToEnd մեթոդը՝ ամբողջ տեքստը կարդալու համար
Վերոհիշյալ քայլերն աշխատում են Windows-ի, macOS-ի կամ Linux-ի վրա՝ առանց որևէ լրացուցիչ ծրագրաշարի անհրաժեշտության: Դուք պարզապես պետք է ունենաք .NET-ը տեղադրված ձեր համակարգում: Parser գրադարանն ապահովում է տեքստի արդյունահանման հզոր և արդյունավետ միջոց՝ այն դարձնելով հիանալի ընտրություն հին DOC ֆայլերի հետ աշխատող մշակողների համար: Այս մոտեցումը մեծացնում է փաստաթղթերի բովանդակության հետ աշխատելու ձեր կարողությունը՝ բարելավելով ինչպես արտադրողականությունը, այնպես էլ տվյալների մշակման հնարավորությունները: Ձեր միջավայրը կազմաձևված լինելու դեպքում դուք կարող եք կիրառել ստորև նշված կոդը՝ DOC տեքստի արդյունահանման համար C#-ում:
Կոդ՝ DOC-ից տեքստ հանելու համար՝ օգտագործելով C#
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Անկախ նրանից, թե դուք աշխատում եք փաստաթղթերի փոխակերպման, տվյալների վերլուծության կամ բովանդակության կառավարման վրա, այս մոտեցումը կօգնի ձեզ ավտոմատացնել գործընթացը և բարելավել ձեր հավելվածի արդյունավետությունը: Այս մոտեցումը մեծացնում է փաստաթղթերի բովանդակության հետ աշխատելու ձեր կարողությունը՝ բարելավելով և՛ արտադրողականությունը, և՛ տվյալների մշակման հնարավորությունները: Հետևելով այս հոդվածին՝ դուք կկարողանաք անխափան կերպով ինտեգրել C# կարդացած տեքստը DOC-ից ձեր հավելվածներում՝ ապահովելով փաստաթղթերի արդյունավետ և հուսալի մշակում: Առաջարկվող գրադարանը ստեղծելուց և ֆայլերի ուղիները կարգավորելուց հետո տրամադրված կոդը ձեր նախագծերին ավելացնելը պետք է հեշտ լինի:
Նախկինում մենք տրամադրել էինք մանրամասն ուղեցույց XLSX-ից C#-ով տեքստ հանելու վերաբերյալ: Ավելի մանրամասն հասկանալու համար ստուգեք մեր ամբողջական ձեռնարկը, թե ինչպես կատարել հանել տեքստը XLSX-ից՝ օգտագործելով C#: