Այս հոդվածը պարունակում է բոլոր անհրաժեշտ տեղեկությունները փաստաթղթերից տեքստ հանելու համար՝ օգտագործելով լավագույն .NET API-ներից մեկը՝ փաստաթղթերի տվյալներ հանելու համար և ուղղորդում է ձեզ, թե ինչպես արտահանել տեքստ Word փաստաթղթից՝ օգտագործելով C#: Ավելին, այն տրամադրում է տեղեկատվություն պահանջվող փաթեթի կազմաձևման համար և աշխատանքային օրինակ՝ ցույց տալու C# քաղվածքի տեքստի իրականացումը Word document հավելվածից: Ահա հիմնական քայլերը, ինչպես նաև օրինակելի կոդը՝ Word փաստաթղթերից տեքստ ստանալու համար:
Word փաստաթղթից տեքստ հանելու քայլեր՝ օգտագործելով C#
- Տեղադրեք GroupDocs.Parser for .NET փաթեթը NuGet կայքից .NET նախագծում՝ Word փաստաթղթից տեքստ հանելու համար։
- Ավելացնել տեղեկանք Word ֆայլից տեքստը հանելու համար անհրաժեշտ անվանատարածքների համար
- Ստեղծեք Parser դասի օբյեկտ՝ մուտքային DOCX փաստաթուղթը բեռնելու համար
- Կանչեք Parser դասի GetText մեթոդը և ստացեք TextReader օբյեկտ
- Ի վերջո, օգտագործեք ReadToEnd մեթոդը՝ ընթերցողի օբյեկտից տեքստը կարդալու համար
Վերոնշյալ կետերը թույլ են տալիս արագ ստեղծել հավելված՝ տեքստը հանելու Word փաստաթղթից C#: Այս քայլերը կախված չեն որևէ երրորդ կողմի գործիքից՝ փաստաթղթերից տեքստ հանելու համար, և դուք կարող եք դրանք օգտագործել ցանկացած հարթակում, ինչպիսիք են MS Windows-ը, Linux-ը և macOS-ը, որոնք աջակցում են .NET միջավայր: Ավելին, դուք պետք է գրեք մի քանի տող կոդ, որը սպառում է անհրաժեշտ գրադարանի մի քանի API զանգեր՝ DOC կամ DOCX փաստաթղթերից տեքստ ստանալու համար:
Կոդ՝ Word փաստաթղթից տեքստ հանելու համար՝ օգտագործելով C#
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromWordDocumentUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from Word document using C# | |
{ | |
// Remove the watermark in output PDF document by adding license | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.docx")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
Կարդալ տեքստ Word փաստաթղթից C# հնարավորությունը մշակված է վերը նշված կոդի հատվածում՝ ցույց տալու համար, թե ինչպես կարելի է տեքստ հանել DOCX փաստաթղթից: Այնուամենայնիվ, դուք կարող եք նաև օգտագործել DOC ձևաչափի փաստաթղթեր այս օրինակելի կոդում՝ տեքստ ստանալու համար: Ավելին, այս օրինակը կարող է հարմարեցվել փաստաթղթերի մի շարք այլ ձևաչափերից տեքստ հանելու համար, ներառյալ DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF և շատ ավելին:
Մենք քննարկել ենք Word փաստաթղթերից C#-ով տեքստ հանելու գործընթացը և այս գրառման մեջ մշակել ենք դրա համար օրինակելի կոդը: Վերջերս մենք հրապարակեցինք հոդված C#-ով PDF-ից պատկերներ հանելու համար, լրացուցիչ տեղեկությունների համար դիտեք ինչպես հանել պատկերները PDF-ից՝ օգտագործելով C# ուղեցույցը: