Kaip ištraukti tekstą iš Word dokumento naudojant C#

Šiame straipsnyje pateikiama visa reikalinga informacija, norint išgauti tekstą iš dokumentų naudojant vieną geriausių .NET API, kad būtų galima išgauti dokumento duomenis, ir paaiškinama, kaip ištraukti tekstą iš Word dokumento naudojant C#. Be to, jame pateikiama informacija, kaip konfigūruoti reikiamą paketą, ir darbo pavyzdys, rodantis C# ištraukos teksto iš Word dokumento įgyvendinimą. Čia pateikiami pagrindiniai žingsniai ir pavyzdinis kodas, kaip gauti tekstą iš Word dokumentų.

Veiksmai, kaip ištraukti tekstą iš Word dokumento naudojant C#

  1. Įdiekite paketą GroupDocs.Parser for .NET iš NuGet svetainės .NET projekte, kad ištrauktumėte tekstą iš Word dokumento
  2. Pridėkite nuorodą į reikiamas vardų sritis, kad ištrauktumėte tekstą iš Word failo
  3. Sukurkite Parser klasės objektą įvesties DOCX dokumentui įkelti
  4. Iškvieskite Parser klasės metodą GetText ir gaukite TextReader objektą
  5. Galiausiai naudokite ReadToEnd metodą, kad skaitytumėte tekstą iš skaitytojo objekto

Aukščiau pateikti punktai leidžia greitai sukurti programą, kad ištrauktumėte tekstą iš Word dokumento C#. Šie veiksmai nepriklauso nuo trečiosios šalies įrankio, skirto tekstui iš dokumentų išgauti, ir galite juos naudoti bet kurioje platformoje, pvz., MS Windows, Linux ir MacOS, palaikančiose .NET aplinką. Be to, norint gauti tekstą iš DOC arba DOCX dokumentų, reikia parašyti kelias kodo eilutes, kurios sunaudoja porą API iškvietimų iš reikalingos bibliotekos.

Kodas, skirtas ištraukti tekstą iš Word dokumento naudojant C#

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromWordDocumentUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from Word document using C#
{
// Remove the watermark in output PDF document by adding license
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.docx"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

Galimybė skaityti tekstą iš Word dokumento C# sukurta aukščiau pateiktame kodo fragmente, kad parodytų, kaip išgauti tekstą iš DOCX dokumento. Tačiau, norėdami gauti tekstą, šiame pavyzdiniame kode taip pat galite naudoti DOC formato dokumentus. Be to, šis pavyzdys gali būti pritaikytas tekstui išgauti iš įvairių kitų dokumentų formatų, įskaitant DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF ir daugelį kitų.

Aptarėme teksto ištraukimo iš Word dokumentų C# kalba procesą ir šiame įraše sukūrėme pavyzdinį kodą. Neseniai paskelbėme straipsnį apie vaizdų ištraukimą iš PDF C#. Daugiau informacijos rasite kaip ištraukti vaizdus iš PDF naudojant C# vadove.

 Latviski