Kako izvući tekst iz Word dokumenta koristeći C#

Ovaj članak prolazi kroz sve potrebne informacije za izdvajanje teksta iz dokumenata pomoću jednog od najboljih .NET API-ja za izdvajanje podataka dokumenta i vodi vas kako izdvojiti tekst iz Word dokumenta koristeći C#. Nadalje, pruža informacije za konfiguriranje potrebnog paketa i radni primjer za demonstraciju implementacije aplikacije C# ekstrakt teksta iz Word dokumenta. Evo ključnih koraka kao i uzorka koda za dobivanje teksta iz Word dokumenata.

Koraci za izdvajanje teksta iz Word dokumenta pomoću C#

  1. Instalirajte paket GroupDocs.Parser for .NET s web stranice NuGet u .NET projektu da izvučete tekst iz Word dokumenta
  2. Dodajte referencu potrebnih imenskih prostora za izdvajanje teksta iz Word datoteke
  3. Napravite objekt klase Parser za učitavanje ulaznog DOCX dokumenta
  4. Pozovite metodu GetText klase Parser i dobijte objekt TextReader
  5. Na kraju, upotrijebite metodu ReadToEnd za čitanje teksta iz objekta čitača

Gore navedene točke omogućuju vam brzo stvaranje aplikacije za izdvajanje teksta iz Word dokumenta C#. Ovi koraci ne ovise ni o jednom alatu treće strane za izdvajanje teksta iz dokumenata i možete ih koristiti na bilo kojoj platformi kao što su MS Windows, Linux i macOS koja podržava .NET okruženje. Nadalje, morate napisati nekoliko redaka koda koji troše nekoliko API poziva potrebne biblioteke za dobivanje teksta iz DOC ili DOCX dokumenata.

Kod za izdvajanje teksta iz Word dokumenta pomoću C#

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromWordDocumentUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from Word document using C#
{
// Remove the watermark in output PDF document by adding license
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.docx"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

Mogućnost čitanja teksta iz Word dokumenta C# razvijena je u gornjem isječku koda kako bi vam pokazala kako izdvojiti tekst iz DOCX dokumenta. Međutim, također možete koristiti dokumente DOC formata u ovom primjeru koda za dobivanje teksta. Nadalje, ovaj se primjer može prilagoditi za izvlačenje teksta iz raznih drugih formata dokumenata uključujući DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF i mnoge druge.

Raspravljali smo o procesu izdvajanja teksta iz Wordovih dokumenata u C# i razvili primjer koda za to u ovom postu. Nedavno smo objavili članak o izdvajanju slika iz PDF-a u C#, pogledajte kako izdvojiti slike iz PDF-a pomoću C# vodič za više informacija.

 Hrvatski