Ovaj kratki vodič objašnjava detaljne upute za izdvajanje teksta iz PDF u C#. Također pruža primjer aplikacije za prikaz implementacije za izdvajanje teksta iz PDF-a pomoću C#. Ovaj vodič koristi jedan od popularnih paketa za izvlačenje podataka iz dokumenata iz različitih formata dokumenata. U nastavku su osnovni koraci i primjer koda za dobivanje teksta iz PDF-a.
Koraci za izdvajanje teksta iz PDF-a u C#
- Postavite paket GroupDocs.Parser for .NET iz upravitelja paketa NuGet u aplikaciji .NET za izdvajanje teksta iz PDF-a
- Dodajte referencu na bitne prostore imena za izdvajanje teksta iz PDF dokumenta
- Instancirajte klasu Parser za učitavanje ulaznog PDF dokumenta
- Pozovite metodu GetText i dobijte objekt čitača teksta
- Na kraju pročitajte tekst iz čitača i prikažite ga
Naveli smo sve ključne korake za razvoj C# aplikacije za izdvajanje teksta iz PDF-a. Ove upute za izdvajanje teksta iz PDF-a mogu se koristiti na bilo kojoj platformi kao što su MS Windows, Linux i macOS koja podržava .NET okruženje, pa čak i bez instaliranja softvera treće strane. Morate napisati nekoliko redaka koda koji se sastoji od API poziva biblioteke ekstrakcije dokumenata.
Kod za izdvajanje teksta iz PDF-a u C#
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromPdfInCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from PDF using C# | |
{ | |
// Remove the watermark in output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.pdf")) | |
{ | |
// Extract a text into the reader | |
using (TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
U gornjem isječku koda razvili smo aplikaciju C# za čitanje PDF teksta kako bismo vam pokazali kako dobivate tekst iz dokumenata. Koristili smo PDF datoteku za izdvajanje teksta u ovom primjeru, međutim, možete izdvojiti tekst iz raznih drugih dokumenata kao što su DOC, DOCX, XLS, XLSX, PPTX, MSG, XML, ZIP i mnogi drugi.
Detaljno smo razgovarali o procesu implementacije funkcije C# dohvaćanja teksta iz PDF-a i izradili primjer koda za to. Nedavno smo objavili članak o izdvajanju metapodataka iz PDF-a u C#, pogledajte kako izdvojiti metapodatke iz PDF-a pomoću C# vodič za više informacija.