U današnjem digitalnom dobu, mogućnost izvlačenja teksta iz PDF dokumenata pomoću C# programskih jezika je nevjerojatno vrijedna. Bilo da automatizirate izdvajanje podataka, stvarate funkcije pretraživanja ili analizirate tekstualni sadržaj, mogućnost programskog rada s PDF-ovima može pojednostaviti vaše procese i poboljšati učinkovitost. U ovom članku ćemo vas provesti kroz osnovne korake za izdvajanje teksta iz PDF-a pomoću C#. Možete kontrolirati snagu biblioteke Preglednika za neprimjetno izdvajanje teksta iz PDF-a u C# pomoću sljedećih koraka.
Koraci za izdvajanje teksta iz PDF-a pomoću C#
- Instalirajte GroupDocs.Viewer for .NET pomoću upravitelja paketa NuGet za izdvajanje teksta iz PDF-a
- Da biste izdvojili PDF tekst, dodajte GroupDocs.Viewer referencu u svoj projekt
- Instancirajte objekt klase Viewer koristeći putanju PDF datoteke u njenom konstruktoru
- Pozovite ViewInfoOptions.ForHtmlView metodu za dohvaćanje informacija o prikazu
- Postavite svojstvo ViewInfoOptions.ExtractText na true da biste omogućili ekstrakciju PDF teksta
- Upotrijebite svojstvo PdfViewInfo.Pages za pristup cijelom popisu stranica dokumenta
- Iterirajte kroz kolekciju redaka na svakoj stranici koristeći Page.Lines za izdvajanje teksta iz svakog retka
Učenje kako izdvojiti tekst iz PDF-a pomoću C# omogućuje vam da iskoristite obilje informacija sadržanih u PDF dokumentima. Bilo da radite na projektima vođenim podacima, upravljate dokumentima ili automatizirate poslovne procese, ova je vještina dragocjena prednost. Nakon instaliranja .NET-a na svoj sustav možete jednostavno izvesti metodu C# izdvajanja podataka iz PDF-a na široko korištenim operativnim sustavima kao što su Windows, macOS i Linux. Primjer koda u nastavku objašnjava kako izdvojiti tekst iz PDF datoteke koristeći C#.
Kod za izdvajanje teksta iz PDF-a pomoću C#
using GroupDocs.Viewer; | |
using GroupDocs.Viewer.Options; | |
using GroupDocs.Viewer.Results; | |
using System; | |
namespace ExtractTextfromPDFUsingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Viewer library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Viewer.lic"); | |
using (var viewer = new Viewer("input.pdf")) | |
{ | |
var viewInfoOptions = ViewInfoOptions.ForHtmlView(); | |
viewInfoOptions.ExtractText = true; | |
var viewInfo = viewer.GetViewInfo(viewInfoOptions) as PdfViewInfo; | |
// Retrieve text from the PDF file. | |
Console.WriteLine("Extracted document text:"); | |
foreach (Page page in viewInfo.Pages) | |
foreach (Line line in page.Lines) | |
{ | |
Console.WriteLine(line.Value); | |
} | |
} | |
} | |
} | |
} |
Pogledali smo glavne korake C# dobivanja teksta iz PDF-a u ovom vodiču. Možete jednostavno dovršiti ovaj postupak izdvajanja teksta za razne aplikacije slijedeći gore navedene korake. Integracija koda za izdvajanje teksta u vaše projekte postaje jednostavna i bezbolna operacija nakon uspješne instalacije preporučene biblioteke i unošenja potrebnih promjena u putanje datoteka.
U prethodnom vodiču raspravljali smo o prikazivanju PDF-a kao PNG-a. Ako trebate dodatnu pomoć, predlažemo da pročitate naš članak o tome kako renderiraj PDF kao PNG pomoću C#.