Kaip ištraukti tekstą iš PDF C#

Šioje trumpoje mokymo programoje paaiškinamos išsamios instrukcijos, kaip ištraukti tekstą iš PDF C#. Taip pat pateikiamas programos pavyzdys, rodantis, kaip ištraukti tekstą iš PDF naudojant C#. Šiame vadove naudojamas vienas iš populiarių paketų dokumentų duomenims iš įvairių dokumentų formatų išgauti. Toliau pateikiami pagrindiniai žingsniai ir pavyzdinis kodas, kaip gauti tekstą iš PDF.

Veiksmai, kaip ištraukti tekstą iš PDF C#

  1. Nustatykite GroupDocs.Parser for .NET paketą iš NuGet paketų tvarkyklės .NET programoje, kad ištrauktumėte tekstą iš PDF
  2. Pridėkite nuorodą į pagrindines vardų sritis, kad ištrauktumėte tekstą iš PDF dokumento
  3. Sukurkite klasę Parser, kad įkeltumėte įvesties PDF dokumentą
  4. Iškvieskite GetText metodą ir gaukite teksto skaitymo objektą
  5. Galiausiai perskaitykite skaitytojo tekstą ir parodykite jį

Mes išvardijome visus pagrindinius žingsnius kuriant C# ištraukos tekstą iš PDF programos. Šios instrukcijos, kaip ištraukti tekstą iš PDF, gali būti naudojamos bet kurioje platformoje, pvz., MS Windows, Linux ir macOS, kurios palaiko .NET aplinką, ir net neįdiegus jokios trečiosios šalies programinės įrangos. Turite parašyti kelias kodo eilutes, kurias sudaro dokumentų ištraukimo bibliotekos API iškvietimai.

Kodas, skirtas ištraukti tekstą iš PDF C#

Aukščiau pateiktame kodo fragmente sukūrėme C# skaitymo PDF teksto programą, kuri parodys, kaip gauti tekstą iš dokumentų. Šiame pavyzdyje tekstui išgauti naudojome PDF failą, tačiau galite išgauti tekstą iš įvairių kitų dokumentų, tokių kaip DOC, DOCX, XLS, XLSX, PPTX, MSG, XML, ZIP ir daugelio kitų.

Mes išsamiai aptarėme C# teksto iš PDF funkcijos diegimo procesą ir sukūrėme pavyzdinį kodą. Neseniai paskelbėme straipsnį apie metaduomenų ištraukimą iš PDF C#. Daugiau informacijos rasite kaip ištraukti metaduomenis iš PDF naudojant C# vadove.

 Latviski