A mai digitális korban hihetetlenül értékes az a lehetőség, hogy C# programozási nyelvekkel szöveget kinyerhetünk a PDF dokumentumokból. Akár automatizálja az adatkinyerést, akár keresési funkciókat hoz létre, akár szöveges tartalmat elemez, a PDF-fájlok programozott munkavégzésének képessége leegyszerűsítheti a folyamatokat és javíthatja a hatékonyságot. Ebben a cikkben végigvezetjük a szöveg PDF-ből C# használatával történő kivonásához szükséges alapvető lépéseken. A következő lépésekkel szabályozhatja, hogy a Viewer könyvtár mennyire képes zökkenőmentesen kivonatolni szöveget PDF-ből C#-ban.
Lépések a szöveg kibontásához PDF-ből C# használatával
- Telepítse a(z) GroupDocs.Viewer for .NET alkalmazást a NuGet csomagkezelővel a szöveg PDF-ből való kivonásához
- PDF-szöveg kivonásához adja hozzá a GroupDocs.Viewer hivatkozást a projekthez
- Példányosítsa a Viewer osztályobjektumot a PDF-fájl elérési útjával a konstruktorában
- Hívja a ViewInfoOptions.ForHtmlView metódust a nézetre vonatkozó információk lekéréséhez
- A PDF-szöveg kivonásának engedélyezéséhez állítsa a ViewInfoOptions.ExtractText tulajdonságot true értékre
- Használja a PdfViewInfo.Pages tulajdonságot a dokumentumoldalak teljes listájának eléréséhez
- Iteráljon végig a sorok gyűjteményén minden oldalon a Page.Lines segítségével, hogy szöveget vonjon ki az egyes sorokból
Ha megtanulja, hogyan lehet szöveget kivonni a PDF-ből a C# használatával, lehetővé teszi a PDF dokumentumokban található információk gazdag hasznosítását. Akár adatvezérelt projekteken, akár dokumentumkezelésen vagy üzleti folyamatok automatizálásán dolgozik, ez a készség értékes eszköz. Könnyedén elvégezheti a C# adatok PDF-ből való kibontását olyan széles körben használt operációs rendszereken, mint a Windows, a macOS és a Linux, miután telepítette a .NET-et a rendszerére. Az alábbi kódpélda elmagyarázza, hogyan lehet szöveget kivonni egy PDF-fájlból C# használatával.
Kód a szöveg kinyeréséhez PDF-ből C# használatával
using GroupDocs.Viewer; | |
using GroupDocs.Viewer.Options; | |
using GroupDocs.Viewer.Results; | |
using System; | |
namespace ExtractTextfromPDFUsingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Viewer library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Viewer.lic"); | |
using (var viewer = new Viewer("input.pdf")) | |
{ | |
var viewInfoOptions = ViewInfoOptions.ForHtmlView(); | |
viewInfoOptions.ExtractText = true; | |
var viewInfo = viewer.GetViewInfo(viewInfoOptions) as PdfViewInfo; | |
// Retrieve text from the PDF file. | |
Console.WriteLine("Extracted document text:"); | |
foreach (Page page in viewInfo.Pages) | |
foreach (Line line in page.Lines) | |
{ | |
Console.WriteLine(line.Value); | |
} | |
} | |
} | |
} | |
} |
Ebben az útmutatóban megnéztük a C# szöveg lekérése PDF-ből fő lépéseit. A fenti lépések követésével könnyedén végrehajthatja ezt a szövegkivonási eljárást különféle alkalmazásokhoz. A kicsomagolt szövegkód integrálása a projektekbe egyszerű és fájdalommentes művelet, miután sikeresen telepítette a javasolt könyvtárat, és elvégezte a szükséges módosításokat a fájl elérési útjain.
Az előző oktatóanyagban a PDF PNG formátumban történő megjelenítéséről beszéltünk. Ha további segítségre van szüksége, javasoljuk, hogy olvassa el a PDF renderelése PNG formátumban C# használatával című cikkünket.