Ez a gyors oktatóanyag elmagyarázza a részletes utasításokat a szöveg kibontásához a PDF webhelyről C#-ban. A mintaalkalmazást is biztosítja a megvalósítás bemutatásához a szöveg PDF-ből C# használatával kivonásához. Ez az útmutató az egyik népszerű csomagot használja a dokumentumadatok kinyerésére különböző dokumentumformátumokból. Az alábbiakban bemutatjuk az alapvető lépéseket és egy mintakódot, amellyel szöveget kaphat a PDF-ből.
Szöveg kibontásának lépései PDF-ből C#-ban
- Állítsa be a GroupDocs.Parser for .NET csomagot a NuGet csomagkezelőből a .NET alkalmazásban a szöveg PDF-ből való kivonásához
- Adjon hozzá hivatkozást a PDF-dokumentum szövegének kivonásához szükséges alapvető névterekre
- Példányosítsa a Parser osztályt a bemeneti PDF-dokumentum betöltéséhez
- Hívja meg a GetText metódust, és szerezzen be egy szövegolvasó objektumot
- Végül olvassa el a szöveget az olvasótól, és jelenítse meg
Felsoroltuk az összes kulcsfontosságú lépést a C# kivonatszöveg PDF alkalmazásból való fejlesztéséhez. A szöveg PDF-ből történő kibontására vonatkozó utasítások bármely olyan platformon használhatók, mint például az MS Windows, Linux és macOS, amelyek támogatják a .NET-környezetet, és harmadik féltől származó szoftverek telepítése nélkül is. Írnia kell néhány sornyi kódot, amely a dokumentumkivonat-könyvtár API-hívásaiból áll.
Kód a szöveg kivonásához PDF-ből C#-ban
A fenti kódrészletben kifejlesztettük a C# Read PDF text alkalmazást, amely bemutatja, hogyan lehet szöveget nyerni a dokumentumokból. Ebben a példában PDF-fájlt használtunk a szöveg kinyerésére, azonban számos más dokumentumból is kinyerhet szöveget, például DOC, DOCX, XLS, XLSX, PPTX, MSG, XML, ZIP és még sok másból.
Részletesen megbeszéltük a C# get text from PDF funkció megvalósításának folyamatát, és létrehoztunk hozzá egy mintakódot. Nemrég közzétettünk egy cikket a metaadatok PDF-ből C#-ban történő kinyeréséről. További információért tekintse meg a Hogyan lehet metaadatokat kivonni PDF-ből C# segítségével útmutatót.