Hogyan lehet szöveget kivonni a PDF-ből Java-ban

Ez a rövid útmutató végigvezeti Önt a szöveg kibontásának folyamatán a PDF webhelyről Java nyelven. Ez a cikk teljes körű információt tartalmaz a szükséges könyvtár beállításához, lépésenkénti utasításokat a szöveg kibontásához, valamint egy működő példát a szöveg kibontása a PDF Java-ból képesség megvalósítására. Íme a legfontosabb lépések és egy kódrészlet a PDF-ből Java segítségével történő szöveg kivonásához.

Lépések a szöveg kivonásához PDF-ből Java nyelven

  1. Telepítse a(z) GroupDocs.Parser for Java fájlt a Java projekt Maven tárolójából, hogy szöveget kinyerhessen a PDF dokumentumból
  2. Importáljon alapvető osztályokat a PDF-dokumentumból szövegek kinyerésére szolgáló funkciók fejlesztéséhez
  3. Töltse be a bemeneti PDF-fájlt a Parser osztály példányának létrehozásával
  4. Hívja meg a getText metódust, és szerezze be a TextReader objektumot
  5. Végül olvasson el egy szöveget az olvasótól, és jelenítse meg

A Java kivonat PDF-szöveg funkció gyorsan elérhető a fenti pontok egymás utáni követésével. Ezt az útmutatót úgy indíthatja el, hogy telepíti a szükséges könyvtárat a Maven tárolóból, és hivatkozik a szükséges osztályra, hogy a szöveget PDF-dokumentumból megkapja. Ezután indítsa el az Parser osztályt a bemeneti PDF-fájl betöltéséhez a szöveg kibontásához, és hívja meg a getText metódust a TextReader objektum összegyűjtéséhez. Ezt követően jelenítse meg a szöveget úgy, hogy felolvassa az olvasóból.

Kód a PDF-ből szöveg kivonásához Java nyelven

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import java.io.IOException;
public class ExtractTextFromPdfInJava {
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java
// Create an instance of Parser class
try (Parser parser = new Parser("sample.pdf")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

Az előző részletben bemutattuk, hogyan fejleszthetjük ki a extract PDF text Java képességet. Befejeztük azt a funkciót, hogy szöveget kapjunk egy PDF-ből néhány soros kóddal, amely a szövegkivonat-könyvtár API-hívásaiból áll. Ez a mintakód nem igényel további szoftver beállítását, és bármilyen platformon, például MS Windowson, Linuxon és Mac OS-en futtatható.

Megbeszéltük a Java get text from PDF képesség megvalósításának részletes folyamatát, és elkészítettünk hozzá egy mintakódot. Nemrég közzétettünk egy cikket a metaadatok kinyeréséről a PDF-ből Java nyelven. További információért tekintse meg a hogyan lehet metaadatokat kivonni a PDF-ből Java segítségével útmutatót.

 Magyar