Ez a rövid útmutató végigvezeti Önt a szöveg kibontásának folyamatán a PDF webhelyről Java nyelven. Ez a cikk teljes körű információt tartalmaz a szükséges könyvtár beállításához, lépésenkénti utasításokat a szöveg kibontásához, valamint egy működő példát a szöveg kibontása a PDF Java-ból képesség megvalósítására. Íme a legfontosabb lépések és egy kódrészlet a PDF-ből Java segítségével történő szöveg kivonásához.
Lépések a szöveg kivonásához PDF-ből Java nyelven
- Telepítse a(z) GroupDocs.Parser for Java fájlt a Java projekt Maven tárolójából, hogy szöveget kinyerhessen a PDF dokumentumból
- Importáljon alapvető osztályokat a PDF-dokumentumból szövegek kinyerésére szolgáló funkciók fejlesztéséhez
- Töltse be a bemeneti PDF-fájlt a Parser osztály példányának létrehozásával
- Hívja meg a getText metódust, és szerezze be a TextReader objektumot
- Végül olvasson el egy szöveget az olvasótól, és jelenítse meg
A Java kivonat PDF-szöveg funkció gyorsan elérhető a fenti pontok egymás utáni követésével. Ezt az útmutatót úgy indíthatja el, hogy telepíti a szükséges könyvtárat a Maven tárolóból, és hivatkozik a szükséges osztályra, hogy a szöveget PDF-dokumentumból megkapja. Ezután indítsa el az Parser osztályt a bemeneti PDF-fájl betöltéséhez a szöveg kibontásához, és hívja meg a getText metódust a TextReader objektum összegyűjtéséhez. Ezt követően jelenítse meg a szöveget úgy, hogy felolvassa az olvasóból.
Kód a PDF-ből szöveg kivonásához Java nyelven
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.*; | |
import java.io.IOException; | |
public class ExtractTextFromPdfInJava { | |
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.pdf")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
Az előző részletben bemutattuk, hogyan fejleszthetjük ki a extract PDF text Java képességet. Befejeztük azt a funkciót, hogy szöveget kapjunk egy PDF-ből néhány soros kóddal, amely a szövegkivonat-könyvtár API-hívásaiból áll. Ez a mintakód nem igényel további szoftver beállítását, és bármilyen platformon, például MS Windowson, Linuxon és Mac OS-en futtatható.
Megbeszéltük a Java get text from PDF képesség megvalósításának részletes folyamatát, és elkészítettünk hozzá egy mintakódot. Nemrég közzétettünk egy cikket a metaadatok kinyeréséről a PDF-ből Java nyelven. További információért tekintse meg a hogyan lehet metaadatokat kivonni a PDF-ből Java segítségével útmutatót.