Jak wyodrębnić tekst z pliku PDF w Javie

Ten krótki przewodnik przeprowadzi Cię przez procedurę wyodrębniania tekstu z PDF w Javie. Ten artykuł zawiera pełne informacje na temat konfigurowania wymaganej biblioteki, instrukcje krok po kroku dotyczące wyodrębniania tekstu oraz działający przykład pokazujący implementację funkcji wyodrębniania tekstu z pliku PDF Java. Oto kluczowe kroki i fragment kodu, aby wyodrębnić tekst z pliku PDF przy użyciu języka Java.

Kroki, aby wyodrębnić tekst z pliku PDF w Javie

  1. Zainstaluj GroupDocs.Parser for Java z repozytorium Maven w projekcie Java, aby wyodrębnić tekst z dokumentu PDF
  2. Importuj podstawowe klasy do rozwijania funkcjonalności wyodrębniania tekstu z dokumentu PDF
  3. Załaduj wejściowy plik PDF, tworząc instancję klasy Parser
  4. Wywołaj metodę getText i uzyskaj obiekt TextReader
  5. Na koniec przeczytaj tekst z czytnika i wyświetl go

Funkcjonalność Java wyodrębniania tekstu PDF można szybko uzyskać, wykonując kolejno powyższe punkty. Ten przewodnik można uruchomić, instalując wymaganą bibliotekę z repozytorium Maven i odwołując się do klasy niezbędnej do pobrania tekstu z dokumentu PDF. Następnie zainicjuj klasę Parser w celu załadowania wejściowego pliku PDF w celu wyodrębnienia tekstu i wywołaj metodę getText w celu zebrania obiektu TextReader. Następnie wyświetl tekst, czytając go z czytnika.

Kod do wyodrębniania tekstu z pliku PDF w Javie

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import java.io.IOException;
public class ExtractTextFromPdfInJava {
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java
// Create an instance of Parser class
try (Parser parser = new Parser("sample.pdf")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

W poprzednim fragmencie pokazaliśmy, jak opracować funkcję wyodrębniania tekstu PDF w języku Java. Zakończyliśmy funkcjonalność pobierania tekstu z pliku PDF za pomocą kilku linijek kodu, który składa się z wywołań API biblioteki wyodrębniania tekstu. Ten przykładowy kod nie wymaga instalowania żadnego dodatkowego oprogramowania i może być uruchamiany na dowolnej platformie, takiej jak MS Windows, Linux i Mac OS.

Omówiliśmy szczegółowy proces implementacji funkcji pobierania tekstu z plików PDF w języku Java i stworzyliśmy dla niej przykładowy kod. Niedawno opublikowaliśmy artykuł na temat wyodrębniania metadanych z pliku PDF w Javie, zajrzyj do przewodnika jak wyodrębnić metadane z pliku PDF przy użyciu języka Java, aby uzyskać więcej informacji.

 Polski