Ten krótki przewodnik przeprowadzi Cię przez procedurę wyodrębniania tekstu z PDF w Javie. Ten artykuł zawiera pełne informacje na temat konfigurowania wymaganej biblioteki, instrukcje krok po kroku dotyczące wyodrębniania tekstu oraz działający przykład pokazujący implementację funkcji wyodrębniania tekstu z pliku PDF Java. Oto kluczowe kroki i fragment kodu, aby wyodrębnić tekst z pliku PDF przy użyciu języka Java.
Kroki, aby wyodrębnić tekst z pliku PDF w Javie
- Zainstaluj GroupDocs.Parser for Java z repozytorium Maven w projekcie Java, aby wyodrębnić tekst z dokumentu PDF
- Importuj podstawowe klasy do rozwijania funkcjonalności wyodrębniania tekstu z dokumentu PDF
- Załaduj wejściowy plik PDF, tworząc instancję klasy Parser
- Wywołaj metodę getText i uzyskaj obiekt TextReader
- Na koniec przeczytaj tekst z czytnika i wyświetl go
Funkcjonalność Java wyodrębniania tekstu PDF można szybko uzyskać, wykonując kolejno powyższe punkty. Ten przewodnik można uruchomić, instalując wymaganą bibliotekę z repozytorium Maven i odwołując się do klasy niezbędnej do pobrania tekstu z dokumentu PDF. Następnie zainicjuj klasę Parser w celu załadowania wejściowego pliku PDF w celu wyodrębnienia tekstu i wywołaj metodę getText w celu zebrania obiektu TextReader. Następnie wyświetl tekst, czytając go z czytnika.
Kod do wyodrębniania tekstu z pliku PDF w Javie
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.*; | |
import java.io.IOException; | |
public class ExtractTextFromPdfInJava { | |
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.pdf")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
W poprzednim fragmencie pokazaliśmy, jak opracować funkcję wyodrębniania tekstu PDF w języku Java. Zakończyliśmy funkcjonalność pobierania tekstu z pliku PDF za pomocą kilku linijek kodu, który składa się z wywołań API biblioteki wyodrębniania tekstu. Ten przykładowy kod nie wymaga instalowania żadnego dodatkowego oprogramowania i może być uruchamiany na dowolnej platformie, takiej jak MS Windows, Linux i Mac OS.
Omówiliśmy szczegółowy proces implementacji funkcji pobierania tekstu z plików PDF w języku Java i stworzyliśmy dla niej przykładowy kod. Niedawno opublikowaliśmy artykuł na temat wyodrębniania metadanych z pliku PDF w Javie, zajrzyj do przewodnika jak wyodrębnić metadane z pliku PDF przy użyciu języka Java, aby uzyskać więcej informacji.