We współczesnym środowisku cyfrowym możliwość wyodrębniania tekstu z dokumentów PDF przy użyciu programowania w języku Java jest zdecydowanie korzystna. Niezależnie od tego, czy automatyzujesz wyszukiwanie danych, wdrażasz funkcje wyszukiwania, czy przeprowadzasz analizę tekstu, możliwość programowego manipulowania plikami PDF może znacznie usprawnić przepływ pracy i zwiększyć produktywność. W tym przewodniku przeprowadzimy Cię przez podstawowe kroki wyodrębniania tekstu z pliku PDF przy użyciu języka Java. Możesz wykorzystać możliwości biblioteki Viewer do wydajnego wyodrębniania tekstu z pliku PDF w języku Java, wykonując czynności opisane poniżej.
Kroki wyodrębnienia tekstu z pliku PDF przy użyciu języka Java
- Zainstaluj GroupDocs.Viewer for Java, korzystając z repozytorium Maven, aby czytać tekst PDF
- Aby wyodrębnić tekst PDF, dodaj odniesienie GroupDocs.Viewer do swojego projektu
- Utwórz instancję obiektu klasy Viewer, używając ścieżki wejściowego pliku PDF w jego konstruktorze
- Wywołaj metodę ViewInfoOptions.forHtmlView, aby uzyskać informacje o widoku
- Ustaw wartość właściwości ViewInfoOptions.extractText na true, aby włączyć wyodrębnianie tekstu PDF
- Użyj właściwości PdfViewInfo.Pages, aby uzyskać całą listę stron PDF
- Wykonaj iterację po zbiorze linii na każdej stronie, korzystając z właściwości Page.Lines, aby odczytać tekst każdej linii
Zdobycie wiedzy na temat wyodrębniania tekstu z plików PDF przy użyciu języka Java daje możliwość wykorzystania cennych informacji zawartych w dokumentach PDF. Niezależnie od tego, czy zajmujesz się projektami skoncentrowanymi na danych, obsługą dokumentów czy usprawnianiem przepływów pracy w biznesie, ta wiedza okazuje się cennym atutem. Implementacja metody wyodrębniania danych Java z pliku PDF jest prostym zadaniem i jest kompatybilna z popularnymi systemami operacyjnymi, takimi jak Windows, macOS i Linux, pod warunkiem, że na komputerze jest zainstalowana Java. Załączony przykład kodu poniżej ilustruje proces wyodrębniania tekstu z pliku PDF przy użyciu języka Java.
Kod do wyodrębnienia tekstu z pliku PDF przy użyciu języka Java
import com.groupdocs.viewer.License; | |
import com.groupdocs.viewer.Viewer; | |
import com.groupdocs.viewer.options.ViewInfoOptions; | |
import com.groupdocs.viewer.results.Line; | |
import com.groupdocs.viewer.results.Page; | |
import com.groupdocs.viewer.results.PdfViewInfo; | |
public class ExtractTextfromPDFUsingJava { | |
public static void main(String[] args) throws Exception { | |
// Set License to avoid the limitations of Viewer library | |
License license = new License(); | |
license.setLicense("GroupDocs.Viewer.lic"); | |
Viewer viewer = new Viewer("input.pdf"); | |
ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView(); | |
viewInfoOptions.setExtractText(true); | |
PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions); | |
// Retrieve text from the PDF file. | |
System.out.println("Extracted document text:"); | |
for (Page page : viewInfo.getPages()) { | |
for (Line line : page.getLines()) { | |
System.out.println(line.getValue()); | |
} | |
} | |
} | |
} |
W tym samouczku omówiliśmy cały proces pobierania tekstu Java z pliku PDF. Możesz bezproblemowo zastosować ten proces wyodrębniania tekstu do szeregu zastosowań, wykonując kroki opisane powyżej. Po sprawnym zainstalowaniu zalecanej biblioteki i wprowadzeniu wymaganych zmian w ścieżkach plików, zintegrowanie kodu wyodrębniającego tekst z projektami stanie się prostym i bezproblemowym zadaniem.
W naszym wcześniejszym samouczku skupiliśmy się na temacie konwersji plików PDF do PNG. Jeśli potrzebujesz dodatkowych wskazówek, zalecamy zapoznanie się z naszym artykułem na temat renderuj plik PDF jako PNG przy użyciu języka Java.