В съвременната цифрова среда възможността за извличане на текст от PDF документи с помощта на Java програмиране определено е предимство. Независимо дали автоматизирате извличането на данни, внедрявате функции за търсене или извършвате текстов анализ, способността за програмно манипулиране на PDF може значително да подобри вашите работни процеси и да повиши продуктивността. В това ръководство ще ви преведем през основните стъпки за извличане на текст от PDF с помощта на Java. Можете да използвате възможностите на библиотеката на Viewer за ефективно извличане на текст от PDF в Java, като следвате стъпките, описани по-долу.
Стъпки за извличане на текст от PDF с помощта на Java
- Инсталирайте GroupDocs.Viewer for Java с помощта на хранилището на Maven, за да четете PDF текст
- За да извлечете PDF текст, добавете препратка към GroupDocs.Viewer във вашия проект
- Създайте обект на клас Viewer, като използвате пътя на входния PDF файл в неговия конструктор
- Извикайте метода ViewInfoOptions.forHtmlView, за да получите информация за изгледа
- Задайте стойността на свойството ViewInfoOptions.extractText на true, за да активирате извличането на PDF текст
- Използвайте свойството PdfViewInfo.Pages, за да получите целия списък с PDF страници
- Обходете колекцията от редове на всяка страница, като използвате свойството Page.Lines, за да прочетете текста на всеки ред
Получаването на знания за извличане на текст от PDF файлове с помощта на Java ви дава възможност да се докоснете до ценната информация, включена в PDF документи. Независимо дали сте ангажирани с проекти, ориентирани към данни, работа с документи или рационализиране на бизнес работни потоци, този опит се оказва ценен актив. Прилагането на метода Java за извличане на данни от PDF е лесна задача и е съвместимо с преобладаващи операционни системи като Windows, macOS и Linux, при условие че имате инсталирана Java на вашата машина. Примерът на придружаващия код по-долу илюстрира процеса на извличане на текст от PDF файл с помощта на Java.
Код за извличане на текст от PDF с помощта на Java
import com.groupdocs.viewer.License; | |
import com.groupdocs.viewer.Viewer; | |
import com.groupdocs.viewer.options.ViewInfoOptions; | |
import com.groupdocs.viewer.results.Line; | |
import com.groupdocs.viewer.results.Page; | |
import com.groupdocs.viewer.results.PdfViewInfo; | |
public class ExtractTextfromPDFUsingJava { | |
public static void main(String[] args) throws Exception { | |
// Set License to avoid the limitations of Viewer library | |
License license = new License(); | |
license.setLicense("GroupDocs.Viewer.lic"); | |
Viewer viewer = new Viewer("input.pdf"); | |
ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView(); | |
viewInfoOptions.setExtractText(true); | |
PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions); | |
// Retrieve text from the PDF file. | |
System.out.println("Extracted document text:"); | |
for (Page page : viewInfo.getPages()) { | |
for (Line line : page.getLines()) { | |
System.out.println(line.getValue()); | |
} | |
} | |
} | |
} |
В този урок разгледахме целия процес Java получава текст от PDF. Можете безпроблемно да приложите този процес на извличане на текст за редица приложения, като следвате стъпките, описани по-горе. След като умело сте инсталирали препоръчителната библиотека и сте направили необходимите корекции на файловите пътища, интегрирането на кода за извличане на текст във вашите проекти става проста и безпроблемна задача.
В нашия по-ранен урок се фокусирахме върху темата за конвертиране на PDF в PNG. Ако имате нужда от допълнителни насоки, препоръчваме да се консултирате с нашата статия за това как да изобразете PDF като PNG с помощта на Java.