Цей короткий посібник проведе вас через процедуру вилучення тексту з PDF у Java. У цій статті наведено повну інформацію щодо налаштування необхідної бібліотеки, покрокові інструкції щодо вилучення тексту та робочий приклад, який демонструє реалізацію можливості вилучення тексту з PDF Java. Ось основні кроки та фрагмент коду для вилучення тексту з PDF за допомогою Java.
Кроки для вилучення тексту з PDF на Java
- Установіть GroupDocs.Parser for Java зі сховища Maven у проекті Java, щоб отримати текст із документа PDF
- Імпорт основних класів для розробки функціональних можливостей для вилучення тексту з документа PDF
- Завантажте вхідний PDF, створивши екземпляр класу Parser
- Викличте метод getText і отримайте об’єкт TextReader
- Нарешті, прочитайте текст із пристрою для читання та відобразіть його
Функціональність вилучення PDF-тексту Java можна швидко отримати, дотримуючись наведених вище пунктів у послідовності. Цей посібник можна розпочати, встановивши необхідну бібліотеку зі сховища Maven і посилаючись на необхідний клас для отримання тексту з документа PDF. Потім запустіть клас Parser для завантаження вхідного файлу PDF для вилучення тексту та викличте метод getText для збирання об’єкта TextReader. Після цього відобразіть текст, прочитавши його з рідера.
Код для вилучення тексту з PDF на Java
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.*; | |
import java.io.IOException; | |
public class ExtractTextFromPdfInJava { | |
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.pdf")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
У попередньому фрагменті ми продемонстрували, як розробити можливість вилучення PDF-тексту Java. Ми доповнили функцію отримання тексту з PDF-файлу за допомогою кількох рядків коду, який складається з викликів API бібліотеки вилучення тексту. Цей зразок коду не потребує встановлення додаткового програмного забезпечення та може бути виконаний на будь-якій платформі, як-от MS Windows, Linux і Mac OS.
Ми обговорили детальний процес реалізації можливості Java отримати текст із PDF і створили зразок коду для цього. Нещодавно ми опублікували статтю про вилучення метаданих із PDF-файлу в Java. Перегляньте посібник як витягти метадані з PDF за допомогою Java для отримання додаткової інформації.