Мы кратко рассмотрим процесс извлечения текста из HTML в Java, используя один из лучших API-интерфейсов для извлечения данных из документов. Вы узнаете, как настроить среду и как превратить эти шаги в написание кода для реализации приложения Извлечение текста Java из HTML. Давайте рассмотрим пошаговые инструкции вместе с примером фрагмента кода для извлечения текста из HTML с помощью Java.
Шаги для извлечения текста из HTML в Java
- Установите GroupDocs.Parser for Java из репозитория Maven в проекте Java, чтобы извлечь текст из HTML-документа.
- Импорт основных классов для разработки функций извлечения текста из HTML-файла.
- Инициализировать класс Parser для загрузки входного HTML-документа для извлечения из него текста.
- Вызовите метод getText класса Parser и получите объект TextReader
- Наконец, прочитайте текст из ридера и отобразите его
Использование приведенных выше пунктов по порядку поможет вам быстро создать функциональность extract Text from HTML Java. Первый шаг позволяет вам настроить библиотеку из репозитория Maven, а второй шаг поможет вам импортировать необходимые классы для извлечения текста. Следующий шаг позволяет вам загрузить HTML-файл, создав экземпляр класса Parser. После этого вам нужно использовать метод getText для сбора объекта TextReader, а затем прочитать текст из ридера.
Код для извлечения текста из HTML в Java
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromHtmlInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from HTML in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.html")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
В предыдущем фрагменте кода показано, как разработать приложение get Text from HTML Java. Мы использовали несколько простых вызовов API для достижения желаемой функциональности. Кроме того, этот пример можно выполнить в любой операционной системе, включая Windows, Linux и macOS, без установки какого-либо дополнительного программного обеспечения. Кроме того, вы можете адаптировать этот образец кода для получения текста из различных форматов документов, таких как DOCX, XLSX, PPTX, PDF, EML, MSG и многих других.
Мы подробно обсудили процесс создания возможности получения текста из HTML в Java и подготовили для нее пример кода. Недавно мы опубликовали статью об извлечении текста из документа Word с помощью Java. Дополнительные сведения см. в руководстве как извлечь текст из документа Word в Java.