So extrahieren Sie Text aus HTML in Java

Wir werden uns kurz mit dem Prozess des Extrahierens von Text aus HTML in Java befassen, indem wir einer der besten APIs zum Extrahieren von Dokumentdaten folgen. Sie lernen, wie Sie die Umgebung einrichten und diese Schritte in das Schreiben des Codes für die Implementierung der Anwendung Java-Text aus HTML extrahieren umwandeln. Sehen wir uns die schrittweisen Anweisungen zusammen mit einem Beispielcode-Snippet an, um Text mit Java aus HTML zu extrahieren.

Schritte zum Extrahieren von Text aus HTML in Java

  1. Installieren Sie GroupDocs.Parser for Java aus dem Maven-Repository im Java-Projekt, um Text aus dem HTML-Dokument zu extrahieren
  2. Importieren Sie wesentliche Klassen zum Entwickeln der Funktionalität zum Extrahieren von Text aus einer HTML-Datei
  3. Initialisieren Sie die Parser-Klasse zum Laden des eingegebenen HTML-Dokuments, um daraus Text zu extrahieren
  4. Rufen Sie die getText-Methode der Parser-Klasse auf und rufen Sie das TextReader-Objekt ab
  5. Lesen Sie schließlich den Text aus dem Reader und zeigen Sie ihn an

Indem Sie die obigen Punkte der Reihe nach verwenden, können Sie schnell die Funktion Text aus HTML Java extrahieren erstellen. Der erste Schritt ermöglicht es Ihnen, die Bibliothek aus dem Maven-Repository einzurichten, und der zweite Schritt führt Sie zum Importieren der erforderlichen Klassen für die Textextraktion. Im nächsten Schritt können Sie die HTML-Datei laden, indem Sie die Parser-Klasse instanziieren. Danach müssen Sie die getText-Methode zum Sammeln des TextReader-Objekts verwenden und dann den Text vom Reader lesen.

Code zum Extrahieren von Text aus HTML in Java

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.TextReader;
import java.io.IOException;
public class ExtractTextFromHtmlInJava {
public static void main(String[] args) throws IOException { // Main function to extract text from HTML in Java
// Create an instance of Parser class
try (Parser parser = new Parser("sample.html")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

Das vorhergehende Code-Snippet zeigt, wie die Anwendung get Text from HTML Java entwickelt wird. Wir haben ein paar einfache API-Aufrufe verbraucht, um die gewünschte Funktionalität zu erreichen. Darüber hinaus kann dieses Beispiel auf jedem Betriebssystem ausgeführt werden, einschließlich Windows, Linux und macOS, ohne zusätzliche Software einzurichten. Darüber hinaus können Sie dieses Beispielcode-Snippet anpassen, um einen Text aus verschiedenen Dokumentformaten wie DOCX, XLSX, PPTX, PDF, EML, MSG und vielen mehr zu erhalten.

Wir haben den detaillierten Prozess zum Erstellen der Java-Funktion zum Abrufen von Text aus HTML besprochen und einen Beispielcode dafür erstellt. Kürzlich haben wir einen Artikel über das Extrahieren von Text aus Word-Dokumenten mit Java veröffentlicht. Weitere Informationen finden Sie im So extrahieren Sie Text aus einem Word-Dokument in Java-Leitfaden.

 Deutsch