Nous examinerons brièvement le processus d’extraction de texte de HTML en Java en suivant l’une des meilleures API d’extraction de données de document. Vous apprendrez à configurer l’environnement et à transformer ces étapes en écriture de code pour la mise en œuvre de l’application Java extract Text from HTML. Passons en revue les instructions pas à pas ainsi qu’un exemple d’extrait de code pour extraire du texte à partir de HTML à l’aide de Java.
Étapes pour extraire du texte à partir de HTML en Java
- Installez GroupDocs.Parser for Java à partir du référentiel Maven dans le projet Java pour extraire le texte du document HTML
- Importez des classes essentielles pour développer la fonctionnalité d’extraction de texte d’un fichier HTML
- Initialiser la classe Parser pour charger le document HTML d’entrée afin d’en extraire le texte
- Appelez la méthode getText de la classe Parser et récupérez l’objet TextReader
- Enfin, lisez le texte du lecteur et affichez-le
L’utilisation des points ci-dessus dans l’ordre vous aide à créer rapidement la fonctionnalité extraire le texte de HTML Java. La première étape vous permet de configurer la bibliothèque à partir du référentiel Maven et la deuxième étape vous guide pour importer les classes requises pour effectuer l’extraction de texte. L’étape suivante vous permet de charger le fichier HTML en instanciant la classe Parser. Après cela, vous devez utiliser la méthode getText pour collecter l’objet TextReader, puis lire le texte du lecteur.
Code pour extraire du texte à partir de HTML en Java
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromHtmlInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from HTML in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.html")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
L’extrait de code précédent montre comment développer l’application get Text from HTML Java. Nous avons consommé quelques appels d’API simples pour obtenir la fonctionnalité souhaitée. De plus, cet exemple peut être exécuté sur n’importe quel système d’exploitation, y compris Windows, Linux et macOS, sans configurer de logiciel supplémentaire. De plus, vous pouvez adapter cet exemple d’extrait de code pour obtenir un texte à partir de divers formats de document tels que DOCX, XLSX, PPTX, PDF, EML, MSG et bien d’autres.
Nous avons discuté du processus détaillé de création de la fonctionnalité Java Get Text from HTML et produit un exemple de code pour celle-ci. Récemment, nous avons publié un article sur l’extraction de texte d’un document Word à l’aide de Java, consultez le guide comment extraire du texte d’un document Word en Java pour plus d’informations.