Java で HTML からテキストを抽出する方法

最高のドキュメント データ抽出 API の 1 つに従って、Java で HTML からテキストを抽出する方法のプロセスを簡単に見ていきます。環境をセットアップする方法と、これらの手順を Java HTML からテキストを抽出する アプリケーションを実装するためのコードを作成する方法を学習します。 Java を使用して HTML からテキストを抽出するためのサンプル コード スニペットと共に段階的な手順を確認しましょう。

Java で HTML からテキストを抽出する手順

  1. Java プロジェクトの Maven リポジトリから GroupDocs.Parser for Java をインストールして、HTML ドキュメントからテキストを抽出します
  2. HTML ファイルからテキストを抽出する機能を開発するために不可欠なクラスをインポートする
  3. 入力 HTML ドキュメントを読み込んでそこからテキストを抽出する Parser クラスを初期化する
  4. Parser クラスの getText メソッドを呼び出して TextReader オブジェクトを取得する
  5. 最後に、リーダーからテキストを読み取り、表示します

上記のポイントを順番に使用すると、HTML Java からテキストを抽出 機能をすばやく作成するのに役立ちます。最初のステップでは、Maven リポジトリからライブラリをセットアップできます。2 番目のステップでは、テキスト抽出を行うために必要なクラスをインポートできます。次の手順では、Parser クラスをインスタンス化して HTML ファイルをロードできるようにします。その後、 getText メソッドを使用して TextReader オブジェクトを収集し、リーダーからテキストを読み取る必要があります。

Java で HTML からテキストを抽出するコード

上記のコード スニペットは、get Text from HTML Java アプリケーションの開発方法を示しています。必要な機能を実現するために、いくつかの単純な API 呼び出しを使用しました。さらに、この例は、追加のソフトウェアをセットアップすることなく、Windows、Linux、および macOS を含む任意のオペレーティング システムで実行できます。さらに、このサンプル コード スニペットを適用して、DOCX、XLSX、PPTX、PDF、EML、MSG などのさまざまなドキュメント形式からテキストを取得できます。

Java の HTML からテキストを取得する機能を作成する方法の詳細なプロセスについて説明し、そのサンプル コードを作成しました。最近、Java を使用して Word 文書からテキストを抽出する記事を公開しました。詳細については、JavaでWord文書からテキストを抽出する方法 ガイドをご覧ください。

 日本語