Java を使用して MHTML からテキストを抽出する

MHTML (MIME HTML) ファイルは、Web アーカイブ形式であり、テキスト、画像、リンクを含む Web ページのコンテンツ全体を 1 つのファイルに保存できます。分析、ドキュメント処理、自動レポートの生成などのタスクで Web データを扱う場合、MHTML ファイルからテキストを抽出することは不可欠です。この記事では、Java を使用して MHTML からテキストを抽出する 方法について説明し、開発者がさまざまな用途でこれらのファイルから貴重な情報を取得するための実用的な方法を提供します。適切なツールとテクニックを使用すれば、Java で MHTML からテキストを抽出する ことは簡単なプロセスです。Java プロジェクトで正常に実装するには、最新の Java 開発キット (JDK)、IntelliJ IDEA や Eclipse などの IDE、およびパーサー ライブラリがあることを確認してください。

Java を使用して MHTML からテキストを抽出する手順

  1. GroupDocs.Parser for Java ライブラリを統合して開発環境を構成します。これにより、MHTML ファイルからのシームレスなテキスト抽出が可能になります。
  2. Parser クラスをインスタンス化し、コンストラクタで MHTML ファイルへのパスを指定します。
  3. ParserインスタンスのgetTextメソッドを呼び出してTextReaderオブジェクトを取得し、テキストコンテンツにアクセスできるようにします。
  4. TextReaderのreadToEndメソッドを使用して、MHTMLファイルからすべてのテキストを取得して読み取ります。

ファイル パスを構成すると、提供されているコード例をプロジェクトに組み込むのは簡単な作業になります。開発環境を設定したら、Java での MHTML テキスト抽出 は簡単で効率的なプロセスになります。まず、MHTML ファイルの Parser オブジェクトを作成します。次に、getText メソッドを使用して TextReader を取得します。これにより、ファイルのテキスト コンテンツへのアクセスが許可されます。すべてのテキストを 1 つの手順で抽出するには、TextReader で readToEnd メソッドを呼び出します。この方法は、大量の Web コンテンツを処理したり、Web アーカイブの変換を自動化したりする場合などに特に便利です。

Java を使用して MHTML からテキストを抽出するコード

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.TextReader;
import com.groupdocs.parser.licensing.License;
public class ExtractTextfromMHTMLusingJava {
public static void main(String[] args) throws Exception {
// Set License to avoid the limitations of Parser library
License license = new License();
license.setLicense("GroupDocs.Parser.lic");
// Create an instance of Parser class
try (Parser parser = new Parser("input.mhtml")) {
// Extract a text into the reader
try (TextReader reader = parser.getFormattedText(
new FormattedTextOptions(FormattedTextMode.Html))) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported"
: reader.readToEnd());
}
}
}
}

Windows、macOS、Linux システムで、Java による MHTML からのテキストの読み取り タスクを効果的に実行できます。これは、Java が提供するもの以外の追加ソフトウェアを必要とせずに実現できます。テキスト抽出のプロセスは、Web コンテンツやドキュメント自動化ソリューションの作成に重点を置く開発者にとって重要な手法です。大規模なデータ スクレイピング、コンテンツ分析、アーカイブのいずれに携わっている場合でも、MHTML ファイルからプログラムでテキストを抽出できると、ワークフローが最適化され、アプリケーションの機能が向上します。

以前、Java を使用して TXT ファイルからテキストを抽出する方法に関する詳細なガイドを公開しました。さらに詳しく知りたい場合は、Javaを使用してTXTからテキストを抽出する の完全なチュートリアルを参照してください。

 日本語