この記事では、最高の .NET API の 1 つを使用してドキュメントからテキストを抽出し、ドキュメントデータを抽出するために必要なすべての情報について説明し、C# を使用して Word ドキュメントからテキストを抽出する方法について説明します。さらに、必要なパッケージを構成するための情報と、C# Word 文書からテキストを抽出する アプリケーションの実装を示す実際の例を提供します。 Word 文書からテキストを取得するための主要な手順とサンプルコードを次に示します。

C# を使用して Word 文書からテキストを抽出する手順

NuGet Web サイトから GroupDocs.Parser for .NET パッケージを .NET プロジェクトにインストールして、Word 文書からテキストを抽出します
Word ファイルからテキストを抽出するために必要な名前空間の参照を追加します
入力 DOCX ドキュメントをロードするための Parser クラスのオブジェクトを作成します
Parser クラスの GetText メソッドを呼び出して TextReader オブジェクトを取得する
最後に、ReadToEnd メソッドを使用して、リーダーオブジェクトからテキストを読み取ります。

上記のポイントにより、Word 文書 C# からテキストを抽出する アプリケーションをすばやく作成できます。これらの手順は、ドキュメントからテキストを抽出するためのサードパーティツールに依存せず、.NET 環境をサポートする MS Windows、Linux、macOS などの任意のプラットフォームで使用できます。さらに、DOC または DOCX ドキュメントからテキストを取得するために必要なライブラリの API 呼び出しを数行使用するコードを数行記述する必要があります。

C# を使用して Word 文書からテキストを抽出するコード

Word 文書からテキストを読み取る C# 機能は、上記のコードスニペットで開発されており、DOCX 文書からテキストを抽出する方法を示しています。ただし、このサンプルコードでは、テキストを取得するために DOC 形式のドキュメントを使用することもできます。さらに、この例は、DOT、RTF、XLSX、CSV、MHTML、EML、PPTX、ZIP、PDF など、さまざまな他のドキュメント形式からテキストを抽出するために適用できます。

この記事では、C# で Word 文書からテキストを抽出するプロセスについて説明し、そのサンプルコードを開発しました。最近、C# で PDF から画像を抽出するための記事を公開しました。詳細については、C# を使用して PDF から画像を抽出する方法ガイドをご覧ください。

GroupDocs 知識ベース

APIで回答を見つけます

C# を使用して Word 文書からテキストを抽出する方法

C# を使用して Word 文書からテキストを抽出する手順

C# を使用して Word 文書からテキストを抽出するコード