この記事では、最高の .NET API の 1 つを使用してドキュメントからテキストを抽出し、ドキュメント データを抽出するために必要なすべての情報について説明し、C# を使用して Word ドキュメントからテキストを抽出する方法について説明します。さらに、必要なパッケージを構成するための情報と、C# Word 文書からテキストを抽出する アプリケーションの実装を示す実際の例を提供します。 Word 文書からテキストを取得するための主要な手順とサンプル コードを次に示します。
C# を使用して Word 文書からテキストを抽出する手順
- NuGet Web サイトから GroupDocs.Parser for .NET パッケージを .NET プロジェクトにインストールして、Word 文書からテキストを抽出します
- Word ファイルからテキストを抽出するために必要な名前空間の参照を追加します
- 入力 DOCX ドキュメントをロードするための Parser クラスのオブジェクトを作成します
- Parser クラスの GetText メソッドを呼び出して TextReader オブジェクトを取得する
- 最後に、ReadToEnd メソッドを使用して、リーダー オブジェクトからテキストを読み取ります。
上記のポイントにより、Word 文書 C# からテキストを抽出する アプリケーションをすばやく作成できます。これらの手順は、ドキュメントからテキストを抽出するためのサードパーティ ツールに依存せず、.NET 環境をサポートする MS Windows、Linux、macOS などの任意のプラットフォームで使用できます。さらに、DOC または DOCX ドキュメントからテキストを取得するために必要なライブラリの API 呼び出しを数行使用するコードを数行記述する必要があります。
C# を使用して Word 文書からテキストを抽出するコード
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromWordDocumentUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from Word document using C# | |
{ | |
// Remove the watermark in output PDF document by adding license | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.docx")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
Word 文書からテキストを読み取る C# 機能は、上記のコード スニペットで開発されており、DOCX 文書からテキストを抽出する方法を示しています。ただし、このサンプル コードでは、テキストを取得するために DOC 形式のドキュメントを使用することもできます。さらに、この例は、DOT、RTF、XLSX、CSV、MHTML、EML、PPTX、ZIP、PDF など、さまざまな他のドキュメント形式からテキストを抽出するために適用できます。
この記事では、C# で Word 文書からテキストを抽出するプロセスについて説明し、そのサンプル コードを開発しました。最近、C# で PDF から画像を抽出するための記事を公開しました。詳細については、C# を使用して PDF から画像を抽出する方法 ガイドをご覧ください。