Microsoft Word の DOCM ファイル形式は、マクロを含む高度なドキュメント形式で、ドキュメント内の反復タスクを自動化する多目的ツールです。開発者にとって、ドキュメント処理、データ分析、コンテンツ管理の目的を問わず、DOCM ファイルからテキストを抽出する必要があるシナリオがあります。この記事では、C# を使用して DOCM からテキストを抽出する 方法について説明します。プログラム設定でこれらのファイルを操作すると、C# で DOCM からテキストを抽出する ことが、インデックス作成、コンテンツ分析、ドキュメント変換などのさまざまなアプリケーションに役立ちます。以下の手順では、テキスト抽出機能のシームレスな統合を保証するプロセスを詳しく説明します。
C# を使用して DOCM からテキストを抽出する手順
- まず開発環境をセットアップします。DOCM ファイルからテキストを簡単に抽出できる GroupDocs.Parser for .NET ライブラリを追加します。
- 初期化中に DOCM ファイルへのパスを指定して Parser オブジェクトを作成します。
- ParserオブジェクトのGetTextメソッドを使用してTextReaderを取得し、DOCMファイルからテキストにアクセスできるようにします。
- 最後に、TextReaderオブジェクトのReadToEndメソッドを呼び出して、DOCMファイルからすべてのテキストを読み取ります。
概説した手順に従うと、テキスト抽出のプロセスが正常にセットアップされます。C# での DOCM テキスト抽出 の方法は簡単であるだけでなく、非常に効率的で、プロジェクトにシームレスに統合できます。提供されているコードとアプローチを活用することで、DOCM ファイルからのテキスト データを効果的に管理および操作し、アプリケーションの機能とパフォーマンスを強化できます。さらに、.NET 以外の追加ソフトウェアを必要とせずに、Windows、macOS、Linux オペレーティング システムでこのプロセスを効率的に実行できます。
C# を使用して DOCM からテキストを抽出するコード
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
using System; | |
using System.IO; | |
namespace ExtractTextfromDOCMusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.docm")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
このガイドでは、C# プロジェクトで DOCM ファイルからテキストを抽出して実装するために必要な知識を習得し、ドキュメント ワークフローの効率を高めます。結論として、このガイドでは、C# で DOCM からテキストを読み取る ための明確なパスを提供しました。このアプローチにより、DOCM ファイルを簡単に処理できるようになり、ドキュメント処理ツールキットに貴重な追加機能となります。データ抽出、コンテンツ分析、レポート生成のいずれの作業を行っている場合でも、このプロセスを習得すると、テキスト データを効率的に管理および利用する能力が向上します。推奨ライブラリをインストールし、ファイル パスを正しく設定すると、提供されたコードをプロジェクトに統合するのが簡単になります。
以前、C# を使用して MHTML ファイルからテキストを抽出する方法に関するガイドを共有しました。より詳細な説明については、C# を使用して MHTML からテキストを抽出する の完全なチュートリアルをご覧ください。