このクイックチュートリアルでは、C# で PDF からテキストを抽出するための詳細な手順について説明します。また、C# を使用して PDF からテキストを抽出する実装を示すサンプルアプリケーションも提供します。このガイドでは、さまざまなドキュメント形式からドキュメントデータを抽出するための一般的なパッケージの 1 つを使用します。以下は、PDF からテキストを取得するための主要な手順とサンプルコードです。

C# で PDF からテキストを抽出する手順

.NET アプリケーションの NuGet パッケージマネージャーから GroupDocs.Parser for .NET パッケージをセットアップして、PDF からテキストを抽出します。
PDF ドキュメントからテキストを抽出するために必要な名前空間への参照を追加します
入力 PDF ドキュメントをロードするための Parser クラスをインスタンス化します
GetText メソッドを呼び出してテキストリーダーオブジェクトを取得する
最後に、リーダーからテキストを読み取り、表示します

C# で PDF からテキストを抽出 アプリケーションを開発するための主要な手順をすべてリストしました。 PDF からテキストを抽出するためのこれらの手順は、.NET 環境をサポートする MS Windows、Linux、macOS などの任意のプラットフォームで使用でき、サードパーティソフトウェアをインストールしなくても使用できます。ドキュメント抽出ライブラリの API 呼び出しで構成される数行のコードを記述する必要があります。

C# で PDF からテキストを抽出するコード

上記のコードスニペットでは、ドキュメントからテキストを取得する作業を示すために C# read PDF text アプリケーションを開発しました。この例では、テキストを抽出するために PDF ファイルを使用しましたが、DOC、DOCX、XLS、XLSX、PPTX、MSG、XML、ZIP など、さまざまな他のドキュメントからテキストを抽出できます。

C# の PDF からテキストを取得する機能を実装するプロセスについて詳しく説明し、そのサンプルコードを作成しました。最近、C# で PDF からメタデータを抽出するための記事を公開しました。詳細については、C# を使用して PDF からメタデータを抽出する方法ガイドをご覧ください。

GroupDocs 知識ベース

APIで回答を見つけます

C# で PDF からテキストを抽出する方法

C# で PDF からテキストを抽出する手順

C# で PDF からテキストを抽出するコード