このクイック チュートリアルでは、C# で PDF からテキストを抽出するための詳細な手順について説明します。また、C# を使用して PDF からテキストを抽出する実装を示すサンプル アプリケーションも提供します。このガイドでは、さまざまなドキュメント形式からドキュメント データを抽出するための一般的なパッケージの 1 つを使用します。以下は、PDF からテキストを取得するための主要な手順とサンプル コードです。
C# で PDF からテキストを抽出する手順
- .NET アプリケーションの NuGet パッケージ マネージャーから GroupDocs.Parser for .NET パッケージをセットアップして、PDF からテキストを抽出します。
- PDF ドキュメントからテキストを抽出するために必要な名前空間への参照を追加します
- 入力 PDF ドキュメントをロードするための Parser クラスをインスタンス化します
- GetText メソッドを呼び出してテキスト リーダー オブジェクトを取得する
- 最後に、リーダーからテキストを読み取り、表示します
C# で PDF からテキストを抽出 アプリケーションを開発するための主要な手順をすべてリストしました。 PDF からテキストを抽出するためのこれらの手順は、.NET 環境をサポートする MS Windows、Linux、macOS などの任意のプラットフォームで使用でき、サードパーティ ソフトウェアをインストールしなくても使用できます。ドキュメント抽出ライブラリの API 呼び出しで構成される数行のコードを記述する必要があります。
C# で PDF からテキストを抽出するコード
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromPdfInCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from PDF using C# | |
{ | |
// Remove the watermark in output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.pdf")) | |
{ | |
// Extract a text into the reader | |
using (TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
上記のコード スニペットでは、ドキュメントからテキストを取得する作業を示すために C# read PDF text アプリケーションを開発しました。この例では、テキストを抽出するために PDF ファイルを使用しましたが、DOC、DOCX、XLS、XLSX、PPTX、MSG、XML、ZIP など、さまざまな他のドキュメントからテキストを抽出できます。
C# の PDF からテキストを取得する機能を実装するプロセスについて詳しく説明し、そのサンプル コードを作成しました。最近、C# で PDF からメタデータを抽出するための記事を公開しました。詳細については、C# を使用して PDF からメタデータを抽出する方法 ガイドをご覧ください。