このハウツー チュートリアルでは、.NET API を使用してドキュメント データを抽出することにより、C# を使用して PDF からメタデータを抽出する手順について説明します。このガイドでは、C# で PDF からメタデータを取得するために必要なライブラリとサンプル コードを構成する方法についても説明します。ドキュメントからメタデータを抽出するための主要な手順と作業コードを次に示します。
C# を使用して PDF からメタデータを抽出する手順
- .NET アプリケーションの NuGet パッケージ マネージャーから GroupDocs.Parser for .NET パッケージをセットアップして、PDF からメタデータを抽出します。
- PDF ドキュメントからメタデータを抽出するために必要な名前空間への参照を追加します
- Parser クラスのインスタンスを作成し、入力 PDF ドキュメントを読み込みます
- GetMetadata メソッドを呼び出して、ドキュメント メタデータ オブジェクトのコレクションを取得します。
- 最後に、コレクションを反復処理し、メタデータの名前と値を取得します
*PDF メタデータ C# を読み取る機能を実装するには、上記の手順を順番に実行するだけです。まず、NuGet から必要なパッケージをインストールし、必須の名前空間をインポートした後、Parser クラスを開始してソース PDF を読み込みます。その後、GetMetadata メソッドを使用すると、ドキュメントのメタデータ オブジェクトを取得し、コレクションを反復処理してメタデータの名前と値を表示できます。
C# を使用して PDF からメタデータを抽出するコード
using System; | |
using System.Collections.Generic; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractMetadataFromPdfUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract metadata from PDF using C# | |
{ | |
// Remove the watermark from output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.pdf")) | |
{ | |
// Extract metadata from the document | |
IEnumerable<MetadataItem> metadata = parser.GetMetadata(); | |
// Check if metadata extraction is supported | |
if (metadata == null) | |
{ | |
Console.WriteLine("Metatada extraction isn't supported"); | |
} | |
// Iterate over metadata items | |
foreach (MetadataItem item in metadata) | |
{ | |
// Print an item name and value | |
Console.WriteLine(string.Format("{0}: {1}", item.Name, item.Value)); | |
} | |
} | |
} | |
} | |
} |
ドキュメント機能からメタデータを抽出する動作を示すために、C# 読み取り PDF メタデータ アプリケーションを開発しました。このアプリケーションは、追加のソフトウェアをセットアップすることなく、ドキュメント データ抽出ライブラリのいくつかの API 呼び出しを使用して作成されます。さらに、このサンプル コードは、.NET 環境をサポートする MS Windows、Linux、および macOS などの任意のオペレーティング システムで実行できます。