C# を使用して PDF からメタデータを抽出する方法

このハウツー チュートリアルでは、.NET API を使用してドキュメント データを抽出することにより、C# を使用して PDF からメタデータを抽出する手順について説明します。このガイドでは、C# で PDF からメタデータを取得するために必要なライブラリとサンプル コードを構成する方法についても説明します。ドキュメントからメタデータを抽出するための主要な手順と作業コードを次に示します。

C# を使用して PDF からメタデータを抽出する手順

  1. .NET アプリケーションの NuGet パッケージ マネージャーから GroupDocs.Parser for .NET パッケージをセットアップして、PDF からメタデータを抽出します。
  2. PDF ドキュメントからメタデータを抽出するために必要な名前空間への参照を追加します
  3. Parser クラスのインスタンスを作成し、入力 PDF ドキュメントを読み込みます
  4. GetMetadata メソッドを呼び出して、ドキュメント メタデータ オブジェクトのコレクションを取得します。
  5. 最後に、コレクションを反復処理し、メタデータの名前と値を取得します

*PDF メタデータ C# を読み取る機能を実装するには、上記の手順を順番に実行するだけです。まず、NuGet から必要なパッケージをインストールし、必須の名前空間をインポートした後、Parser クラスを開始してソース PDF を読み込みます。その後、GetMetadata メソッドを使用すると、ドキュメントのメタデータ オブジェクトを取得し、コレクションを反復処理してメタデータの名前と値を表示できます。

C# を使用して PDF からメタデータを抽出するコード

using System;
using System.Collections.Generic;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractMetadataFromPdfUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract metadata from PDF using C#
{
// Remove the watermark from output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.pdf"))
{
// Extract metadata from the document
IEnumerable<MetadataItem> metadata = parser.GetMetadata();
// Check if metadata extraction is supported
if (metadata == null)
{
Console.WriteLine("Metatada extraction isn't supported");
}
// Iterate over metadata items
foreach (MetadataItem item in metadata)
{
// Print an item name and value
Console.WriteLine(string.Format("{0}: {1}", item.Name, item.Value));
}
}
}
}
}

ドキュメント機能からメタデータを抽出する動作を示すために、C# 読み取り PDF メタデータ アプリケーションを開発しました。このアプリケーションは、追加のソフトウェアをセットアップすることなく、ドキュメント データ抽出ライブラリのいくつかの API 呼び出しを使用して作成されます。さらに、このサンプル コードは、.NET 環境をサポートする MS Windows、Linux、および macOS などの任意のオペレーティング システムで実行できます。

 日本語