Как извлечь метаданные из PDF с помощью C#

В этом практическом руководстве мы описываем пошаговую процедуру извлечения метаданных из PDF с помощью C#, используя .NET API для извлечения данных документа. В этом руководстве также содержатся инструкции по настройке необходимой библиотеки и пример кода для получения метаданных из PDF на C#. Вот ключевые шаги и рабочий код для извлечения метаданных из документов.

Шаги по извлечению метаданных из PDF с помощью C#

  1. Настройте пакет GroupDocs.Parser for .NET из диспетчера пакетов NuGet в приложении .NET для извлечения метаданных из PDF.
  2. Добавьте ссылку на основные пространства имен для извлечения метаданных из документа PDF.
  3. Создайте экземпляр класса Parser и загрузите входной PDF-документ.
  4. Вызовите метод GetMetadata и получите коллекцию объектов метаданных документа.
  5. Наконец, выполните итерацию по коллекции и получите имена и значения метаданных.

Чтобы реализовать функцию чтения метаданных PDF C#, просто выполните описанные выше шаги по порядку. Прежде всего, загрузите исходный PDF-файл, запустив класс Parser после установки необходимого пакета из NuGet и импорта основных пространств имен. После этого метод GetMetadata позволяет получить объекты метаданных для документа, а затем выполнить итерацию по коллекции для отображения имени и значений метаданных.

Код для извлечения метаданных из PDF с использованием С#

using System;
using System.Collections.Generic;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractMetadataFromPdfUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract metadata from PDF using C#
{
// Remove the watermark from output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.pdf"))
{
// Extract metadata from the document
IEnumerable<MetadataItem> metadata = parser.GetMetadata();
// Check if metadata extraction is supported
if (metadata == null)
{
Console.WriteLine("Metatada extraction isn't supported");
}
// Iterate over metadata items
foreach (MetadataItem item in metadata)
{
// Print an item name and value
Console.WriteLine(string.Format("{0}: {1}", item.Name, item.Value));
}
}
}
}
}

Мы разработали приложение C# для чтения метаданных PDF, чтобы продемонстрировать работу по извлечению метаданных из функции документа. Это приложение создается путем использования нескольких вызовов API библиотеки извлечения данных документа без установки какого-либо дополнительного программного обеспечения. Кроме того, этот пример кода можно выполнить в любой операционной системе, такой как MS Windows, Linux и macOS, которые поддерживают среду .NET.

 Русский