Чтение метаданных из PDF с помощью C#

Метаданные в файлах PDF содержат важную информацию о документе, такую как название, автор, дата создания, дата изменения, ключевые слова и т. д. Извлечение этих метаданных может быть чрезвычайно полезным для различных приложений, включая системы управления документами, анализ данных и задачи автоматизации. В этой статье мы углубимся в то, как читать метаданные из PDF с помощью C#. Ниже приведено описание процесса с примером кода, который поможет вам понять, как читать метаданные PDF с помощью C#.

Действия по чтению метаданных из PDF с помощью C#

  1. Настройте свою IDE для использования GroupDocs.Metadata for .NET для извлечения метаданных из файлов PDF.
  2. Создайте объект Metadata, используя путь к файлу PDF в качестве параметра для его конструктора.
  3. Установите критерии проверки собранной информации метаданных.
  4. Укажите условие для использования метода Metadata.FindProperties.
  5. Перебирать каждое из свойств одно за другим

Извлечение метаданных из файлов PDF с помощью C# предоставляет разработчикам ценную информацию о свойствах документа, таких как название, автор, дата создания, дата изменения и ключевые слова. Эта информация может иметь решающее значение для систем управления документами, анализа данных и автоматизированных рабочих процессов. Вы можете следовать приведенным выше инструкциям в Windows, macOS или Linux, если у вас установлен .NET. Нет необходимости устанавливать дополнительное программное обеспечение для извлечения метаданных PDF на C#. После того, как вы настроите рекомендуемую библиотеку и соответствующим образом настроите пути к файлам, вы сможете легко интегрировать следующий код в свои проекты без каких-либо проблем или осложнений.

Код для чтения метаданных из PDF с использованием C#

using GroupDocs.Metadata;
using GroupDocs.Metadata.Common;
using GroupDocs.Metadata.Tagging;
using System.Text.RegularExpressions;
namespace ReadMetadataFromPDFUsingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Metadata library
License lic = new License();
lic.SetLicense(@"GroupDocs.Metadata.lic");
// Pass absolute or relative path of document to Metadata's constructor
using (Metadata metadata = new Metadata(@"input.pdf"))
{
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted)
{
Console.WriteLine();
// Fetch all metadata properties that fall into a particular category
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content));
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties having a specific type and value
var year = DateTime.Today.Year;
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime &&
p.Value.ToStruct(DateTime.MinValue).Year == year);
Console.WriteLine("All datetime properties with the year value equal to the current year");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties whose names match the specified regex
const string pattern = "^author|company|(.+date.*)$";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
properties = metadata.FindProperties(p => regex.IsMatch(p.Name));
Console.WriteLine("All properties whose names match the following regex: {0}", pattern);
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
}
}
}
}
}

В заключение, в этой статье представлено подробное руководство о том, как получить метаданные PDF при программировании на C#. Используя библиотеку метаданных, разработчики могут эффективно извлекать из PDF-документов важную информацию, такую как название документа, автор, дата создания, дата изменения и ключевые слова. Понимание и использование методов извлечения метаданных в C# позволяет разработчикам создавать надежные приложения для управления документами, анализа данных и задач автоматизации. Мы предлагаем вам поэкспериментировать с различными PDF-файлами, а изучение дополнительных свойств метаданных может еще больше расширить возможности извлечения метаданных в приложениях C#.

Во время нашего предыдущего обсуждения мы предоставили подробное руководство по извлечению метаданных из файлов PPTX с использованием C#. Для более полного понимания этой темы мы рекомендуем обратиться к нашему подробному руководству о том, как читать метаданные из PPTX с помощью C#.

 Русский