Четете метаданни от PDF с помощта на C#

Метаданните във PDF файловете съдържат съществена информация за документа, като заглавие, автор, дата на създаване, дата на модификация, ключови думи и др. Извличането на тези метаданни може да бъде изключително полезно за различни приложения, включително системи за управление на документи, анализ на данни и задачи за автоматизация. В тази статия ще разгледаме как да четем метаданни от PDF с помощта на C#. Ето разбивка на процеса с примерен код, за да ви помогне да разберете как да четете метаданни на PDF с помощта на C#.

Стъпки за четене на метаданни от PDF с помощта на C#

  1. Конфигурирайте вашето IDE да използва GroupDocs.Metadata for .NET за извличане на метаданни от PDF файлове
  2. Създайте обект Metadata, като използвате файловия път на PDF файла като параметър за неговия конструктор
  3. Установете критерии за валидиране на събраната информация за метаданни
  4. Посочете условие за използване на метода Metadata.FindProperties
  5. Прегледайте всяко от свойствата едно по едно

Извличането на метаданни от PDF файлове с помощта на C# предоставя на разработчиците ценна информация за свойствата на документа като заглавие, автор, дата на създаване, дата на модификация и ключови думи. Тази информация може да бъде от решаващо значение за системите за управление на документи, анализ на данни и автоматизирани работни потоци. Можете да следвате инструкциите по-горе в Windows, macOS или Linux, стига да имате инсталиран .NET. Няма нужда да инсталирате допълнителен софтуер за извличане на метаданни от PDF в C#. След като настроите препоръчаната библиотека и съответно коригирате пътищата на файловете, можете лесно да интегрирате следния код във вашите проекти без никакви проблеми или усложнения.

Код за четене на метаданни от PDF с помощта на C#

using GroupDocs.Metadata;
using GroupDocs.Metadata.Common;
using GroupDocs.Metadata.Tagging;
using System.Text.RegularExpressions;
namespace ReadMetadataFromPDFUsingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Metadata library
License lic = new License();
lic.SetLicense(@"GroupDocs.Metadata.lic");
// Pass absolute or relative path of document to Metadata's constructor
using (Metadata metadata = new Metadata(@"input.pdf"))
{
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted)
{
Console.WriteLine();
// Fetch all metadata properties that fall into a particular category
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content));
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties having a specific type and value
var year = DateTime.Today.Year;
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime &&
p.Value.ToStruct(DateTime.MinValue).Year == year);
Console.WriteLine("All datetime properties with the year value equal to the current year");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties whose names match the specified regex
const string pattern = "^author|company|(.+date.*)$";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
properties = metadata.FindProperties(p => regex.IsMatch(p.Name));
Console.WriteLine("All properties whose names match the following regex: {0}", pattern);
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
}
}
}
}
}

В заключение, тази статия предоставя изчерпателно ръководство за това как да получавате метаданни на PDF в C# програмиране. Използвайки библиотека с метаданни, разработчиците могат ефективно да извличат важна информация като заглавие на документ, автор, дата на създаване, дата на модификация и ключови думи от PDF документи. Разбирането и използването на техники за извличане на метаданни в C# дава възможност на разработчиците да създават стабилни приложения за управление на документи, анализ на данни и задачи за автоматизация. Предлагаме ви да експериментирате с различни PDF файлове и изследването на допълнителни свойства на метаданни може допълнително да подобри възможностите за извличане на метаданни в C# приложения.

По време на предишната ни дискусия предоставихме задълбочен урок за извличане на метаданни от PPTX файлове с помощта на C#. За по-задълбочено разбиране на тази тема препоръчваме да се обърнете към нашето обширно ръководство за това как да чете метаданни от PPTX с помощта на C#.

 Български