使用 C# 从 PDF 读取元数据

PDF 文件中的元数据包含有关文档的基本信息,例如标题、作者、创建日期、修改日期、关键字等。提取此元数据对于各种应用程序非常有益,包括文档管理系统、数据分析和自动化任务。在本文中,我们将深入研究如何使用 C#从 PDF 读取元数据。以下是该过程的详细说明和示例代码,可帮助您了解如何使用 C# 读取 PDF 的元数据。

使用 C# 从 PDF 读取元数据的步骤

  1. 配置您的 IDE 以使用 GroupDocs.Metadata for .NET 从 PDF 文件中提取元数据
  2. 使用 PDF 文件的文件路径作为其构造函数的参数创建一个 Metadata 对象
  3. 建立验证收集的元数据信息的标准
  4. 指定使用 Metadata.FindProperties 方法的条件
  5. 逐个循环遍历每个属性

使用 C# 从 PDF 文件中提取元数据为开发人员提供了有关文档属性(例如标题、作者、创建日期、修改日期和关键字)的宝贵见解。这些信息对于文档管理系统、数据分析和自动化工作流程至关重要。只要安装了 .NET,您就可以在 Windows、macOS 或 Linux 上按照上述说明进行操作。无需安装额外的软件即可在 C# 中提取 PDF 的元数据。一旦设置了推荐的库并相应地调整了文件路径,您就可以轻松地将以下代码集成到您的项目中,而不会出现任何问题或复杂性。

使用 C# 从 PDF 读取元数据的代码

using GroupDocs.Metadata;
using GroupDocs.Metadata.Common;
using GroupDocs.Metadata.Tagging;
using System.Text.RegularExpressions;
namespace ReadMetadataFromPDFUsingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Metadata library
License lic = new License();
lic.SetLicense(@"GroupDocs.Metadata.lic");
// Pass absolute or relative path of document to Metadata's constructor
using (Metadata metadata = new Metadata(@"input.pdf"))
{
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted)
{
Console.WriteLine();
// Fetch all metadata properties that fall into a particular category
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content));
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties having a specific type and value
var year = DateTime.Today.Year;
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime &&
p.Value.ToStruct(DateTime.MinValue).Year == year);
Console.WriteLine("All datetime properties with the year value equal to the current year");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties whose names match the specified regex
const string pattern = "^author|company|(.+date.*)$";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
properties = metadata.FindProperties(p => regex.IsMatch(p.Name));
Console.WriteLine("All properties whose names match the following regex: {0}", pattern);
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
}
}
}
}
}

总之,本文提供了有关如何在 C#* 编程中*获取 PDF 元数据的全面指南。通过利用元数据库,开发人员可以有效地从 PDF 文档中提取文档标题、作者、创建日期、修改日期和关键字等基本信息。了解和利用 C# 中的元数据提取技术使开发人员能够为文档管理、数据分析和自动化任务构建强大的应用程序。我们建议您尝试不同的 PDF 文件并探索其他元数据属性可以进一步增强 C# 应用程序中元数据提取的功能。

在之前的讨论中,我们提供了有关使用 C# 从 PPTX 文件中提取元数据的深入教程。为了更全面地了解此主题,我们建议您参阅有关如何使用 C# 从 PPTX 读取元数据的详细指南。

 简体中文