如何在 C# 中从 Word 文档中提取元数据

本文提供了有关如何使用几个简单的 API 调用从 C# 中的 Word 文档中提取元数据的分步说明。您还可以在本文中找到一个工作示例代码,以使用 C# 获取 Word 元数据**。本指南中描述的工作流不依赖于任何其他第三方工具,并且可以在任何支持 .NET 环境的流行操作系统(如 Windows、macOS 和 Linux)上执行。

在 C# 中从 Word 文档中提取元数据的步骤

  1. 从 .NET 项目中的 NuGet 包管理器设置 GroupDocs.Parser for .NET 包以从 Word 文档中提取元数据
  2. 添加对必要命名空间的引用,以便从 Word 文件中提取元数据
  3. 实例化 Parser 类以加载输入 DOCX 文件
  4. 调用 Parser 类的 GetMetadata 方法获取元数据集合
  5. 最后,迭代集合以获取元数据的名称和值

上述工作流使您能够快速创建在 C# 中获取元数据 Word 文档的功能。您可以通过设置所需的包并在代码中包含必要的命名空间来初始化 Word 元数据提取过程。完成此操作后,您需要通过初始化 Parser 类来加载 DOC 或 DOCX 文件。在接下来的两个步骤中,您必须调用 GetMetadata 方法来获取元数据集合,然后对其进行迭代以进行进一步处理。

在 C# 中从 Word 文档中提取元数据的代码

using System;
using System.Collections.Generic;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractMetadataFromWordDocumentInCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract Metadata from Word using C#
{
// Remove the watermark in output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.docx"))
{
// Extract metadata from the document
IEnumerable<MetadataItem> metadata = parser.GetMetadata();
// Check if metadata extraction is supported
if (metadata == null)
{
Console.WriteLine("Metatada extraction isn't supported");
}
// Iterate over metadata items
foreach (MetadataItem item in metadata)
{
// Print an item name and value
Console.WriteLine(string.Format("{0}: {1}", item.Name, item.Value));
}
}
}
}
}

C# 元数据 Word 文档 应用程序是使用前面部分中解释的说明开发的,用于演示。我们已经编写了几行代码并使用了一些 API 调用来从 Word 文件中提取元数据。此外,您可以轻松地从其他文档格式(例如 DOC、DOCX、RTF、XLSX、PDF、PPTX、MSG、EML 等)中提取元数据,只需稍微调整此示例代码即可。

我们已经讨论了使用 C# 从 Word 文档中提取元数据的详细说明,并为其开发了一个示例应用程序。最近,我们发表了一篇使用 C# 从 PowerPoint 中提取图像的文章,请查看 如何在 C# 中从 PowerPoint 中提取图像 指南了解更多信息。如果您有兴趣了解有关 GroupDocs 产品的更多信息,请访问此 page

 简体中文