如何在 C# 中从 PDF 中提取文本

本快速教程解释了在 C#** 中PDF 中提取文本的详细说明。它还提供了示例应用程序来展示使用 C#** 从 PDF 中提取文本的实现。本指南使用流行的软件包之一从各种文档格式中提取文档数据。以下是从 PDF 中获取文本的核心步骤和示例代码。

在 C# 中从 PDF 中提取文本的步骤

  1. 从 .NET 应用程序中的 NuGet 包管理器设置 GroupDocs.Parser for .NET 包以从 PDF 中提取文本
  2. 添加对基本命名空间的引用,以便从 PDF 文档中提取文本
  3. 实例化 Parser 类以加载输入 PDF 文档
  4. 调用 GetText 方法并获取文本阅读器对象
  5. 最后,从阅读器中读取文本并显示

我们列出了开发 C# 从 PDF 提取文本应用程序的所有关键步骤。这些从 PDF 中提取文本的说明可用于支持 .NET 环境的任何平台,如 MS Windows、Linux 和 macOS,甚至无需安装任何第三方软件。您必须编写几行代码,其中包含文档提取库的 API 调用。

在 C# 中从 PDF 中提取文本的代码

在上面的代码片段中,我们开发了 *C# 读取 PDF 文本 * 应用程序,向您展示从文档中获取文本的工作原理。在此示例中,我们使用 PDF 文件来提取文本,但是,您可以从各种其他文档中提取文本,例如 DOC、DOCX、XLS、XLSX、PPTX、MSG、XML、ZIP 等等。

我们已经详细讨论了实现 C# 从 PDF 获取文本功能的过程,并为其创建了示例代码。最近,我们发表了一篇使用 C# 从 PDF 中提取元数据的文章,请查看 如何使用 C# 从 PDF 中提取元数据 指南了解更多信息。

 简体中文