在当今的数字时代,使用 C# 编程语言从 PDF 文档中提取文本的能力非常有价值。无论您是自动提取数据、创建搜索功能还是分析文本内容,以编程方式处理 PDF 的功能都可以简化您的流程并提高效率。在本文中,我们将引导您完成使用 C# 从 PDF 中提取文本的基本步骤。您可以使用以下步骤控制 Viewer 库的功能,以无缝在 C# 中从 PDF 中提取文本。
使用 C# 从 PDF 中提取文本的步骤
- 使用 NuGet 包管理器安装 GroupDocs.Viewer for .NET 以从 PDF 中提取文本
- 要提取 PDF 文本,请将 GroupDocs.Viewer 引用添加到您的项目中
- 在构造函数中使用 PDF 文件的路径实例化 Viewer 类对象
- 调用 ViewInfoOptions.ForHtmlView 方法检索有关视图的信息
- 将 ViewInfoOptions.ExtractText 属性设置为 true 以启用 PDF 文本提取
- 利用 PdfViewInfo.Pages 属性访问整个文档页面列表
- 使用 Page.Lines 迭代每个页面上的行集合以从每行中提取文本
学习如何使用 C# 从 PDF 中提取文本使您能够利用 PDF 文档中包含的丰富信息。无论您是从事数据驱动项目、文档管理还是自动化业务流程,这项技能都是宝贵的资产。在系统上安装 .NET 后,您可以在 Windows、macOS 和 Linux 等广泛使用的操作系统上轻松执行 C# 从 PDF 提取数据 方法。下面的代码示例说明了如何使用 C# 从 PDF 文件中提取文本。
使用 C# 从 PDF 中提取文本的代码
using GroupDocs.Viewer; | |
using GroupDocs.Viewer.Options; | |
using GroupDocs.Viewer.Results; | |
using System; | |
namespace ExtractTextfromPDFUsingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Viewer library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Viewer.lic"); | |
using (var viewer = new Viewer("input.pdf")) | |
{ | |
var viewInfoOptions = ViewInfoOptions.ForHtmlView(); | |
viewInfoOptions.ExtractText = true; | |
var viewInfo = viewer.GetViewInfo(viewInfoOptions) as PdfViewInfo; | |
// Retrieve text from the PDF file. | |
Console.WriteLine("Extracted document text:"); | |
foreach (Page page in viewInfo.Pages) | |
foreach (Line line in page.Lines) | |
{ | |
Console.WriteLine(line.Value); | |
} | |
} | |
} | |
} | |
} |
我们在本指南中了解了 C# 从 PDF 获取文本 的主要步骤。通过执行上述步骤,您可以轻松完成各种应用程序的文本提取过程。成功安装建议的库并对文件路径进行必要的更改后,将提取文本代码集成到您的项目中就变得简单而轻松的操作。
在之前的教程中,我们讨论了如何将 PDF 渲染为 PNG。如果您需要进一步帮助,我们建议您阅读我们关于如何使用 C# 将 PDF 渲染为 PNG的文章。