如何使用 C# 从 PDF 中提取文本

在当今的数字时代，使用 C# 编程语言从 PDF 文档中提取文本的能力非常有价值。无论您是自动提取数据、创建搜索功能还是分析文本内容，以编程方式处理 PDF 的功能都可以简化您的流程并提高效率。在本文中，我们将引导您完成使用 C# 从 PDF 中提取文本的基本步骤。您可以使用以下步骤控制 Viewer 库的功能，以无缝在 C# 中从 PDF 中提取文本。

使用 C# 从 PDF 中提取文本的步骤

使用 NuGet 包管理器安装 GroupDocs.Viewer for .NET 以从 PDF 中提取文本
要提取 PDF 文本，请将 GroupDocs.Viewer 引用添加到您的项目中
在构造函数中使用 PDF 文件的路径实例化 Viewer 类对象
调用 ViewInfoOptions.ForHtmlView 方法检索有关视图的信息
将 ViewInfoOptions.ExtractText 属性设置为 true 以启用 PDF 文本提取
利用 PdfViewInfo.Pages 属性访问整个文档页面列表
使用 Page.Lines 迭代每个页面上的行集合以从每行中提取文本

学习如何使用 C# 从 PDF 中提取文本使您能够利用 PDF 文档中包含的丰富信息。无论您是从事数据驱动项目、文档管理还是自动化业务流程，这项技能都是宝贵的资产。在系统上安装 .NET 后，您可以在 Windows、macOS 和 Linux 等广泛使用的操作系统上轻松执行 C# 从 PDF 提取数据 方法。下面的代码示例说明了如何使用 C# 从 PDF 文件中提取文本。

使用 C# 从 PDF 中提取文本的代码

	using GroupDocs.Viewer;
	using GroupDocs.Viewer.Options;
	using GroupDocs.Viewer.Results;
	using System;

	namespace ExtractTextfromPDFUsingCSharp
	{
	internal class Program
	{
	static void Main(string[] args)
	{
	// Set License to avoid the limitations of Viewer library
	License lic = new License();
	lic.SetLicense(@"GroupDocs.Viewer.lic");

	using (var viewer = new Viewer("input.pdf"))
	{
	var viewInfoOptions = ViewInfoOptions.ForHtmlView();
	viewInfoOptions.ExtractText = true;
	var viewInfo = viewer.GetViewInfo(viewInfoOptions) as PdfViewInfo;

	// Retrieve text from the PDF file.
	Console.WriteLine("Extracted document text:");
	foreach (Page page in viewInfo.Pages)
	foreach (Line line in page.Lines)
	{
	Console.WriteLine(line.Value);
	}
	}
	}
	}
	}

view raw How to Extract Text from PDF using C#.cs hosted with ❤ by GitHub

我们在本指南中了解了 C# 从 PDF 获取文本 的主要步骤。通过执行上述步骤，您可以轻松完成各种应用程序的文本提取过程。成功安装建议的库并对文件路径进行必要的更改后，将提取文本代码集成到您的项目中就变得简单而轻松的操作。

在之前的教程中，我们讨论了如何将 PDF 渲染为 PNG。如果您需要进一步帮助，我们建议您阅读我们关于如何使用 C# 将 PDF 渲染为 PNG的文章。

GroupDocs 知识库

查找API的答案

如何使用 C# 从 PDF 中提取文本

使用 C# 从 PDF 中提取文本的步骤

使用 C# 从 PDF 中提取文本的代码