如何使用 C# 从 PowerPoint 中提取文本

本快速教程使用最佳文档提取 API 之一提供逐步信息,以使用 C# 从 PowerPoint 中提取文本。在 C#** 应用程序中,**从 PPTX 中提取文本只需要您编写几行由简单 API 调用组成的代码。在这里,您可以查看主要步骤以及用于从文档中提取文本的示例代码片段。

使用 C# 从 PowerPoint 中提取文本的步骤

  1. 从 .NET 应用程序中的 NuGet 包管理器安装 GroupDocs.Parser for .NET 包以从 PowerPoint 中提取文本
  2. 添加对必要命名空间的引用,以便从 PowerPoint 文档中提取文本
  3. 实例化 Parser 类以加载输入的 PowerPoint 文档
  4. 调用Parser类的GetText方法获取TextReader对象
  5. 从 TextReader 读取文本并将其显示在屏幕上

以上说明使您能够快速开发应用程序以使用 C# 从 PPT 中提取文本。您只需要按顺序执行这些步骤,安装所需的库,导入必要的类,并使用一些 API 调用来从 PowerPoint 文档中提取文本。此外,这些步骤可以在 Windows、macOS 和 Linux 等任何操作系统上执行,而无需设置任何第三方工具。

使用 C# 从 PowerPoint 中提取文本的代码

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromPowerpointUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from Powerpoint using C#
{
// Remove the watermark in output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.pptx"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

上面的代码片段演示了如何使用上一节中描述的逐步工作流程为 C# get Text from PowerPoint 文件创建功能。我们已经通过从 NuGet 网站配置所需的包开始文本提取过程,然后在代码中包含必要的命名空间。之后,我们创建了 Parser 类实例,用于加载 PowerPoint 文件以从中获取文本。在最后两个步骤中,我们通过调用 GetText 方法收集了 TextReader 对象,然后从阅读器中读取文本进行进一步处理。

我们已经讨论了在 C# 中从 PowerPoint 中提取文本的详细说明,并为它开发了一个示例应用程序。最近,我们发表了一篇使用 C# 从 HTML 中提取文本的文章,请查看 如何在 C# 中从 HTML 中提取文本 指南了解更多信息。

 简体中文