使用 C# 从 PPT 中提取文本

在当今的数字时代,管理和提取演示文稿文件中的信息是开发人员和数据分析师的常见任务。PowerPoint 演示文稿通常以 PPT 格式保存,可能包含需要提取以进行分析、转换或集成到其他系统中的宝贵文本数据。本文将指导您完成如何使用强大的 Parser 库从 PPT 中提取文本的过程。PowerPoint 演示文稿广泛用于以可视格式传递信息。但是,有时您需要从这些演示文稿中提取文本以进行进一步处理或分析。让我们检查一下使用 C# 从 PPT 中提取文本的步骤。

使用 C# 从 PPT 中提取文本的步骤

  1. 通过添加 GroupDocs.Parser for .NET 设置您的开发环境,它允许您从 PPT 文件中提取文本
  2. 通过在其构造函数中指定 PPT 文件的路径来实例化 Parser 对象
  3. 使用 Parser 对象的 GetText 方法获取 TextReader
  4. 调用 TextReader 上的 ReadToEnd 方法从 PPT 文件读取所有文本

首先,您需要设置从 PPT 文件中提取文本的开发环境。第一步是将解析器库集成到您的 .NET 项目中。此库提供全面的文档解析工具,包括对 PowerPoint 文件的支持。确保您的系统上安装了 .NET,并通过 NuGet 或手动引用库将解析器库添加到您的项目中。上面概述的过程与 Windows、macOS 和 Linux 操作系统兼容,并且它们不需要这些平台已包含的任何其他软件。以下是 C# 中 PPT 文本提取 的示例代码。

使用 C# 从 PPT 中提取文本的代码

using System;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Options;
namespace ExtractTextfromPPTusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Apply the license to remove the limitations of the Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.ppt"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

通过使用上述代码,您可以高效地检索和利用 PowerPoint 演示文稿中的文本数据。这种方法不仅节省时间,而且还增强了您以编程方式管理和处理演示文稿内容的能力。无论您是开发分析演示文稿内容的工具、将演示文稿转换为不同格式,还是仅仅存档文本数据,以编程方式从 PPT 文件中提取文本都可以简化您的工作流程。设置推荐的库并调整文件路径后,将提供的代码集成到您的项目中应该很容易。干得好!您已经掌握了 C# 从 PPT 读取文本 的过程。

之前,我们分享了使用 C# 从 DOC 文件中提取文本的综合指南。如需深入探索,请参阅我们的完整教程,了解如何 使用 C# 从 DOC 中提取文本

 简体中文