使用 C# 从 DOCX 提取文本

在当今的数字环境中,自动化文档管理流程对于提高效率和生产力至关重要。从 DOCX 文件中提取文本是许多应用程序的常见要求,无论是用于数据分析、内容管理还是存档目的。在本文中,我们将探讨如何借助 Parser 库(用于文档解析和提取的强大 API)使用 C# 从 DOCX 中提取文本。它是一个多功能库,允许开发人员从各种文档格式(包括 DOCX)中提取文本、图像、元数据和其他元素。它简化了处理复杂文档的过程,当您需要以强大而高效的方式自动提取文本时特别有用。以下是使用 C# 从 DOCX 中提取文本的关键步骤。

使用 C# 从 DOCX 中提取文本的步骤

  1. 通过添加 GroupDocs.Parser for .NET 来准备您的开发环境,这允许您从 DOCX 文件中提取文本
  2. 创建 Parser 类的实例,并在其构造函数中提供 DOCX 文件的路径
  3. 使用 Parser 类的 GetText 方法获取 TextReader 对象
  4. 最后,调用 TextReader.ReadToEnd 方法读取文本

上述使用 C# 提取 DOCX 文本的步骤适用于 Windows、macOS 或 Linux,无需安装额外软件。您只需在系统上安装 .NET。无论您是在执行简单的文本提取任务还是处理更复杂的文档结构,Parser 库都会提供您快速有效地完成工作所需的 API。这不仅简化了文档处理,还增强了您以编程方式管理和分析文本数据的能力。下面的代码示例展示了如何从 DOCX 获取文本。

使用 C# 从 DOCX 中提取文本的代码

using System;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Options;
namespace ExtractTextfromDOCXusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Apply the license to remove the limitations of the Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.docx"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

总之,使用 C# 从 DOCX 文件中提取文本是一个简化的过程,可以显著增强您的文档处理能力。此方法可确保您可以轻松地自动执行文本提取任务,无论是用于数据分析、内容管理还是应用程序开发。通过将此功能集成到您的项目中,您可以保持文档处理工作流程的高效率和准确性。在使用 C# 从 DOCX 读取文本 时,您应该不会遇到任何困难或问题。配置建议的库并设置正确的文件路径后,将提供的代码合并到您的项目中应该很简单。

在我们之前的讨论中,我们提供了有关如何使用 C# 从 Excel 中提取图像的深入指南。对于那些寻求更详细解释的人,我们建议查看有关如何 使用 C# 从 Excel 中提取图像 的综合教程。

 简体中文