MHTML (MIME HTML) 文件是一种 Web 存档格式,用于将网页的全部内容(包括文本、图像和链接)保存到单个文件中。在处理 Web 内容以进行数据分析、文档处理或自动报告时,从 MHTML 文件中提取文本至关重要。在本文中,我们将探讨如何使用 C# 从 MHTML 中提取文本,为开发人员提供一种从这些文件中检索相关信息以供各种应用程序使用的有效方法。使用正确的工具和技术,使用 C# 从 MHTML 中提取文本可以成为一个简单的过程。对于此过程,请确保您拥有最新的 .NET Framework、Visual Studio 等 IDE 和解析器库。
使用 C# 从 MHTML 中提取文本的步骤
- 通过添加 GroupDocs.Parser for .NET 库来设置您的开发环境,使您可以轻松地从 MHTML 文件中提取文本
- 通过将 MHTML 文件的路径传递到其构造函数来初始化 Parser 对象
- 使用 Parser.GetText 方法检索 TextReader 对象,该对象将允许访问文本内容
- 调用 TextReader.ReadToEnd 方法从 MHTML 文件中提取全文
设置环境后,C# 中的 MHTML 文本提取 是一个很简单的过程。首先创建一个带有 MHTML 文件路径的 Parser 实例。使用 GetText 方法获取 TextReader 对象,该对象允许您访问文件的文本。最后,在 TextReader 上调用 ReadToEnd 以一次提取所有文本。此方法非常适合分析大量 Web 内容或自动转换 Web 档案。设置文件路径后,将以下代码示例集成到您的项目中将很容易。
使用 C# 从 MHTML 中提取文本的代码
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
using System; | |
using System.IO; | |
namespace ExtractTextfromMHTMLusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.mhtml")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
您可以在 Windows、macOS 和 Linux 上成功执行 C# 从 MHTML 读取文本 操作。这无需任何附加软件(.NET 附带的软件除外)即可完成。文本提取过程对于处理 Web 内容或构建文档自动化工具的开发人员来说是一种有价值的技术。无论您处理的是大规模数据抓取、内容分析还是存档,能够以编程方式从 MHTML 文件中提取文本都会简化您的工作流程并增强应用程序的功能。
之前,我们分享了如何使用 C# 从 TXT 文件中提取文本的全面指南。如需深入了解,请查看我们的完整教程,了解如何 使用 C# 从 TXT 中提取文本。