Извлечение текста из MHTML с помощью C#

Файлы MHTML (MIME HTML), формат веб-архива, используются для сохранения всего содержимого веб-страницы, включая текст, изображения и ссылки, в одном файле. Извлечение текста из файлов MHTML имеет решающее значение при работе с веб-контентом для анализа данных, обработки документов или автоматизированной отчетности. В этой статье мы рассмотрим, как извлечь текст из MHTML с помощью C#, предоставляя разработчикам эффективный способ извлечения соответствующей информации из этих файлов для различных приложений. Используя правильный инструмент и метод, извлечение текста из MHTML в C# может быть простым процессом. Для этого процесса убедитесь, что у вас есть последняя версия .NET Framework, IDE, такая как Visual Studio, и библиотека Parser.

Шаги по извлечению текста из MHTML с помощью C#

  1. Настройте среду разработки, добавив библиотеку GroupDocs.Parser for .NET, позволяющую легко извлекать текст из файлов MHTML.
  2. Инициализируйте объект Parser, передав путь к вашему MHTML-файлу в его конструктор.
  3. Используйте метод Parser.GetText для извлечения объекта TextReader, который позволит получить доступ к текстовому содержимому.
  4. Вызовите метод TextReader.ReadToEnd для извлечения полного текста из файла MHTML.

После настройки среды извлечение текста MHTML в C# становится простым процессом. Начните с создания экземпляра Parser с путем к вашему файлу MHTML. Используйте метод GetText для получения объекта TextReader, который позволяет получить доступ к тексту файла. Наконец, вызовите ReadToEnd для TextReader, чтобы извлечь весь текст сразу. Этот метод идеально подходит для анализа обширного веб-контента или автоматизации преобразования веб-архивов. После настройки путей к файлам интеграция приведенного ниже примера кода в ваши проекты будет простой.

Код для извлечения текста из MHTML с использованием C#

using GroupDocs.Parser;
using GroupDocs.Parser.Options;
using System;
using System.IO;
namespace ExtractTextfromMHTMLusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.mhtml"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

Вы можете успешно выполнять операции C# read text from MHTML на Windows, macOS и Linux. Это можно сделать без какого-либо дополнительного программного обеспечения, кроме того, что включено в .NET. Процесс извлечения текста является ценным методом для разработчиков, работающих с веб-контентом или создающих инструменты автоматизации документов. Независимо от того, имеете ли вы дело с крупномасштабным извлечением данных, анализом контента или архивированием, возможность извлекать текст из файлов MHTML программным способом упростит ваш рабочий процесс и расширит возможности ваших приложений.

Ранее мы поделились исчерпывающим руководством о том, как извлекать текст из файлов TXT с помощью C#. Для более глубокого понимания, пожалуйста, ознакомьтесь с нашим полным руководством о том, как извлечь текст из TXT с помощью C#.

 Русский