Как да извлечете текст от HTML в C#

В тази статия с инструкции ще се концентрираме върху процеса стъпка по стъпка за извличане на текст от HTML в C# и как да използвате това ръководство за разработване на C# извличане на текст от HTML функционалност. Това ръководство изисква да предоставите HTML документа за извличане на текст чрез използване на няколко прости извиквания на API. По-долу можете да разгледате пълната информация, както и работещ пример за извличане на текст от HTML с помощта на C#.

Стъпки за извличане на текст от HTML в C#

  1. Инсталирайте пакет GroupDocs.Parser for .NET от уебсайта на NuGet в проекта .NET, за да извлечете текст от HTML
  2. Добавете препратка към необходимите пространства от имена за извличане на текст от HTML документа
  3. Създайте екземпляр на класа Parser за зареждане на входния HTML документ
  4. Извикайте метода GetText на класа Parser за събиране на обекта TextReader
  5. Прочетете текста от TextReader и го покажете на конзолата

Предходните поетапни инструкции ви позволяват бързо да създадете извличане на текст от HTML C# приложение. Това са много лесни за използване инструкции и всеки с минимален опит в разработката може да ги следва, за да получи текст от документи. Освен това можете да използвате тези точки на всяка от често срещаните операционни системи като MS Windows, Linux и macOS. Освен това можете да извикате API за извличане на текст, без да настройвате допълнителен софтуер.

Код за извличане на текст от HTML в C#

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromHtmlInCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from HTML using C#
{
// Remove the watermark in output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.html"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

C# получава текст от HTML се разработва, като следвате стъпките, обяснени в предишния раздел. Можете да видите в горния кодов фрагмент, че процесът на извличане на текст се стартира чрез конфигуриране на необходимия пакет и добавяне на препратка към необходимите пространства от имена. В следващите стъпки заредихме входния HTML документ, като създадохме екземпляр на класа Parser и след това използвахме метода GetText за получаване на обекта TextReader и накрая прочетохме текста от него.

Обсъдихме подробните инструкции за разработване на приложението за получаване на текст от HTML C#. Наскоро публикувахме статия за извличане на метаданни от Excel файл с помощта на C#, вижте ръководството как да извлечете метаданни от Excel файл в C# за повече информация.

 Български