В тази статия с инструкции ще се концентрираме върху процеса стъпка по стъпка за извличане на текст от HTML в C# и как да използвате това ръководство за разработване на C# извличане на текст от HTML функционалност. Това ръководство изисква да предоставите HTML документа за извличане на текст чрез използване на няколко прости извиквания на API. По-долу можете да разгледате пълната информация, както и работещ пример за извличане на текст от HTML с помощта на C#.
Стъпки за извличане на текст от HTML в C#
- Инсталирайте пакет GroupDocs.Parser for .NET от уебсайта на NuGet в проекта .NET, за да извлечете текст от HTML
- Добавете препратка към необходимите пространства от имена за извличане на текст от HTML документа
- Създайте екземпляр на класа Parser за зареждане на входния HTML документ
- Извикайте метода GetText на класа Parser за събиране на обекта TextReader
- Прочетете текста от TextReader и го покажете на конзолата
Предходните поетапни инструкции ви позволяват бързо да създадете извличане на текст от HTML C# приложение. Това са много лесни за използване инструкции и всеки с минимален опит в разработката може да ги следва, за да получи текст от документи. Освен това можете да използвате тези точки на всяка от често срещаните операционни системи като MS Windows, Linux и macOS. Освен това можете да извикате API за извличане на текст, без да настройвате допълнителен софтуер.
Код за извличане на текст от HTML в C#
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromHtmlInCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from HTML using C# | |
{ | |
// Remove the watermark in output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.html")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
C# получава текст от HTML се разработва, като следвате стъпките, обяснени в предишния раздел. Можете да видите в горния кодов фрагмент, че процесът на извличане на текст се стартира чрез конфигуриране на необходимия пакет и добавяне на препратка към необходимите пространства от имена. В следващите стъпки заредихме входния HTML документ, като създадохме екземпляр на класа Parser и след това използвахме метода GetText за получаване на обекта TextReader и накрая прочетохме текста от него.
Обсъдихме подробните инструкции за разработване на приложението за получаване на текст от HTML C#. Наскоро публикувахме статия за извличане на метаданни от Excel файл с помощта на C#, вижте ръководството как да извлечете метаданни от Excel файл в C# за повече информация.