Ինչպես հանել տեքստը HTML-ից C#-ում

Այս հոդվածում մենք կկենտրոնանանք «HTML-ից C#**-ից տեքստ հանելու քայլ առ քայլ գործընթացի վրա և ինչպես օգտագործել այս ուղեցույցը **C#-ից քաղված տեքստը մշակելու համար: HTML ** ֆունկցիոնալությունը: Այս ձեռնարկը պահանջում է, որ դուք տրամադրեք HTML փաստաթուղթ՝ տեքստի արդյունահանման համար՝ սպառելով մի քանի պարզ API զանգեր: Ստորև կարող եք դիտել ամբողջական տեղեկատվությունը, ինչպես նաև աշխատանքային օրինակ՝ HTML-ից C#-ով տեքստ հանելու համար:

Քայլեր C#-ով HTML-ից տեքստ հանելու համար

  1. Տեղադրեք GroupDocs.Parser for .NET փաթեթը NuGet կայքից .NET նախագծում՝ HTML-ից տեքստ հանելու համար
  2. Ավելացրեք հղում HTML փաստաթղթից տեքստ հանելու համար անհրաժեշտ անվանատարածքներին
  3. Ստեղծեք Parser դասի օրինակ՝ մուտքային HTML փաստաթուղթը բեռնելու համար
  4. TextReader օբյեկտը հավաքելու համար կանչեք Parser դասի GetText մեթոդը
  5. Կարդացեք տեքստը TextReader-ից և ցուցադրեք այն վահանակի վրա

Նախորդ քայլ առ քայլ հրահանգները թույլ են տալիս արագ ստեղծել extext Text HTML C# հավելվածից: Սրանք շատ հեշտ օգտագործման հրահանգներ են, և յուրաքանչյուր ոք, ով ունի զարգացման նվազագույն փորձ, կարող է հետևել դրանց՝ փաստաթղթերից տեքստ ստանալու համար: Բացի այդ, դուք կարող եք օգտագործել այս կետերը սովորական օպերացիոն համակարգերից որևէ մեկի վրա, ինչպիսիք են MS Windows-ը, Linux-ը և macOS-ը: Ավելին, դուք կարող եք զանգահարել API-ներ տեքստի արդյունահանման համար՝ առանց որևէ լրացուցիչ ծրագրակազմ տեղադրելու:

Կոդ՝ HTML-ից C#-ով տեքստ հանելու համար

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromHtmlInCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from HTML using C#
{
// Remove the watermark in output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.html"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

C# ստանալ տեքստը HTML-ից մշակվում է՝ հետևելով նախորդ բաժնում նկարագրված քայլերին: Վերոնշյալ կոդի հատվածում կարող եք տեսնել, որ տեքստի արդյունահանման գործընթացը սկսվում է պահանջվող փաթեթը կարգավորելով և հղումը անհրաժեշտ անվանատարածքներին ավելացնելով: Հաջորդ քայլերում մենք բեռնել ենք մուտքային HTML փաստաթուղթը՝ ստեղծելով Parser դասի օրինակ, այնուհետև օգտագործել GetText մեթոդը TextReader օբյեկտը ստանալու համար և վերջապես կարդալ տեքստը դրանից։

Մենք քննարկել ենք HTML C# հավելվածից ստանալ տեքստը մշակելու մանրամասն հրահանգները: Վերջերս մենք հրապարակեցինք հոդված՝ մետատվյալները Excel ֆայլից C#-ով հանելու համար, լրացուցիչ տեղեկությունների համար դիտեք ինչպես հանել մետատվյալները Excel ֆայլից C#-ով ուղեցույցը:

 Հայերեն