Քաղեք տեքստ MHTML-ից՝ օգտագործելով C#

MHTML (MIME HTML) ֆայլերը, վեբ արխիվի ձևաչափ, օգտագործվում են վեբ էջի ամբողջ բովանդակությունը, ներառյալ տեքստը, պատկերները և հղումները մեկ ֆայլում պահելու համար: MHTML ֆայլերից տեքստի դուրսբերումը շատ կարևոր է, երբ գործ ունենք վեբ բովանդակության հետ տվյալների վերլուծության, փաստաթղթերի մշակման կամ ավտոմատացված հաշվետվությունների համար: Այս հոդվածում մենք կուսումնասիրենք, թե ինչպես կարելի է արտահանել տեքստ MHTML-ից՝ օգտագործելով C#՝ ծրագրավորողներին տրամադրելով տարբեր հավելվածների համար այս ֆայլերից համապատասխան տեղեկատվություն ստանալու արդյունավետ միջոց: Օգտագործելով ճիշտ գործիք և տեխնիկա, տեքստի արդյունահանումը MHTML-ից C#-ով կարող է պարզ գործընթաց լինել: Այս գործընթացի համար համոզվեք, որ ունեք վերջին .NET Framework-ը, Visual Studio-ի նման IDE և Parser գրադարանը:

MHTML-ից տեքստ հանելու քայլեր՝ օգտագործելով C#

  1. Ստեղծեք ձեր զարգացման միջավայրը՝ ավելացնելով GroupDocs.Parser for .NET գրադարանը, որը թույլ է տալիս հեշտությամբ հանել տեքստը MHTML ֆայլերից
  2. Նախաձեռնեք Parser օբյեկտը` փոխանցելով ձեր MHTML ֆայլի ուղին դրա կոնստրուկտորին
  3. Օգտագործեք Parser.GetText մեթոդը՝ TextReader օբյեկտը ստանալու համար, որը թույլ կտա մուտք գործել տեքստի բովանդակություն։
  4. Զանգահարեք TextReader.ReadToEnd մեթոդը՝ MHTML ֆայլից ամբողջական տեքստը հանելու համար

Ձեր միջավայրը կարգավորելուց հետո *MHTML տեքստի արդյունահանումը C#-ում պարզ գործընթաց է: Սկսեք ստեղծելով Parser օրինակ՝ ձեր MHTML ֆայլի ուղով: Օգտագործեք GetText մեթոդը TextReader օբյեկտ ստանալու համար, որը թույլ է տալիս մուտք գործել ֆայլի տեքստը: Վերջապես, զանգահարեք ReadToEnd TextReader-ում՝ ամբողջ տեքստը միանգամից հանելու համար: Այս մեթոդը իդեալական է լայնածավալ վեբ բովանդակությունը վերլուծելու կամ վեբ արխիվների փոխակերպման ավտոմատացման համար: Ֆայլի ուղիները կարգավորելուց հետո, ստորև բերված կոդի օրինակը ձեր նախագծերին ինտեգրելը հեշտ կլինի:

Կոդ՝ MHTML-ից տեքստ հանելու համար՝ օգտագործելով C#

using GroupDocs.Parser;
using GroupDocs.Parser.Options;
using System;
using System.IO;
namespace ExtractTextfromMHTMLusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.mhtml"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

Դուք կարող եք հաջողությամբ կատարել C# կարդալ MHTML գործառնությունները Windows-ում, macOS-ում և Linux-ում: Դա կարելի է անել առանց որևէ լրացուցիչ ծրագրաշարի, որը ներառված է .NET-ում: Տեքստի արդյունահանման գործընթացը արժեքավոր տեխնիկա է մշակողների համար, ովքեր աշխատում են վեբ բովանդակության կամ փաստաթղթերի ավտոմատացման գործիքների կառուցման հետ: Անկախ նրանից, թե դուք գործ ունեք լայնածավալ տվյալների քերման, բովանդակության վերլուծության կամ արխիվացման հետ, MHTML ֆայլերից տեքստը ծրագրային կերպով հանելու կարողությունը կհեշտացնի ձեր աշխատանքային հոսքը և կբարձրացնի ձեր հավելվածների հնարավորությունները:

Ավելի վաղ մենք կիսվել էինք համապարփակ ուղեցույցով, թե ինչպես կարելի է տեքստ հանել TXT ֆայլերից՝ օգտագործելով C#: Ավելի խորը հասկանալու համար խնդրում ենք ստուգել մեր ամբողջական ձեռնարկը, թե ինչպես կատարել հանել տեքստը TXT-ից՝ օգտագործելով C#:

 Հայերեն