MHTML (MIME HTML) ֆայլերը, վեբ արխիվի ձևաչափ, օգտագործվում են վեբ էջի ամբողջ բովանդակությունը, ներառյալ տեքստը, պատկերները և հղումները մեկ ֆայլում պահելու համար: MHTML ֆայլերից տեքստի դուրսբերումը շատ կարևոր է, երբ գործ ունենք վեբ բովանդակության հետ տվյալների վերլուծության, փաստաթղթերի մշակման կամ ավտոմատացված հաշվետվությունների համար: Այս հոդվածում մենք կուսումնասիրենք, թե ինչպես կարելի է արտահանել տեքստ MHTML-ից՝ օգտագործելով C#՝ ծրագրավորողներին տրամադրելով տարբեր հավելվածների համար այս ֆայլերից համապատասխան տեղեկատվություն ստանալու արդյունավետ միջոց: Օգտագործելով ճիշտ գործիք և տեխնիկա, տեքստի արդյունահանումը MHTML-ից C#-ով կարող է պարզ գործընթաց լինել: Այս գործընթացի համար համոզվեք, որ ունեք վերջին .NET Framework-ը, Visual Studio-ի նման IDE և Parser գրադարանը:
MHTML-ից տեքստ հանելու քայլեր՝ օգտագործելով C#
- Ստեղծեք ձեր զարգացման միջավայրը՝ ավելացնելով GroupDocs.Parser for .NET գրադարանը, որը թույլ է տալիս հեշտությամբ հանել տեքստը MHTML ֆայլերից
- Նախաձեռնեք Parser օբյեկտը` փոխանցելով ձեր MHTML ֆայլի ուղին դրա կոնստրուկտորին
- Օգտագործեք Parser.GetText մեթոդը՝ TextReader օբյեկտը ստանալու համար, որը թույլ կտա մուտք գործել տեքստի բովանդակություն։
- Զանգահարեք TextReader.ReadToEnd մեթոդը՝ MHTML ֆայլից ամբողջական տեքստը հանելու համար
Ձեր միջավայրը կարգավորելուց հետո *MHTML տեքստի արդյունահանումը C#-ում պարզ գործընթաց է: Սկսեք ստեղծելով Parser օրինակ՝ ձեր MHTML ֆայլի ուղով: Օգտագործեք GetText մեթոդը TextReader օբյեկտ ստանալու համար, որը թույլ է տալիս մուտք գործել ֆայլի տեքստը: Վերջապես, զանգահարեք ReadToEnd TextReader-ում՝ ամբողջ տեքստը միանգամից հանելու համար: Այս մեթոդը իդեալական է լայնածավալ վեբ բովանդակությունը վերլուծելու կամ վեբ արխիվների փոխակերպման ավտոմատացման համար: Ֆայլի ուղիները կարգավորելուց հետո, ստորև բերված կոդի օրինակը ձեր նախագծերին ինտեգրելը հեշտ կլինի:
Կոդ՝ MHTML-ից տեքստ հանելու համար՝ օգտագործելով C#
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
using System; | |
using System.IO; | |
namespace ExtractTextfromMHTMLusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.mhtml")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Դուք կարող եք հաջողությամբ կատարել C# կարդալ MHTML գործառնությունները Windows-ում, macOS-ում և Linux-ում: Դա կարելի է անել առանց որևէ լրացուցիչ ծրագրաշարի, որը ներառված է .NET-ում: Տեքստի արդյունահանման գործընթացը արժեքավոր տեխնիկա է մշակողների համար, ովքեր աշխատում են վեբ բովանդակության կամ փաստաթղթերի ավտոմատացման գործիքների կառուցման հետ: Անկախ նրանից, թե դուք գործ ունեք լայնածավալ տվյալների քերման, բովանդակության վերլուծության կամ արխիվացման հետ, MHTML ֆայլերից տեքստը ծրագրային կերպով հանելու կարողությունը կհեշտացնի ձեր աշխատանքային հոսքը և կբարձրացնի ձեր հավելվածների հնարավորությունները:
Ավելի վաղ մենք կիսվել էինք համապարփակ ուղեցույցով, թե ինչպես կարելի է տեքստ հանել TXT ֆայլերից՝ օգտագործելով C#: Ավելի խորը հասկանալու համար խնդրում ենք ստուգել մեր ամբողջական ձեռնարկը, թե ինչպես կատարել հանել տեքստը TXT-ից՝ օգտագործելով C#: