Քաղեք տեքստ ODT-ից՝ օգտագործելով C#

OpenDocument Text (ODT) ֆայլերը, որոնք սովորաբար օգտագործվում են տեքստային պրոցեսորների հետ, ինչպիսիք են LibreOffice-ը և OpenOffice-ը, դժվար է աշխատել ծրագրային առումով, հատկապես, եթե ձեզ անհրաժեշտ է տեքստ հանել հետագա մշակման կամ վերլուծության համար: Այս հոդվածը ձեզ կառաջնորդի տեքստի արդյունահանման գործընթացին ODT-ից C#-ում: Մենք ձեզ կառաջնորդենք հիմնական քայլերով և կառաջարկենք օրինակելի կոդը, որը կօգնի ձեզ սահուն կերպով ներառել այս գործառույթը ձեր C# նախագծերում: C#**-ի միջոցով ODT-ից տեքստ հանելու համար ձեզ հարկավոր է գրադարան, որն աջակցում է OpenDocument ձևաչափին: Այս նպատակով մենք կօգտագործենք GroupDocs.Parser-ը .NET գրադարանի համար, որն ապահովում է ամուր API-ներ տեքստի արդյունահանման համար տարբեր փաստաթղթերի ձևաչափերից, ներառյալ ODT-ը:

Քայլեր ODT-ից տեքստ հանելու համար՝ օգտագործելով C#

  1. Ստեղծեք ձեր զարգացման միջավայրը՝ ավելացնելով GroupDocs.Parser for .NET, որը հեշտացնում է տեքստի արդյունահանումը ODT ֆայլերից
  2. Ստեղծեք Parser օբյեկտ և սահմանեք ձեր ODT ֆայլի ուղին օբյեկտը սկզբնավորելիս
  3. TextReader-ի օրինակ ստանալու համար օգտագործեք Parser օբյեկտի GetText մեթոդը
  4. Զանգահարեք ReadToEnd մեթոդը TextReader-ի վրա՝ ODT ֆայլից ամբողջական տեքստի բովանդակությունը կարդալու համար

C#*-ում *ODT տեքստի արդյունահանման վերը նշված քայլերը համատեղելի են Windows, macOS և Linux օպերացիոն համակարգերի հետ և չեն պահանջում լրացուցիչ ծրագրակազմ, որը սովորաբար ներառված է այս հարթակներում: Այս մոտեցման ճկունությունը նշանակում է, որ դուք կարող եք ավտոմատացնել տեքստի արդյունահանման առաջադրանքները՝ առանց ձեր օպերացիոն համակարգի արդեն իսկ տրամադրած լրացուցիչ ծրագրերի անհրաժեշտության: Երբ դուք տեղադրեք անհրաժեշտ գրադարանը և կազմաձևեք ֆայլերի ուղիները, տրամադրված կոդը ձեր նախագծերին ինտեգրելը դառնում է պարզ խնդիր:

Կոդ՝ ODT-ից C#-ով տեքստ հանելու համար

using System;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Options;
namespace ExtractTextfromODTusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Apply the license to remove the limitations of the Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.odt"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

Ներառելով այս տեխնիկան ձեր նախագծերում, դուք կարող եք ապահովել արդյունավետ և հուսալի C# կարդալ տեքստը ODT ֆունկցիոնալությունից՝ բարելավելով ձեր հավելվածի հնարավորությունները և պարզեցնելով ձեր փաստաթղթերի մշակման աշխատանքային հոսքերը: ODT ֆայլերից տեքստ հանելը հզոր միջոց է ձեր փաստաթղթերի մշակման աշխատանքային հոսքերն ավտոմատացնելու և պարզեցնելու համար: Անկախ նրանից, թե դուք գործ ունեք տվյալների միգրացիայի, բովանդակության վերլուծության կամ հաշվետվությունների ստեղծման հետ, այս մեթոդը ապահովում է հուսալի և արդյունավետ միջոց ODT ֆայլերից տեքստը կառավարելու և մշակելու համար: Ինտեգրելով այս հնարավորությունը ձեր նախագծերին, դուք կարող եք բարձրացնել արտադրողականությունը և ապահովել, որ ձեր հավելվածները հեշտությամբ լուծեն տեքստի արդյունահանման բարդ առաջադրանքները:

Ավելի վաղ մենք առաջարկել էինք խորը ուղեցույց XLS ֆայլերից C#-ի միջոցով տեքստ հանելու վերաբերյալ: Ավելի համապարփակ ուսումնասիրության համար համոզվեք, որ դիտեք մեր ամբողջական ձեռնարկը, թե ինչպես անել հանել տեքստը XLS-ից՝ օգտագործելով C#:

 Հայերեն