OpenDocument Text (ODT) ֆայլերը, որոնք սովորաբար օգտագործվում են տեքստային պրոցեսորների հետ, ինչպիսիք են LibreOffice-ը և OpenOffice-ը, դժվար է աշխատել ծրագրային առումով, հատկապես, եթե ձեզ անհրաժեշտ է տեքստ հանել հետագա մշակման կամ վերլուծության համար: Այս հոդվածը ձեզ կառաջնորդի տեքստի արդյունահանման գործընթացին ODT-ից C#-ում: Մենք ձեզ կառաջնորդենք հիմնական քայլերով և կառաջարկենք օրինակելի կոդը, որը կօգնի ձեզ սահուն կերպով ներառել այս գործառույթը ձեր C# նախագծերում: C#**-ի միջոցով ODT-ից տեքստ հանելու համար ձեզ հարկավոր է գրադարան, որն աջակցում է OpenDocument ձևաչափին: Այս նպատակով մենք կօգտագործենք GroupDocs.Parser-ը .NET գրադարանի համար, որն ապահովում է ամուր API-ներ տեքստի արդյունահանման համար տարբեր փաստաթղթերի ձևաչափերից, ներառյալ ODT-ը:
Քայլեր ODT-ից տեքստ հանելու համար՝ օգտագործելով C#
- Ստեղծեք ձեր զարգացման միջավայրը՝ ավելացնելով GroupDocs.Parser for .NET, որը հեշտացնում է տեքստի արդյունահանումը ODT ֆայլերից
- Ստեղծեք Parser օբյեկտ և սահմանեք ձեր ODT ֆայլի ուղին օբյեկտը սկզբնավորելիս
- TextReader-ի օրինակ ստանալու համար օգտագործեք Parser օբյեկտի GetText մեթոդը
- Զանգահարեք ReadToEnd մեթոդը TextReader-ի վրա՝ ODT ֆայլից ամբողջական տեքստի բովանդակությունը կարդալու համար
C#*-ում *ODT տեքստի արդյունահանման վերը նշված քայլերը համատեղելի են Windows, macOS և Linux օպերացիոն համակարգերի հետ և չեն պահանջում լրացուցիչ ծրագրակազմ, որը սովորաբար ներառված է այս հարթակներում: Այս մոտեցման ճկունությունը նշանակում է, որ դուք կարող եք ավտոմատացնել տեքստի արդյունահանման առաջադրանքները՝ առանց ձեր օպերացիոն համակարգի արդեն իսկ տրամադրած լրացուցիչ ծրագրերի անհրաժեշտության: Երբ դուք տեղադրեք անհրաժեշտ գրադարանը և կազմաձևեք ֆայլերի ուղիները, տրամադրված կոդը ձեր նախագծերին ինտեգրելը դառնում է պարզ խնդիր:
Կոդ՝ ODT-ից C#-ով տեքստ հանելու համար
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromODTusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.odt")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Ներառելով այս տեխնիկան ձեր նախագծերում, դուք կարող եք ապահովել արդյունավետ և հուսալի C# կարդալ տեքստը ODT ֆունկցիոնալությունից՝ բարելավելով ձեր հավելվածի հնարավորությունները և պարզեցնելով ձեր փաստաթղթերի մշակման աշխատանքային հոսքերը: ODT ֆայլերից տեքստ հանելը հզոր միջոց է ձեր փաստաթղթերի մշակման աշխատանքային հոսքերն ավտոմատացնելու և պարզեցնելու համար: Անկախ նրանից, թե դուք գործ ունեք տվյալների միգրացիայի, բովանդակության վերլուծության կամ հաշվետվությունների ստեղծման հետ, այս մեթոդը ապահովում է հուսալի և արդյունավետ միջոց ODT ֆայլերից տեքստը կառավարելու և մշակելու համար: Ինտեգրելով այս հնարավորությունը ձեր նախագծերին, դուք կարող եք բարձրացնել արտադրողականությունը և ապահովել, որ ձեր հավելվածները հեշտությամբ լուծեն տեքստի արդյունահանման բարդ առաջադրանքները:
Ավելի վաղ մենք առաջարկել էինք խորը ուղեցույց XLS ֆայլերից C#-ի միջոցով տեքստ հանելու վերաբերյալ: Ավելի համապարփակ ուսումնասիրության համար համոզվեք, որ դիտեք մեր ամբողջական ձեռնարկը, թե ինչպես անել հանել տեքստը XLS-ից՝ օգտագործելով C#: