Kaip ištraukti tekstą iš Word dokumento naudojant C#

Šiame straipsnyje pateikiama visa reikalinga informacija, norint išgauti tekstą iš dokumentų naudojant vieną geriausių .NET API, kad būtų galima išgauti dokumento duomenis, ir paaiškinama, kaip ištraukti tekstą iš Word dokumento naudojant C#. Be to, jame pateikiama informacija, kaip konfigūruoti reikiamą paketą, ir darbo pavyzdys, rodantis C# ištraukos teksto iš Word dokumento įgyvendinimą. Čia pateikiami pagrindiniai žingsniai ir pavyzdinis kodas, kaip gauti tekstą iš Word dokumentų.

Veiksmai, kaip ištraukti tekstą iš Word dokumento naudojant C#

  1. Įdiekite paketą GroupDocs.Parser for .NET iš NuGet svetainės .NET projekte, kad ištrauktumėte tekstą iš Word dokumento
  2. Pridėkite nuorodą į reikiamas vardų sritis, kad ištrauktumėte tekstą iš Word failo
  3. Sukurkite Parser klasės objektą įvesties DOCX dokumentui įkelti
  4. Iškvieskite Parser klasės metodą GetText ir gaukite TextReader objektą
  5. Galiausiai naudokite ReadToEnd metodą, kad skaitytumėte tekstą iš skaitytojo objekto

Aukščiau pateikti punktai leidžia greitai sukurti programą, kad ištrauktumėte tekstą iš Word dokumento C#. Šie veiksmai nepriklauso nuo trečiosios šalies įrankio, skirto tekstui iš dokumentų išgauti, ir galite juos naudoti bet kurioje platformoje, pvz., MS Windows, Linux ir MacOS, palaikančiose .NET aplinką. Be to, norint gauti tekstą iš DOC arba DOCX dokumentų, reikia parašyti kelias kodo eilutes, kurios sunaudoja porą API iškvietimų iš reikalingos bibliotekos.

Kodas, skirtas ištraukti tekstą iš Word dokumento naudojant C#

Galimybė skaityti tekstą iš Word dokumento C# sukurta aukščiau pateiktame kodo fragmente, kad parodytų, kaip išgauti tekstą iš DOCX dokumento. Tačiau, norėdami gauti tekstą, šiame pavyzdiniame kode taip pat galite naudoti DOC formato dokumentus. Be to, šis pavyzdys gali būti pritaikytas tekstui išgauti iš įvairių kitų dokumentų formatų, įskaitant DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF ir daugelį kitų.

Aptarėme teksto ištraukimo iš Word dokumentų C# kalba procesą ir šiame įraše sukūrėme pavyzdinį kodą. Neseniai paskelbėme straipsnį apie vaizdų ištraukimą iš PDF C#. Daugiau informacijos rasite kaip ištraukti vaizdus iš PDF naudojant C# vadove.

 Latviski