Hogyan lehet szöveget kivonni a Word dokumentumból C# segítségével

Ez a cikk áttekinti az összes szükséges információt a dokumentumokból a szövegek kinyeréséhez szükséges dokumentumokból az egyik legjobb .NET API használatával a dokumentumadatok kinyerésére, és végigvezeti Önt, hogyan kivonhat szöveget a Word dokumentumból C# használatával. Ezenkívül információkat nyújt a szükséges csomag konfigurálásához, valamint egy működő példát a C# kivonat szövege Word dokumentumból alkalmazás megvalósításának bemutatására. Íme a legfontosabb lépések, valamint mintakód a szöveg Word-dokumentumokból való lekéréséhez.

Szöveg kibontásának lépései a Word dokumentumból C# használatával

  1. Telepítse a GroupDocs.Parser for .NET csomagot a NuGet webhelyről a .NET projektben, hogy szöveget kinyerhessen a Word dokumentumból
  2. Adjon hozzá hivatkozást a szükséges névterekre a szöveg Word-fájlból való kivonásához
  3. Hozzon létre egy objektumot a Parser osztályból a bemeneti DOCX dokumentum betöltéséhez
  4. Hívja meg a Parser osztály GetText metódusát, és szerezzen be egy TextReader objektumot
  5. Végül használja a ReadToEnd metódust a szöveg olvasásához az olvasó objektumból

A fenti pontok lehetővé teszik az alkalmazás gyors létrehozását szöveg kivonására a Word C# dokumentumból. Ezek a lépések nem függenek harmadik féltől származó, dokumentumokból szövegek kinyerésére szolgáló eszköztől, és bármilyen platformon, például MS Windowson, Linuxon és macOS-en használhatók, amelyek támogatják a .NET-környezetet. Ezenkívül néhány sornyi kódot kell írnia, amely néhány API-hívást igényel a szükséges könyvtárból, hogy megkapja a szöveget a DOC vagy DOCX dokumentumokból.

Kód szöveg kivonásához Word dokumentumból C# használatával

A read text from Word document C# képességét a fenti kódrészletben fejlesztették ki, hogy megmutassa, hogyan lehet szöveget kivonni a DOCX dokumentumból. Ebben a mintakódban azonban DOC formátumú dokumentumokat is használhat a szöveg lekéréséhez. Továbbá ez a példa adaptálható szöveg kinyerésére számos más dokumentumformátumból, beleértve a DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF és sok más formátumot.

Megvitattuk a Word-dokumentumokból C# nyelvű szöveg kinyerésének folyamatát, és ebben a bejegyzésben mintakódot fejlesztettünk ki. Nemrég közzétettünk egy cikket a képek PDF-ből C#-ban történő kinyerésére vonatkozóan. További információért tekintse meg a Hogyan lehet képeket kivonni a PDF-ből a C# segítségével útmutatót.

 Magyar