Tento článek obsahuje všechny potřebné informace pro extrahování textu z dokumentů pomocí jednoho z nejlepších rozhraní .NET API pro extrahování dat dokumentu a provede vás, jak extrahovat text z dokumentu Word pomocí C#. Dále poskytuje informace pro konfiguraci požadovaného balíčku a pracovní příklad demonstrující implementaci C# extrahovaného textu z aplikace Word dokument. Zde jsou klíčové kroky a ukázkový kód pro získání textu z dokumentů aplikace Word.
Kroky k extrahování textu z dokumentu Word pomocí C#
- Nainstalujte balíček GroupDocs.Parser for .NET z webu NuGet v projektu .NET a extrahujte text z dokumentu Word
- Přidejte odkaz na potřebné jmenné prostory pro extrahování textu ze souboru aplikace Word
- Vytvořte objekt třídy Parser pro načtení vstupního dokumentu DOCX
- Zavolejte metodu GetText třídy Parser a získejte objekt TextReader
- Nakonec použijte metodu ReadToEnd ke čtení textu z objektu čtečky
Výše uvedené body vám umožňují rychle vytvořit aplikaci pro extrahování textu z dokumentu Word C#. Tyto kroky nezávisí na žádném nástroji třetí strany pro extrahování textu z dokumentů a můžete je použít na jakékoli platformě, jako jsou MS Windows, Linux a macOS, které podporují prostředí .NET. Dále musíte napsat několik řádků kódu, které spotřebují několik volání API požadované knihovny pro získání textu z dokumentů DOC nebo DOCX.
Kód pro extrahování textu z dokumentu Word pomocí C#
Schopnost číst text z dokumentu Word C# je vyvinuta ve výše uvedeném úryvku kódu, aby vám ukázala, jak extrahovat text z dokumentu DOCX. Můžete však také použít dokumenty ve formátu DOC v tomto ukázkovém kódu pro získání textu. Tento příklad lze dále upravit pro extrahování textu z řady dalších formátů dokumentů včetně DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF a mnoha dalších.
V tomto příspěvku jsme diskutovali o procesu extrahování textu z dokumentů aplikace Word v C# a vyvinuli pro něj ukázkový kód. Nedávno jsme publikovali článek o extrahování obrázků z PDF v C#, další informace naleznete v průvodci jak extrahovat obrázky z PDF pomocí C#.