Как да извлечете текст от Word документ с помощта на C#

Тази статия разглежда цялата необходима информация за извличане на текст от документи с помощта на един от най-добрите .NET API за извличане на данни от документи и ви насочва как да извличате текст от Word документ с помощта на C#. Освен това той предоставя информация за конфигуриране на необходимия пакет и работещ пример за демонстриране на прилагането на приложението C# извличане на текст от документ на Word. Ето основните стъпки, както и примерен код за получаване на текст от документи на Word.

Стъпки за извличане на текст от Word документ с помощта на C#

  1. Инсталирайте пакет GroupDocs.Parser for .NET от уебсайта на NuGet в проекта .NET, за да извлечете текст от документ на Word
  2. Добавете препратка към необходимите пространства от имена за извличане на текста от файла на Word
  3. Създайте обект от класа Parser за зареждане на входния DOCX документ
  4. Извикайте метода GetText на класа Parser и вземете обект TextReader
  5. Накрая използвайте метода ReadToEnd, за да прочетете текста от обекта reader

Горните точки ви позволяват бързо да създадете приложение за извличане на текст от документ на Word C#. Тези стъпки не зависят от инструмент на трета страна за извличане на текст от документи и можете да ги използвате на всяка платформа като MS Windows, Linux и macOS, която поддържа .NET среда. Освен това трябва да напишете няколко реда код, които консумират няколко API извиквания на необходимата библиотека за получаване на текста от DOC или DOCX документите.

Код за извличане на текст от Word документ с помощта на C#

Възможността за четене на текст от Word документ C# е разработена в горния кодов фрагмент, за да ви покаже как да извлечете текст от DOCX документ. Въпреки това можете също да използвате документи във формат DOC в този примерен код за получаване на текста. Освен това този пример може да бъде адаптиран за извличане на текст от различни други формати на документи, включително DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF и много други.

В тази публикация обсъдихме процеса за извличане на текст от документи на Word в C# и разработихме примерен код за него. Наскоро публикувахме статия за извличане на изображения от PDF в C#, вижте ръководството как да извлечете изображения от PDF с помощта на C# за повече информация.

 Български