В этой статье представлена вся необходимая информация для извлечения текста из документов с использованием одного из лучших API-интерфейсов .NET для извлечения данных документа, а также рассказывается, как извлекать текст из документа Word с помощью C#. Кроме того, он предоставляет информацию для настройки необходимого пакета и рабочий пример для демонстрации реализации приложения Извлечение текста C# из документа Word. Вот основные шаги, а также пример кода для получения текста из документов Word.
Шаги по извлечению текста из документа Word с помощью C#
- Установите пакет GroupDocs.Parser for .NET с веб-сайта NuGet в проекте .NET, чтобы извлечь текст из документа Word.
- Добавьте ссылку на необходимые пространства имен для извлечения текста из файла Word.
- Создайте объект класса Parser для загрузки входного документа DOCX.
- Вызвать метод GetText класса Parser и получить объект TextReader
- Наконец, используйте метод ReadToEnd для чтения текста из объекта чтения.
Приведенные выше пункты позволяют быстро создать приложение для извлечения текста из документа Word C#. Эти шаги не зависят от какого-либо стороннего инструмента для извлечения текста из документов, и вы можете использовать их на любой платформе, такой как MS Windows, Linux и macOS, которые поддерживают среду .NET. Далее вам нужно написать несколько строк кода, потребляющих пару вызовов API нужной библиотеки для получения текста из документов DOC или DOCX.
Код для извлечения текста из документа Word с использованием С#
Возможность чтения текста из документа Word C# разработана в приведенном выше фрагменте кода, чтобы показать вам, как извлечь текст из документа DOCX. Однако вы также можете использовать документы формата DOC в этом примере кода для получения текста. Кроме того, этот пример можно адаптировать для извлечения текста из множества других форматов документов, включая DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF и многие другие.
В этом посте мы обсудили процесс извлечения текста из документов Word на C# и разработали для него пример кода. Недавно мы опубликовали статью об извлечении изображений из PDF на C#. Дополнительные сведения см. в руководстве как извлечь изображения из PDF с помощью C #.