In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. Несмотря на то, что он старый, он по-прежнему широко используется во многих организациях, поэтому разработчикам важно иметь возможность извлекать текст из этих документов. Вот основные шаги для извлечения текста из DOC с помощью C#.
Шаги по извлечению текста из DOC с помощью C#
- Настройте среду разработки, установив GroupDocs.Parser for .NET, которая поможет вам извлекать текст из файлов DOC.
- Создайте новый объект Parser и укажите ему местоположение вашего файла DOC.
- Используйте метод GetText объекта Parser для получения TextReader
- Наконец, используйте метод ReadToEnd TextReader, чтобы прочитать весь текст.
Описанные выше шаги работают на Windows, macOS или Linux без необходимости в дополнительном программном обеспечении. Вам просто нужно установить .NET в вашей системе. Библиотека Parser обеспечивает мощный и эффективный способ обработки извлечения текста, что делает ее отличным выбором для разработчиков, работающих с устаревшими файлами DOC. Такой подход расширяет ваши возможности работы с содержимым документа, повышая как производительность, так и возможности обработки данных. Настроив свою среду, вы можете реализовать приведенный ниже код для извлечения текста DOC на языке C#.
Код для извлечения текста из DOC с использованием C#
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Работаете ли вы над преобразованием документов, анализом данных или управлением контентом, этот подход поможет вам автоматизировать процесс и повысить эффективность вашего приложения. Этот подход расширяет ваши возможности работы с контентом документа, улучшая как производительность, так и возможности обработки данных. Следуя этой статье, вы сможете легко интегрировать C# чтение текста из DOC в свои приложения, обеспечивая эффективную и надежную обработку документов. После настройки рекомендуемой библиотеки и корректировки путей к файлам добавление предоставленного кода в ваши проекты должно быть простым.
Ранее мы предоставили подробное руководство по извлечению текста из XLSX с помощью C#. Для более глубокого понимания ознакомьтесь с нашим полным руководством о том, как извлечь текст из XLSX с помощью C#.