In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. Въпреки че е по-стар, той все още се използва широко в много организации, което прави важно за разработчиците да могат да извличат текст от тези документи. Ето основните стъпки за извличане на текст от DOC с помощта на C#.
Стъпки за извличане на текст от DOC с помощта на C#
- Настройте вашата среда за разработка, като инсталирате GroupDocs.Parser for .NET, която ви помага да изтегляте текст от DOC файлове
- Създайте нов обект Parser и му дайте местоположението на вашия DOC файл
- Използвайте метода GetText на обекта Parser, за да получите TextReader
- Накрая използвайте метода ReadToEnd на TextReader, за да прочетете целия текст
Стъпките, споменати по-горе, работят на Windows, macOS или Linux, без да е необходим допълнителен софтуер. Просто трябва да имате инсталиран .NET на вашата система. Библиотеката Parser предоставя мощен и ефективен начин за обработка на извличането на текст, което я прави отличен избор за разработчици, работещи с наследени DOC файлове. Този подход подобрява способността ви да работите със съдържанието на документи, като подобрява както производителността, така и възможностите за работа с данни. С конфигурираната ви среда можете да приложите кода по-долу за извличане на DOC текст в C#.
Код за извличане на текст от DOC с помощта на C#
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Независимо дали работите върху конвертиране на документи, анализ на данни или управление на съдържание, този подход ще ви помогне да автоматизирате процеса и да подобрите ефективността на вашето приложение. Този подход подобрява способността ви да работите със съдържанието на документи, като подобрява както производителността, така и възможностите за работа с данни. Следвайки тази статия, вие ще можете безпроблемно да интегрирате C# прочетен текст от DOC във вашите приложения, осигурявайки ефективна и надеждна обработка на документи. След като настроите препоръчителната библиотека и коригирате пътищата на файловете, добавянето на предоставения код към вашите проекти трябва да е лесно.
По-рано предоставихме подробно ръководство за извличане на текст от XLSX с помощта на C#. За по-задълбочено разбиране вижте пълния ни урок за това как да извличане на текст от XLSX с помощта на C#.