Як витягти текст із документа Word за допомогою C#

У цій статті міститься вся необхідна інформація для отримання тексту з документів за допомогою одного з найкращих інтерфейсів API .NET для видобування даних документа та вказівки, як витягнути текст із документа Word за допомогою C#. Крім того, він надає інформацію для налаштування необхідного пакета та робочий приклад для демонстрації реалізації програми C# вилучення тексту з документа Word. Ось основні кроки, а також зразок коду для отримання тексту з документів Word.

Кроки для вилучення тексту з документа Word за допомогою C#

  1. Установіть пакет GroupDocs.Parser for .NET із веб-сайту NuGet у проекті .NET, щоб отримати текст із документа Word
  2. Додайте посилання на необхідні простори імен для вилучення тексту з файлу Word
  3. Створіть об’єкт класу Parser для завантаження вхідного документа DOCX
  4. Викличте метод GetText класу Parser і отримайте об’єкт TextReader
  5. Нарешті, використовуйте метод ReadToEnd, щоб прочитати текст з об’єкта reader

Наведені вище пункти дозволяють швидко створити програму для вилучення тексту з документа Word C#. Ці кроки не залежать від будь-якого стороннього інструменту для вилучення тексту з документів, і ви можете використовувати їх на будь-якій платформі, як-от MS Windows, Linux і macOS, яка підтримує середовище .NET. Крім того, вам потрібно написати кілька рядків коду, які споживають пару викликів API необхідної бібліотеки для отримання тексту з документів DOC або DOCX.

Код для вилучення тексту з документа Word за допомогою C#

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromWordDocumentUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from Word document using C#
{
// Remove the watermark in output PDF document by adding license
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.docx"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

Можливість читання тексту з документа Word C# розроблена у наведеному вище фрагменті коду, щоб показати вам, як витягти текст із документа DOCX. Однак ви також можете використовувати документи у форматі DOC у цьому прикладі коду для отримання тексту. Крім того, цей приклад можна адаптувати для вилучення тексту з багатьох інших форматів документів, включаючи DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF та багато інших.

У цій публікації ми обговорили процес вилучення тексту з документів Word на C# та розробили для нього зразок коду. Нещодавно ми опублікували статтю про видобування зображень із PDF у C#, перегляньте посібник як витягти зображення з PDF за допомогою C#, щоб отримати додаткові відомості.

 Українська