У цій статті міститься вся необхідна інформація для отримання тексту з документів за допомогою одного з найкращих інтерфейсів API .NET для видобування даних документа та вказівки, як витягнути текст із документа Word за допомогою C#. Крім того, він надає інформацію для налаштування необхідного пакета та робочий приклад для демонстрації реалізації програми C# вилучення тексту з документа Word. Ось основні кроки, а також зразок коду для отримання тексту з документів Word.
Кроки для вилучення тексту з документа Word за допомогою C#
- Установіть пакет GroupDocs.Parser for .NET із веб-сайту NuGet у проекті .NET, щоб отримати текст із документа Word
- Додайте посилання на необхідні простори імен для вилучення тексту з файлу Word
- Створіть об’єкт класу Parser для завантаження вхідного документа DOCX
- Викличте метод GetText класу Parser і отримайте об’єкт TextReader
- Нарешті, використовуйте метод ReadToEnd, щоб прочитати текст з об’єкта reader
Наведені вище пункти дозволяють швидко створити програму для вилучення тексту з документа Word C#. Ці кроки не залежать від будь-якого стороннього інструменту для вилучення тексту з документів, і ви можете використовувати їх на будь-якій платформі, як-от MS Windows, Linux і macOS, яка підтримує середовище .NET. Крім того, вам потрібно написати кілька рядків коду, які споживають пару викликів API необхідної бібліотеки для отримання тексту з документів DOC або DOCX.
Код для вилучення тексту з документа Word за допомогою C#
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromWordDocumentUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from Word document using C# | |
{ | |
// Remove the watermark in output PDF document by adding license | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.docx")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
Можливість читання тексту з документа Word C# розроблена у наведеному вище фрагменті коду, щоб показати вам, як витягти текст із документа DOCX. Однак ви також можете використовувати документи у форматі DOC у цьому прикладі коду для отримання тексту. Крім того, цей приклад можна адаптувати для вилучення тексту з багатьох інших форматів документів, включаючи DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF та багато інших.
У цій публікації ми обговорили процес вилучення тексту з документів Word на C# та розробили для нього зразок коду. Нещодавно ми опублікували статтю про видобування зображень із PDF у C#, перегляньте посібник як витягти зображення з PDF за допомогою C#, щоб отримати додаткові відомості.