Текстові файли OpenDocument (ODT), які зазвичай використовуються в таких текстових процесорах, як LibreOffice і OpenOffice, можуть бути складними для програмної роботи, особливо якщо вам потрібно витягти текст для подальшої обробки чи аналізу. Ця стаття проведе вас через процес вилучення тексту з ODT у C#. Ми проведемо вас через основні кроки та запропонуємо зразок коду, щоб допомогти вам легко включити цю функціональність у ваші проекти C#. Щоб витягнути текст з ODT за допомогою C#, вам знадобиться бібліотека, яка підтримує формат OpenDocument. Для цього ми будемо використовувати бібліотеку GroupDocs.Parser для .NET, яка надає надійні API для вилучення тексту з різних форматів документів, включаючи ODT.
Кроки для вилучення тексту з ODT за допомогою C#
- Налаштуйте своє середовище розробки, додавши GroupDocs.Parser for .NET, що полегшує вилучення тексту з файлів ODT
- Створіть об’єкт Parser і встановіть шлях до файлу ODT під час ініціалізації об’єкта
- Використовуйте метод GetText об’єкта Parser, щоб отримати екземпляр TextReader
- Викличте метод ReadToEnd у TextReader, щоб прочитати повний текстовий вміст із файлу ODT
Описані вище дії для видобування тексту ODT у C# сумісні з операційними системами Windows, macOS і Linux і не потребують додаткового програмного забезпечення, окрім того, що зазвичай входить до складу цих платформ. Гнучкість цього підходу означає, що ви можете автоматизувати завдання вилучення тексту без потреби в будь-якому додатковому програмному забезпеченні, окрім того, що вже надає ваша операційна система. Після того, як ви встановили необхідну бібліотеку та налаштували шляхи до файлів, інтегрувати наданий код у ваші проекти стає простим завданням.
Код для вилучення тексту з ODT за допомогою C#
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromODTusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.odt")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Використовуючи цю техніку у своїх проектах, ви можете забезпечити ефективне й надійне C# читання тексту з ODT, розширюючи можливості вашої програми та оптимізуючи робочі процеси обробки документів. Вилучення тексту з файлів ODT є потужним способом автоматизації та оптимізації робочих процесів обробки документів. Незалежно від того, чи маєте ви справу з міграцією даних, аналізом вмісту чи створенням звітів, цей метод забезпечує надійний і ефективний спосіб керування та обробки тексту з файлів ODT. Інтегрувавши цю можливість у свої проекти, ви можете підвищити продуктивність і переконатися, що ваші програми легко справляються зі складними завданнями вилучення тексту.
Раніше ми пропонували докладний посібник із видобування тексту з файлів XLS за допомогою C#. Для більш детального вивчення обов’язково перегляньте наш повний підручник про те, як витягти текст із XLS за допомогою C#.