Извлечение текста из ODT с помощью C#

Файлы OpenDocument Text (ODT), обычно используемые с такими текстовыми процессорами, как LibreOffice и OpenOffice, могут быть сложными для программной работы, особенно если вам нужно извлечь текст для дальнейшей обработки или анализа. Эта статья проведет вас через процесс извлечения текста из ODT в C#. Мы проведем вас через основные шаги и предложим пример кода, который поможет вам плавно включить эту функциональность в ваши проекты C#. Чтобы извлечь текст из ODT с помощью C#, вам понадобится библиотека, поддерживающая формат OpenDocument. Для этой цели мы будем использовать библиотеку GroupDocs.Parser для .NET, которая предоставляет надежные API для извлечения текста из различных форматов документов, включая ODT.

Шаги по извлечению текста из ODT с помощью C#

  1. Настройте среду разработки, добавив GroupDocs.Parser for .NET, что упрощает извлечение текста из файлов ODT.
  2. Создайте объект Parser и укажите путь к файлу ODT при инициализации объекта.
  3. Используйте метод GetText объекта Parser для получения экземпляра TextReader.
  4. Вызовите метод ReadToEnd в TextReader, чтобы прочитать полное текстовое содержимое файла ODT.

Описанные выше шаги для извлечения текста ODT в C# совместимы с операционными системами Windows, macOS и Linux, не требуя дополнительного программного обеспечения, помимо того, что обычно включено в эти платформы. Гибкость этого подхода означает, что вы можете автоматизировать задачи извлечения текста без необходимости в каком-либо дополнительном программном обеспечении, помимо того, что уже предоставляет ваша операционная система. После установки необходимой библиотеки и настройки путей к файлам интеграция предоставленного кода в ваши проекты становится простой задачей.

Код для извлечения текста из ODT с использованием C#

using System;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Options;
namespace ExtractTextfromODTusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Apply the license to remove the limitations of the Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.odt"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

Внедряя эту технику в свои проекты, вы можете обеспечить эффективную и надежную функциональность C# read text from ODT, расширяя возможности вашего приложения и оптимизируя рабочие процессы обработки документов. Извлечение текста из файлов ODT — это мощный способ автоматизации и оптимизации рабочих процессов обработки документов. Независимо от того, имеете ли вы дело с миграцией данных, анализом контента или созданием отчетов, этот метод обеспечивает надежный и эффективный способ управления и обработки текста из файлов ODT. Интегрируя эту возможность в свои проекты, вы можете повысить производительность и гарантировать, что ваши приложения с легкостью справятся со сложными задачами извлечения текста.

Ранее мы предложили подробное руководство по извлечению текста из файлов XLS с помощью C#. Для более полного изучения обязательно ознакомьтесь с нашим полным руководством о том, как извлечь текст из XLS с помощью C#.

 Русский