Извлечение текста из PPT с помощью C#

В сегодняшнюю цифровую эпоху управление и извлечение информации из файлов презентаций является обычной задачей для разработчиков и аналитиков данных. Презентации PowerPoint, часто сохраняемые в формате PPT, могут содержать ценные текстовые данные, которые необходимо извлечь для анализа, преобразования или интеграции в другие системы. Эта статья проведет вас через процесс извлечения текста из PPT в C#, используя мощную библиотеку Parser. Презентации PowerPoint широко используются для предоставления информации в визуальном формате. Однако бывают случаи, когда вам нужно извлечь текст из этих презентаций для дальнейшей обработки или анализа. Давайте рассмотрим шаги для извлечения текста из PPT с помощью C#.

Шаги по извлечению текста из PPT с помощью C#

  1. Настройте среду разработки, добавив GroupDocs.Parser for .NET, которая позволяет извлекать текст из файлов PPT.
  2. Создайте объект Parser, указав путь к файлу PPT в его конструкторе.
  3. Используйте метод GetText объекта Parser для получения TextReader
  4. Вызовите метод ReadToEnd в TextReader, чтобы прочитать весь текст из файла PPT.

Для начала вам необходимо настроить среду разработки для извлечения текста из файлов PPT. Первым шагом является интеграция библиотеки Parser в ваш проект .NET. Эта библиотека предоставляет комплексные инструменты для анализа документов, включая поддержку файлов PowerPoint. Убедитесь, что в вашей системе установлен .NET, и добавьте библиотеку Parser в свой проект через NuGet или вручную, указав библиотеку. Описанные выше процедуры совместимы с операционными системами Windows, macOS и Linux и не требуют никакого дополнительного программного обеспечения, кроме того, что уже включено в эти платформы. Ниже приведен пример кода для извлечения текста PPT на C#.

Код для извлечения текста из PPT с использованием C#

using System;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Options;
namespace ExtractTextfromPPTusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Apply the license to remove the limitations of the Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.ppt"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

Используя приведенный выше код, вы можете эффективно извлекать и использовать текстовые данные из презентаций PowerPoint. Такой подход не только экономит время, но и расширяет ваши возможности по программному управлению и обработке содержимого презентации. Независимо от того, разрабатываете ли вы инструмент для анализа содержимого презентации, конвертируете презентации в различные форматы или просто архивируете текстовые данные, программное извлечение текста из файлов PPT может упростить ваш рабочий процесс. После настройки рекомендуемой библиотеки и корректировки путей к файлам интеграция предоставленного кода в ваши проекты должна быть простой. Отличная работа! Вы освоили процесс чтения текста C# из PPT.

Ранее мы поделились исчерпывающим руководством по извлечению текста из файлов DOC с помощью C#. Для более глубокого изучения, пожалуйста, обратитесь к нашему полному руководству о том, как извлечь текст из DOC с помощью C#.

 Русский