Как извлечь текст из PDF в C#

В этом кратком руководстве объясняются подробные инструкции по извлечению текста из PDF в C#. Он также предоставляет образец приложения, демонстрирующий реализацию извлечения текста из PDF с помощью C#. В этом руководстве используется один из популярных пакетов для извлечения данных из документов различных форматов. Ниже приведены основные шаги и пример кода для получения текста из PDF.

Шаги по извлечению текста из PDF в C#

  1. Настройте пакет GroupDocs.Parser for .NET из диспетчера пакетов NuGet в приложении .NET для извлечения текста из PDF
  2. Добавьте ссылку на основные пространства имен для извлечения текста из PDF-документа.
  3. Создайте экземпляр класса Parser для загрузки входного PDF-документа.
  4. Вызовите метод GetText и получите объект чтения текста
  5. Наконец, прочитайте текст из ридера и отобразите его

Мы перечислили все ключевые этапы разработки приложения C# для извлечения текста из PDF. Эти инструкции по извлечению текста из PDF можно использовать на любой платформе, такой как MS Windows, Linux и macOS, которые поддерживают среду .NET, и даже без установки какого-либо стороннего программного обеспечения. Вам нужно написать несколько строк кода, состоящего из вызовов API библиотеки извлечения документов.

Код для извлечения текста из PDF на С#

В приведенном выше фрагменте кода мы разработали приложение C# для чтения PDF-текста, чтобы показать вам, как работает получение текста из документов. В этом примере мы использовали файл PDF для извлечения текста, однако вы можете извлечь текст из различных других документов, таких как DOC, DOCX, XLS, XLSX, PPTX, MSG, XML, ZIP и многих других.

Мы подробно обсудили процесс реализации функции C# получения текста из PDF и создали для него пример кода. Недавно мы опубликовали статью об извлечении метаданных из PDF на C#. Дополнительную информацию см. в руководстве как извлечь метаданные из PDF с помощью C#.

 Русский