Як витягнути текст із PDF на C#

Цей короткий підручник пояснює докладні інструкції щодо вилучення тексту з PDF у C#. Він також містить зразок програми, щоб показати реалізацію вилучення тексту з PDF за допомогою C#. У цьому посібнику використовується один із популярних пакетів для вилучення даних документів із документів різних форматів. Нижче наведено основні кроки та зразок коду для отримання тексту з PDF-файлу.

Кроки для вилучення тексту з PDF на C#

  1. Налаштуйте пакет GroupDocs.Parser for .NET із менеджера пакетів NuGet у програмі .NET, щоб отримати текст із PDF
  2. Додайте посилання на основні простори імен для вилучення тексту з документа PDF
  3. Створіть екземпляр класу Parser для завантаження вхідного документа PDF
  4. Викличте метод GetText і отримайте об’єкт читання тексту
  5. Нарешті, прочитайте текст із пристрою для читання та відобразіть його

Ми перерахували всі ключові кроки для розробки програми C# для вилучення тексту з PDF. Ці інструкції щодо видобування тексту з PDF можна використовувати на будь-якій платформі, як-от MS Windows, Linux і macOS, яка підтримує середовище .NET, і навіть без встановлення стороннього програмного забезпечення. Ви повинні написати кілька рядків коду, який складається з викликів API бібліотеки вилучення документів.

Код для вилучення тексту з PDF на C#

У наведеному вище фрагменті коду ми розробили програму C# для читання PDF-тексту, щоб показати вам, як отримати текст із документів. У цьому прикладі ми використали PDF-файл для вилучення тексту, однак ви можете витягти текст із різних інших документів, таких як DOC, DOCX, XLS, XLSX, PPTX, MSG, XML, ZIP тощо.

Ми детально обговорили процес реалізації C# функції отримання тексту з PDF і створили зразок коду для цього. Нещодавно ми опублікували статтю про вилучення метаданих із PDF-файлу на C#, перегляньте посібник як витягти метадані з PDF за допомогою C# для отримання додаткової інформації.

 Українська