В современную эпоху цифровых технологий возможность извлекать текст из документов PDF с помощью языков программирования C# невероятно ценна. Независимо от того, автоматизируете ли вы извлечение данных, создаете функции поиска или анализируете текстовый контент, возможность программной работы с PDF-файлами может оптимизировать ваши процессы и повысить эффективность. В этой статье мы познакомим вас с основными этапами извлечения текста из PDF с помощью C#. Вы можете контролировать возможности библиотеки Viewer, чтобы беспрепятственно извлекать текст из PDF-файла на C#, выполнив следующие действия.
Действия по извлечению текста из PDF с помощью C#
- Установите GroupDocs.Viewer for .NET с помощью диспетчера пакетов NuGet для извлечения текста из PDF.
- Чтобы извлечь текст PDF, добавьте ссылку GroupDocs.Viewer в свой проект.
- Создайте экземпляр объекта класса Viewer, используя путь к файлу PDF в его конструкторе.
- Вызовите метод ViewInfoOptions.ForHtmlView для получения информации о представлении.
- Установите для свойства ViewInfoOptions.ExtractText значение true, чтобы включить извлечение текста PDF.
- Используйте свойство PdfViewInfo.Pages для доступа ко всему списку страниц документа.
- Перебирайте коллекцию строк на каждой странице, используя Page.Lines для извлечения текста из каждой строки.
Изучение того, как извлекать текст из PDF-файла с помощью C#, позволит вам использовать огромное количество информации, содержащейся в документах PDF. Независимо от того, работаете ли вы над проектами, управляемыми данными, управляете документами или автоматизируете бизнес-процессы, этот навык является ценным активом. Вы можете легко использовать метод C# для извлечения данных из PDF в широко используемых операционных системах, таких как Windows, macOS и Linux, после установки .NET в вашей системе. В приведенном ниже примере кода объясняется, как извлечь текст из файла PDF с помощью C#.
Код для извлечения текста из PDF с помощью C#
using GroupDocs.Viewer; | |
using GroupDocs.Viewer.Options; | |
using GroupDocs.Viewer.Results; | |
using System; | |
namespace ExtractTextfromPDFUsingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Viewer library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Viewer.lic"); | |
using (var viewer = new Viewer("input.pdf")) | |
{ | |
var viewInfoOptions = ViewInfoOptions.ForHtmlView(); | |
viewInfoOptions.ExtractText = true; | |
var viewInfo = viewer.GetViewInfo(viewInfoOptions) as PdfViewInfo; | |
// Retrieve text from the PDF file. | |
Console.WriteLine("Extracted document text:"); | |
foreach (Page page in viewInfo.Pages) | |
foreach (Line line in page.Lines) | |
{ | |
Console.WriteLine(line.Value); | |
} | |
} | |
} | |
} | |
} |
В этом руководстве мы рассмотрели основные этапы C# получения текста из PDF. Вы можете легко выполнить эту процедуру извлечения текста для различных приложений, выполнив описанные выше шаги. Интеграция извлеченного текстового кода в ваши проекты становится простой и безболезненной операцией после успешной установки рекомендованной библиотеки и внесения необходимых изменений в пути к файлам.
В предыдущем уроке мы обсуждали рендеринг PDF в формате PNG. Если вам нужна дополнительная помощь, мы предлагаем вам прочитать нашу статью о том, как визуализировать PDF как PNG с помощью C#.