Конвертирайте PDF в текст с помощта на Node.js

Извличането на текст от PDF е от съществено значение за много приложения, като анализ на данни, индексиране на съдържание и обработка на текст. PDF файловете се използват широко за съхранение на документи, но ръчното извличане на четим текст от тях може да отнеме много време и да е неефективно. За щастие, с Node.js можем да автоматизираме този процес и да извличаме ефективно текст с помощта на надеждна библиотека за конвертиране на документи. Като напишем прост скрипт, можем да конвертираме PDF в текст с помощта на Node.js, което улеснява обработката на текстово съдържание от различни документи. Този подход е особено полезен за фирми, работещи с отчети, договори или сканирани документи, които се нуждаят от извличане на текст. В тази статия ще разгледаме един лесен метод за експортиране на PDF към текст в Node.js с помощта на няколко реда код.

Стъпки за конвертиране на PDF в текст с помощта на Node.js

  1. Настройте и интегрирайте GroupDocs.Conversion за Node.js чрез Java във вашия проект, за да активирате конвертирането на PDF в текст
  2. Импортирайте модула за преобразуване във вашето приложение, за да управлявате различни преобразувания на файлови формати
  3. Създайте екземпляр на класа Converter и предоставете пътя на файла за зареждане на PDF документа
  4. Конфигурирайте настройките за преобразуване за извличане на текст и изберете TXT като изходен формат
  5. Извикайте метода за конвертиране на класа Converter, за да обработите PDF файла и да създадете текстов файл

Кодът по-долу първо инициализира библиотеката за преобразуване и зарежда PDF файла. След това указва изходния формат като обикновен текст с помощта на WordProcessingConvertOptions, като гарантира, че целият четим текст се извлича, като същевременно се игнорира ненужното форматиране. Извлеченият текст се записва в .txt файл, което улеснява по-нататъшната му обработка. Този подход е от полза за приложения, които изискват обработка на естествен език, индексиране на съдържание или автоматизиран анализ на текст. Освен това този метод е ефективен за работа с големи документи, като гарантира, че важните текстови данни се запазват без ръчна намеса. Следният скрипт демонстрира как да генерирате текст от PDF в Node.js с минимални усилия.

Код за конвертиране на PDF в текст с помощта на Node.js

const conversion = require('@groupdocs/groupdocs.conversion')
const licensePath = "GroupDocs.Search.lic";
const license = new conversion.License()
license.setLicense(licensePath);
// Load the input PDF file
const converter = new conversion.Converter("sample.pdf");
const options = new conversion.WordProcessingConvertOptions();
options.setFormat(conversion.WordProcessingFileType.Txt);
// Save output TXT to disk
converter.convert("output.txt", options);
process.exit(0);

Интегрирането на това решение във вашия работен процес опростява обработката на документи и повишава продуктивността. Той позволява бързо и точно извличане на текст от фактури, договори и отчети само с няколко реда код. Процесът за промяна на PDF в текст с помощта на Node.js рационализира автоматизацията, подобрява достъпността на данните и подобрява възможността за търсене. Идеален за отрасли като финанси, право и здравеопазване, той спестява време, намалява грешките и оптимизира работните процеси за безпроблемно управление на документи.

По-рано предоставихме подробно ръководство за конвертиране на PDF в Excel с помощта на Node.js. За стъпка по стъпка прегледайте нашия задълбочен урок за това как да конвертирайте PDF в Excel с помощта на Node.js.

 Български