Перетворіть PDF на текст за допомогою Node.js

Отримання тексту з PDF є важливим для багатьох програм, таких як аналіз даних, індексація вмісту та обробка тексту. PDF-файли широко використовуються для зберігання документів, але видобування з них читабельного тексту вручну може зайняти багато часу та бути неефективним. На щастя, за допомогою Node.js ми можемо автоматизувати цей процес і ефективно видобувати текст за допомогою надійної бібліотеки перетворення документів. Написавши простий сценарій, ми можемо конвертувати PDF у текст за допомогою Node.js, що полегшує обробку текстового вмісту з різних документів. Цей підхід особливо корисний для компаній, які мають справу зі звітами, контрактами або сканованими документами, які потребують вилучення тексту. У цій статті ми розглянемо простий спосіб експорту PDF у Text у Node.js за допомогою кількох рядків коду.

Кроки для перетворення PDF на текст за допомогою Node.js

  1. Налаштуйте та інтегруйте GroupDocs.Conversion для Node.js через Java у свій проект, щоб увімкнути перетворення PDF-до-тексту
  2. Імпортуйте модуль перетворення у свою програму, щоб керувати перетвореннями різних форматів файлів
  3. Створіть екземпляр класу Converter і вкажіть шлях до файлу для завантаження документа PDF
  4. Налаштуйте параметри перетворення для вилучення тексту та виберіть TXT як вихідний формат
  5. Викличте метод convert класу Converter, щоб обробити PDF і створити текстовий файл

Наведений нижче код спочатку ініціалізує бібліотеку перетворення та завантажує PDF-файл. Потім він визначає вихідний формат як звичайний текст за допомогою WordProcessingConvertOptions, гарантуючи, що весь читабельний текст буде витягнуто, ігноруючи непотрібне форматування. Витягнутий текст зберігається у файлі .txt, що полегшує подальшу обробку. Цей підхід корисний для програм, які вимагають обробки природної мови, індексування вмісту або автоматизованого аналізу тексту. Крім того, цей метод ефективний для роботи з великими документами, гарантуючи збереження важливих текстових даних без ручного втручання. Наступний сценарій демонструє, як генерувати текст із PDF-файлу в Node.js з мінімальними зусиллями.

Код для перетворення PDF на текст за допомогою Node.js

const conversion = require('@groupdocs/groupdocs.conversion')
const licensePath = "GroupDocs.Search.lic";
const license = new conversion.License()
license.setLicense(licensePath);
// Load the input PDF file
const converter = new conversion.Converter("sample.pdf");
const options = new conversion.WordProcessingConvertOptions();
options.setFormat(conversion.WordProcessingFileType.Txt);
// Save output TXT to disk
converter.convert("output.txt", options);
process.exit(0);

Інтеграція цього рішення у ваш робочий процес спрощує обробку документів і підвищує продуктивність. Він дозволяє швидко й точно витягувати текст із рахунків-фактур, контрактів і звітів за допомогою лише кількох рядків коду. Процес перетворення PDF на текст за допомогою Node.js спрощує автоматизацію, покращує доступність даних і покращує можливості пошуку. Ідеально підходить для таких галузей, як фінанси, право та охорона здоров’я, він економить час, зменшує кількість помилок і оптимізує робочі процеси для безперебійного керування документами.

Раніше ми надавали детальний посібник із перетворення PDF у Excel за допомогою Node.js. Щоб отримати покрокову інструкцію, ознайомтеся з нашим докладним посібником щодо конвертувати PDF в Excel за допомогою Node.js.

 Українська