Отримання тексту з PDF є важливим для багатьох програм, таких як аналіз даних, індексація вмісту та обробка тексту. PDF-файли широко використовуються для зберігання документів, але видобування з них читабельного тексту вручну може зайняти багато часу та бути неефективним. На щастя, за допомогою Node.js ми можемо автоматизувати цей процес і ефективно видобувати текст за допомогою надійної бібліотеки перетворення документів. Написавши простий сценарій, ми можемо конвертувати PDF у текст за допомогою Node.js, що полегшує обробку текстового вмісту з різних документів. Цей підхід особливо корисний для компаній, які мають справу зі звітами, контрактами або сканованими документами, які потребують вилучення тексту. У цій статті ми розглянемо простий спосіб експорту PDF у Text у Node.js за допомогою кількох рядків коду.
Кроки для перетворення PDF на текст за допомогою Node.js
- Налаштуйте та інтегруйте GroupDocs.Conversion для Node.js через Java у свій проект, щоб увімкнути перетворення PDF-до-тексту
- Імпортуйте модуль перетворення у свою програму, щоб керувати перетвореннями різних форматів файлів
- Створіть екземпляр класу Converter і вкажіть шлях до файлу для завантаження документа PDF
- Налаштуйте параметри перетворення для вилучення тексту та виберіть TXT як вихідний формат
- Викличте метод convert класу Converter, щоб обробити PDF і створити текстовий файл
Наведений нижче код спочатку ініціалізує бібліотеку перетворення та завантажує PDF-файл. Потім він визначає вихідний формат як звичайний текст за допомогою WordProcessingConvertOptions, гарантуючи, що весь читабельний текст буде витягнуто, ігноруючи непотрібне форматування. Витягнутий текст зберігається у файлі .txt, що полегшує подальшу обробку. Цей підхід корисний для програм, які вимагають обробки природної мови, індексування вмісту або автоматизованого аналізу тексту. Крім того, цей метод ефективний для роботи з великими документами, гарантуючи збереження важливих текстових даних без ручного втручання. Наступний сценарій демонструє, як генерувати текст із PDF-файлу в Node.js з мінімальними зусиллями.
Код для перетворення PDF на текст за допомогою Node.js
const conversion = require('@groupdocs/groupdocs.conversion') | |
const licensePath = "GroupDocs.Search.lic"; | |
const license = new conversion.License() | |
license.setLicense(licensePath); | |
// Load the input PDF file | |
const converter = new conversion.Converter("sample.pdf"); | |
const options = new conversion.WordProcessingConvertOptions(); | |
options.setFormat(conversion.WordProcessingFileType.Txt); | |
// Save output TXT to disk | |
converter.convert("output.txt", options); | |
process.exit(0); |
Інтеграція цього рішення у ваш робочий процес спрощує обробку документів і підвищує продуктивність. Він дозволяє швидко й точно витягувати текст із рахунків-фактур, контрактів і звітів за допомогою лише кількох рядків коду. Процес перетворення PDF на текст за допомогою Node.js спрощує автоматизацію, покращує доступність даних і покращує можливості пошуку. Ідеально підходить для таких галузей, як фінанси, право та охорона здоров’я, він економить час, зменшує кількість помилок і оптимізує робочі процеси для безперебійного керування документами.
Раніше ми надавали детальний посібник із перетворення PDF у Excel за допомогою Node.js. Щоб отримати покрокову інструкцію, ознайомтеся з нашим докладним посібником щодо конвертувати PDF в Excel за допомогою Node.js.