Извличането на текст от PDF е от съществено значение за много приложения, като анализ на данни, индексиране на съдържание и обработка на текст. PDF файловете се използват широко за съхранение на документи, но ръчното извличане на четим текст от тях може да отнеме много време и да е неефективно. За щастие, с Node.js можем да автоматизираме този процес и да извличаме ефективно текст с помощта на надеждна библиотека за конвертиране на документи. Като напишем прост скрипт, можем да конвертираме PDF в текст с помощта на Node.js, което улеснява обработката на текстово съдържание от различни документи. Този подход е особено полезен за фирми, работещи с отчети, договори или сканирани документи, които се нуждаят от извличане на текст. В тази статия ще разгледаме един лесен метод за експортиране на PDF към текст в Node.js с помощта на няколко реда код.
Стъпки за конвертиране на PDF в текст с помощта на Node.js
- Настройте и интегрирайте GroupDocs.Conversion за Node.js чрез Java във вашия проект, за да активирате конвертирането на PDF в текст
- Импортирайте модула за преобразуване във вашето приложение, за да управлявате различни преобразувания на файлови формати
- Създайте екземпляр на класа Converter и предоставете пътя на файла за зареждане на PDF документа
- Конфигурирайте настройките за преобразуване за извличане на текст и изберете TXT като изходен формат
- Извикайте метода за конвертиране на класа Converter, за да обработите PDF файла и да създадете текстов файл
Кодът по-долу първо инициализира библиотеката за преобразуване и зарежда PDF файла. След това указва изходния формат като обикновен текст с помощта на WordProcessingConvertOptions, като гарантира, че целият четим текст се извлича, като същевременно се игнорира ненужното форматиране. Извлеченият текст се записва в .txt файл, което улеснява по-нататъшната му обработка. Този подход е от полза за приложения, които изискват обработка на естествен език, индексиране на съдържание или автоматизиран анализ на текст. Освен това този метод е ефективен за работа с големи документи, като гарантира, че важните текстови данни се запазват без ръчна намеса. Следният скрипт демонстрира как да генерирате текст от PDF в Node.js с минимални усилия.
Код за конвертиране на PDF в текст с помощта на Node.js
const conversion = require('@groupdocs/groupdocs.conversion') | |
const licensePath = "GroupDocs.Search.lic"; | |
const license = new conversion.License() | |
license.setLicense(licensePath); | |
// Load the input PDF file | |
const converter = new conversion.Converter("sample.pdf"); | |
const options = new conversion.WordProcessingConvertOptions(); | |
options.setFormat(conversion.WordProcessingFileType.Txt); | |
// Save output TXT to disk | |
converter.convert("output.txt", options); | |
process.exit(0); |
Интегрирането на това решение във вашия работен процес опростява обработката на документи и повишава продуктивността. Той позволява бързо и точно извличане на текст от фактури, договори и отчети само с няколко реда код. Процесът за промяна на PDF в текст с помощта на Node.js рационализира автоматизацията, подобрява достъпността на данните и подобрява възможността за търсене. Идеален за отрасли като финанси, право и здравеопазване, той спестява време, намалява грешките и оптимизира работните процеси за безпроблемно управление на документи.
По-рано предоставихме подробно ръководство за конвертиране на PDF в Excel с помощта на Node.js. За стъпка по стъпка прегледайте нашия задълбочен урок за това как да конвертирайте PDF в Excel с помощта на Node.js.