استخراج متن از PDF برای بسیاری از برنامهها، مانند تجزیه و تحلیل دادهها، نمایهسازی محتوا، و پردازش متن ضروری است. PDF ها به طور گسترده برای ذخیره سازی اسناد استفاده می شوند، اما استخراج متن قابل خواندن از آنها به صورت دستی می تواند زمان بر و ناکارآمد باشد. خوشبختانه، با Node.js، میتوانیم این فرآیند را خودکار کرده و متن را با استفاده از یک کتابخانه تبدیل اسناد قابل اعتماد استخراج کنیم. با نوشتن یک اسکریپت ساده، میتوانیم PDF را با استفاده از Node.js** به متن تبدیل کنیم و مدیریت محتوای متنی اسناد مختلف را آسانتر کنیم. این رویکرد به ویژه برای مشاغلی مفید است که با گزارش ها، قراردادها یا اسناد اسکن شده که نیاز به استخراج متن دارند سر و کار دارند. در این مقاله، روشی آسان برای صادر کردن PDF به متن در Node.js با استفاده از چند خط کد خواهیم داشت.
مراحل تبدیل PDF به متن با استفاده از Node.js
- برای فعال کردن تبدیل PDF به متن، GroupDocs.Conversion برای Node.js از طریق جاوا را در پروژه خود تنظیم و ادغام کنید.
- برای مدیریت تبدیل فرمت های مختلف فایل، ماژول تبدیل را به برنامه خود وارد کنید
- کلاس Converter را نمونهسازی کنید و مسیر فایل را برای بارگیری سند PDF ارائه دهید
- تنظیمات تبدیل را برای استخراج متن پیکربندی کنید و TXT را به عنوان فرمت خروجی انتخاب کنید
- برای پردازش PDF و تولید یک فایل متنی، متد تبدیل کلاس Converter را فراخوانی کنید
کد زیر ابتدا کتابخانه تبدیل را مقداردهی اولیه می کند و فایل PDF را بارگذاری می کند. سپس با استفاده از WordProcessingConvertOptions، فرمت خروجی را به عنوان متن ساده مشخص میکند، و اطمینان حاصل میکند که تمام متنهای قابل خواندن استخراج میشوند در حالی که قالببندی غیر ضروری را نادیده میگیرند. متن استخراج شده در یک فایل txt. ذخیره می شود و پردازش بیشتر آن را آسان می کند. این رویکرد برای برنامههایی که نیاز به پردازش زبان طبیعی، نمایهسازی محتوا یا تجزیه و تحلیل خودکار متن دارند، مفید است. علاوه بر این، این روش برای مدیریت اسناد بزرگ کارآمد است و اطمینان می دهد که داده های متنی مهم بدون دخالت دستی حفظ می شوند. اسکریپت زیر نحوه تولید متن از PDF در Node.js را با حداقل تلاش نشان می دهد.
کد برای تبدیل PDF به متن با استفاده از Node.js
const conversion = require('@groupdocs/groupdocs.conversion') | |
const licensePath = "GroupDocs.Search.lic"; | |
const license = new conversion.License() | |
license.setLicense(licensePath); | |
// Load the input PDF file | |
const converter = new conversion.Converter("sample.pdf"); | |
const options = new conversion.WordProcessingConvertOptions(); | |
options.setFormat(conversion.WordProcessingFileType.Txt); | |
// Save output TXT to disk | |
converter.convert("output.txt", options); | |
process.exit(0); |
ادغام این راه حل در گردش کار شما، پردازش اسناد را ساده می کند و بهره وری را افزایش می دهد. این امکان استخراج سریع و دقیق متن از فاکتورها، قراردادها و گزارش ها را تنها با چند خط کد فراهم می کند. فرآیند نحوه تغییر PDF به متن با استفاده از Node.js اتوماسیون را ساده می کند، دسترسی به داده ها را بهبود می بخشد و قابلیت جستجو را افزایش می دهد. ایده آل برای صنایعی مانند امور مالی، حقوقی، و مراقبت های بهداشتی، باعث صرفه جویی در زمان، کاهش خطاها و بهینه سازی گردش کار برای مدیریت یکپارچه اسناد می شود.
قبلاً راهنمای دقیقی در مورد تبدیل PDF به Excel با استفاده از Node.js ارائه کردیم. برای مطالعه گام به گام، آموزش عمیق ما در مورد نحوه تبدیل PDF به Excel با استفاده از Node.js را بررسی کنید.