تبدیل PDF به متن با استفاده از Node.js

استخراج متن از PDF برای بسیاری از برنامه‌ها، مانند تجزیه و تحلیل داده‌ها، نمایه‌سازی محتوا، و پردازش متن ضروری است. PDF ها به طور گسترده برای ذخیره سازی اسناد استفاده می شوند، اما استخراج متن قابل خواندن از آنها به صورت دستی می تواند زمان بر و ناکارآمد باشد. خوشبختانه، با Node.js، می‌توانیم این فرآیند را خودکار کرده و متن را با استفاده از یک کتابخانه تبدیل اسناد قابل اعتماد استخراج کنیم. با نوشتن یک اسکریپت ساده، می‌توانیم PDF را با استفاده از Node.js** به متن تبدیل کنیم و مدیریت محتوای متنی اسناد مختلف را آسان‌تر کنیم. این رویکرد به ویژه برای مشاغلی مفید است که با گزارش ها، قراردادها یا اسناد اسکن شده که نیاز به استخراج متن دارند سر و کار دارند. در این مقاله، روشی آسان برای صادر کردن PDF به متن در Node.js با استفاده از چند خط کد خواهیم داشت.

مراحل تبدیل PDF به متن با استفاده از Node.js

  1. برای فعال کردن تبدیل PDF به متن، GroupDocs.Conversion برای Node.js از طریق جاوا را در پروژه خود تنظیم و ادغام کنید.
  2. برای مدیریت تبدیل فرمت های مختلف فایل، ماژول تبدیل را به برنامه خود وارد کنید
  3. کلاس Converter را نمونه‌سازی کنید و مسیر فایل را برای بارگیری سند PDF ارائه دهید
  4. تنظیمات تبدیل را برای استخراج متن پیکربندی کنید و TXT را به عنوان فرمت خروجی انتخاب کنید
  5. برای پردازش PDF و تولید یک فایل متنی، متد تبدیل کلاس Converter را فراخوانی کنید

کد زیر ابتدا کتابخانه تبدیل را مقداردهی اولیه می کند و فایل PDF را بارگذاری می کند. سپس با استفاده از WordProcessingConvertOptions، فرمت خروجی را به عنوان متن ساده مشخص می‌کند، و اطمینان حاصل می‌کند که تمام متن‌های قابل خواندن استخراج می‌شوند در حالی که قالب‌بندی غیر ضروری را نادیده می‌گیرند. متن استخراج شده در یک فایل txt. ذخیره می شود و پردازش بیشتر آن را آسان می کند. این رویکرد برای برنامه‌هایی که نیاز به پردازش زبان طبیعی، نمایه‌سازی محتوا یا تجزیه و تحلیل خودکار متن دارند، مفید است. علاوه بر این، این روش برای مدیریت اسناد بزرگ کارآمد است و اطمینان می دهد که داده های متنی مهم بدون دخالت دستی حفظ می شوند. اسکریپت زیر نحوه تولید متن از PDF در Node.js را با حداقل تلاش نشان می دهد.

کد برای تبدیل PDF به متن با استفاده از Node.js

const conversion = require('@groupdocs/groupdocs.conversion')
const licensePath = "GroupDocs.Search.lic";
const license = new conversion.License()
license.setLicense(licensePath);
// Load the input PDF file
const converter = new conversion.Converter("sample.pdf");
const options = new conversion.WordProcessingConvertOptions();
options.setFormat(conversion.WordProcessingFileType.Txt);
// Save output TXT to disk
converter.convert("output.txt", options);
process.exit(0);

ادغام این راه حل در گردش کار شما، پردازش اسناد را ساده می کند و بهره وری را افزایش می دهد. این امکان استخراج سریع و دقیق متن از فاکتورها، قراردادها و گزارش ها را تنها با چند خط کد فراهم می کند. فرآیند نحوه تغییر PDF به متن با استفاده از Node.js اتوماسیون را ساده می کند، دسترسی به داده ها را بهبود می بخشد و قابلیت جستجو را افزایش می دهد. ایده آل برای صنایعی مانند امور مالی، حقوقی، و مراقبت های بهداشتی، باعث صرفه جویی در زمان، کاهش خطاها و بهینه سازی گردش کار برای مدیریت یکپارچه اسناد می شود.

قبلاً راهنمای دقیقی در مورد تبدیل PDF به Excel با استفاده از Node.js ارائه کردیم. برای مطالعه گام به گام، آموزش عمیق ما در مورد نحوه تبدیل PDF به Excel با استفاده از Node.js را بررسی کنید.

 فارسی