اگر با فایلهای PDF کار میکنید و نیاز به استخراج محتوا در قالبی قابل ویرایش دارید، میتوانید به راحتی با استفاده از Node.js PDF را به TXT تبدیل کنید. این فرآیند تبدیل اغلب برای استخراج متن از اسناد بدون نگرانی در مورد قالب بندی ضروری است. در این مقاله، شما را با روند صادرات PDF به TXT در Node.js آشنا می کنیم و یک رویکرد عملی برای آن را بررسی می کنیم. این تبدیل به ویژه در هنگام برخورد با مجموعه داده های بزرگ، گردش کار خودکار یا برنامه های جستجوی مبتنی بر متن مفید است. این تضمین می کند که محتوای استخراج شده ساختار یافته است و پردازش، تجزیه و تحلیل یا ذخیره آن در پایگاه داده ها را آسان تر می کند.
مراحل تبدیل PDF به TXT با استفاده از Node.js
- برای فعال کردن تبدیل PDF به TXT، GroupDocs.Conversion برای Node.js از طریق جاوا را در پروژه خود تنظیم و ادغام کنید.
- بسته groupdocs.conversion را در برنامه خود قرار دهید
- کلاس Converter را نمونه سازی کنید و مسیر فایل را برای بارگیری سند PDF ارائه دهید
- WordProcessingConvertOptions را پیکربندی کنید و TXT را به عنوان فرمت خروجی هدف انتخاب کنید
- برای پردازش PDF و تولید یک فایل TXT، متد تبدیل کلاس Converter را فراخوانی کنید
ابتدا باید کتابخانه مورد نیاز را نصب کرده و محیط Node.js خود را پیکربندی کنید. کد زیر نحوه بارگذاری یک فایل PDF و تبدیل آن به یک فایل متنی را نشان می دهد. WordProcessingConvertOptions برای تعیین فرمت به عنوان TXT استفاده می شود. پس از پیکربندی تنظیمات تبدیل، میتوانید برای تکمیل فرآیند با متد Converter.convert تماس بگیرید. این فرآیند به شما امکان می دهد TXT را از PDF در Node.js تولید کنید و می توانید خروجی را به عنوان فایل TXT برای پردازش یا ذخیره سازی بیشتر ذخیره کنید.
کد برای تبدیل PDF به TXT با استفاده از Node.js
const conversion = require('@groupdocs/groupdocs.conversion') | |
const licensePath = "GroupDocs.Search.lic"; | |
const license = new conversion.License() | |
license.setLicense(licensePath); | |
// Load the input PDF file | |
const converter = new conversion.Converter("sample.pdf"); | |
const options = new conversion.WordProcessingConvertOptions(); | |
options.setFormat(conversion.WordProcessingFileType.Txt); | |
// Save output TXT to disk | |
converter.convert("output.txt", options); | |
process.exit(0); |
تبدیل PDF به متن ساده برای کارهایی مانند فهرست بندی جستجو، استخراج داده ها و پردازش بیشتر در برنامه های مختلف ارزشمند است. روشی که در اینجا توضیح داده شده است یک روش قابل اعتماد برای تغییر PDF به TXT با استفاده از Node.js بدون نیاز به وابستگی اضافی ارائه می دهد. با پیروی از یک رویکرد ساختاریافته، توسعه دهندگان می توانند تبدیل متن را به آرامی مدیریت کنند و از دقت و کارایی اطمینان حاصل کنند. این تکنیک به ویژه برای برنامه های کاربردی متمرکز بر مدیریت اسناد مبتنی بر متن، تجزیه و تحلیل محتوا یا پردازش خودکار مفید است. چه با فایلهای کوچک یا دستهای از فایلهای PDF کار میکنید، این روش با حفظ کارایی بهینه، تبدیل یکپارچه را تضمین میکند.
پیش از این، ما یک راهنمای عمیق در مورد تبدیل PDF به MHTML با استفاده از Node.js منتشر کردیم. برای دستورالعمل های دقیق و گام به گام، حتماً آموزش کامل ما را در مورد نحوه تبدیل PDF به MHTML با استفاده از Node.js بررسی کنید.