تُستخدم ملفات PDF على نطاق واسع لتخزين المعلومات المهيكلة، لكن استخراج النص القابل للقراءة منها قد يكون صعبًا دون الأدوات المناسبة. غالبًا ما يحتاج مطورو بايثون إلى أتمتة تحليل المستندات لمهام مثل الامتثال، سجلات الرعاية الصحية، أو فهرسة البحث. توفر مكتبة Viewer طريقة قوية لاستخراج النص من PDF باستخدام بايثون مع إمكانية الوصول الكامل إلى السطور والكلمات والحروف. يشرح هذا الدليل كيفية استخدام واجهة برمجة تطبيقات Viewer لاسترجاع النص المهيكل من ملفات PDF . سواءً كنت تبني خدمة خلفية أو أداة سطح مكتب، فإن هذا النهج يساعدك على فك محتوى ملفات PDF بأقل جهد ودقة عالية. الخطوات التالية توضح كيفية استخراج النص من PDF في بايثون.
خطوات استخراج النص من PDF باستخدام بايثون
- تثبيت GroupDocs.Viewer لبايثون عبر .NET باستخدام pip
- استيراد وحدات groupdocs.viewer و groupdocs.viewer.options
- إنشاء كائن Viewer بتمرير مسار ملف PDF الخاص بك
- استخدام ViewInfoOptions.for_html_view() لإعداد خيارات العرض
- تمكين استخراج النص عن طريق تعيين
extract_text = True - استدعاء
viewer.get_view_info()لاسترجاع بيانات الصفحات المنظمة - التكرار عبر كل صفحة والوصول إلى سطورها وكلماتها وحروفها
- طباعة أو معالجة النص المستخرج حسب الحاجة
لأداء استخراج البيانات من PDF باستخدام بايثون، تقوم أولاً بتثبيت GroupDocs.Viewer واستيراد الوحدات المطلوبة. ثم تقوم بإنشاء مثيل لفئة Viewer مع مسار ملف PDF الخاص بك وتكوين خيارات العرض باستخدام ViewInfoOptions.for_html_view(). من خلال تعيين extract_text = True، يتم تمكين استخراج النص التفصيلي. تُعيد طريقة get_view_info() بيانات على مستوى الصفحات، تشمل السطور والكلمات والحروف. يمكنك التكرار عبر كل صفحة وطباعة أو معالجة المحتوى المستخرج. تدعم هذه الطريقة ترميز UTF-8، مما يجعلها مثالية للمستندات متعددة اللغات. الكود فعال، نظيف، ومناسب لتطبيقات الإنتاج.
كود لاستخراج النص من PDF باستخدام بايثون
خلاصة القول، استخراج النص من PDF باستخدام بايثون طريقة عملية وفعّالة لفتح محتوى قيم من المستندات الثابتة. مع GroupDocs.Viewer، يمكن للمطورين الوصول إلى بيانات مهيكلة تشمل السطور والكلمات والحروف—مثالي لبناء محركات بحث، أنظمة تدقيق، أو خطوط أنابيب بيانات. العملية نظيفة، قابلة للتوسع، وتدعم إخراجًا متعدد اللغات عبر ترميز UTF-8. سواءً كنت تعمل في الرعاية الصحية، التقنية القانونية، أو أتمتة المؤسسات، فإن هذه التقنية تمكّنك من تحويل ملفات PDF إلى بيانات قابلة للتنفيذ. بدمج استخراج النص في سير عمل بايثون الخاص بك، ستحصل على دقة، تحكم، ومرونة عبر المنصات. إنها مهارة أساسية لتطبيقات الوثائق الحديثة.
للتعرف على المزيد حول هذه الميزة القوية، نوصي بقراءة دليلنا الشامل حول كيفية تحويل PDF إلى HTML باستخدام بايثون واكتشاف إمكانيات جديدة لتدفقات عمل المستندات الخاصة بك.