Cách trích xuất văn bản từ PDF bằng C#

Trong thời đại kỹ thuật số ngày nay, khả năng trích xuất văn bản từ tài liệu PDF bằng ngôn ngữ lập trình C# là vô cùng quý giá. Cho dù bạn đang tự động trích xuất dữ liệu, tạo chức năng tìm kiếm hay phân tích nội dung văn bản, khả năng làm việc với tệp PDF theo chương trình có thể hợp lý hóa quy trình của bạn và nâng cao hiệu quả. Trong bài viết này, chúng tôi sẽ hướng dẫn bạn các bước cần thiết để trích xuất văn bản từ PDF bằng C#. Bạn có thể kiểm soát sức mạnh của thư viện Viewer để trích xuất văn bản từ PDF trong C# một cách liền mạch bằng các bước sau.

Các bước để trích xuất văn bản từ PDF bằng C#

  1. Cài đặt GroupDocs.Viewer for .NET bằng trình quản lý gói NuGet để trích xuất văn bản từ PDF
  2. Để trích xuất văn bản PDF, hãy thêm tài liệu tham khảo GroupDocs.Viewer vào dự án của bạn
  3. Khởi tạo đối tượng lớp Viewer bằng đường dẫn của tệp PDF trong hàm tạo của nó
  4. Gọi phương thức ViewInfoOptions.ForHtmlView để lấy thông tin về view
  5. Đặt thuộc tính ViewInfoOptions.ExtractText thành true để bật trích xuất văn bản PDF
  6. Sử dụng thuộc tính PdfViewInfo.Pages để truy cập toàn bộ danh sách các trang tài liệu
  7. Lặp lại tập hợp các dòng trên mỗi trang bằng Page.Lines để trích xuất văn bản từ mỗi dòng

Học cách trích xuất văn bản từ PDF bằng C# cho phép bạn khai thác lượng thông tin dồi dào có trong tài liệu PDF. Cho dù bạn đang làm việc trên các dự án dựa trên dữ liệu, quản lý tài liệu hay tự động hóa quy trình kinh doanh thì kỹ năng này là tài sản quý giá. Bạn có thể dễ dàng thực hiện phương pháp C# trích xuất dữ liệu từ PDF trên các hệ điều hành được sử dụng rộng rãi như Windows, macOS và Linux sau khi cài đặt .NET trên hệ thống của mình. Ví dụ mã bên dưới giải thích cách trích xuất văn bản từ tệp PDF bằng C#.

Mã để trích xuất văn bản từ PDF bằng C#

Chúng ta đã xem xét các bước chính của C# lấy văn bản từ PDF trong hướng dẫn này. Bạn có thể dễ dàng hoàn thành quy trình trích xuất văn bản này cho nhiều ứng dụng khác nhau bằng cách làm theo các bước trên. Việc tích hợp mã văn bản trích xuất vào dự án của bạn trở thành một thao tác đơn giản và dễ dàng sau khi cài đặt thành công thư viện được tư vấn và thực hiện các thay đổi cần thiết đối với đường dẫn tệp.

Trong hướng dẫn trước, chúng ta đã thảo luận về cách hiển thị PDF dưới dạng PNG. Nếu bạn cần hỗ trợ thêm, chúng tôi khuyên bạn nên đọc bài viết của chúng tôi về cách hiển thị PDF dưới dạng PNG bằng C#.

 Tiếng Việt