Bài viết này trình bày tất cả thông tin cần thiết để trích xuất văn bản từ tài liệu bằng cách sử dụng một trong những API .NET tốt nhất để trích xuất dữ liệu tài liệu và hướng dẫn bạn cách trích xuất văn bản từ tài liệu Word bằng C#. Hơn nữa, nó cung cấp thông tin để định cấu hình gói được yêu cầu và một ví dụ hoạt động để minh họa việc triển khai ứng dụng C# trích xuất văn bản từ tài liệu Word. Dưới đây là các bước chính cũng như mã mẫu để lấy văn bản từ tài liệu Word.
Các bước để trích xuất văn bản từ tài liệu Word bằng C#
- Cài đặt gói GroupDocs.Parser for .NET từ trang web NuGet trong dự án .NET để trích xuất văn bản từ tài liệu Word
- Thêm tham chiếu các không gian tên cần thiết để trích xuất văn bản từ tệp Word
- Tạo một đối tượng của lớp Parser để tải tài liệu DOCX đầu vào
- Gọi phương thức GetText của lớp Parser và nhận đối tượng TextReader
- Cuối cùng, sử dụng phương thức ReadToEnd để đọc văn bản từ đối tượng người đọc
Các điểm trên cho phép bạn nhanh chóng tạo ứng dụng để trích xuất văn bản từ tài liệu Word C#. Các bước này không phụ thuộc vào bất kỳ công cụ bên thứ ba nào để trích xuất văn bản từ tài liệu và bạn có thể sử dụng chúng trên mọi nền tảng như MS Windows, Linux và macOS hỗ trợ môi trường .NET. Hơn nữa, bạn phải viết một vài dòng mã sử dụng một vài lệnh gọi API của thư viện cần thiết để lấy văn bản từ tài liệu DOC hoặc DOCX.
Mã để trích xuất văn bản từ tài liệu Word bằng C#
Khả năng đọc văn bản từ tài liệu Word C# được phát triển trong đoạn mã trên để chỉ cho bạn cách trích xuất văn bản từ tài liệu DOCX. Tuy nhiên, bạn cũng có thể sử dụng tài liệu định dạng DOC trong mã mẫu này để lấy văn bản. Hơn nữa, ví dụ này có thể được điều chỉnh để trích xuất văn bản từ nhiều định dạng tài liệu khác bao gồm DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF, v.v.
Chúng ta đã thảo luận về quy trình trích xuất văn bản từ tài liệu Word trong C# và đã phát triển mã mẫu cho quy trình này trong bài đăng này. Gần đây, chúng tôi đã xuất bản một bài viết để trích xuất hình ảnh từ PDF bằng C#, hãy xem hướng dẫn cách trích xuất hình ảnh từ PDF bằng C# để biết thêm thông tin.