ในยุคดิจิทัลปัจจุบัน ความสามารถในการแยกข้อความจากเอกสาร PDF โดยใช้ภาษาการเขียนโปรแกรม C# มีคุณค่าอย่างเหลือเชื่อ ไม่ว่าคุณจะทำการดึงข้อมูลโดยอัตโนมัติ สร้างฟังก์ชันการค้นหา หรือวิเคราะห์เนื้อหาที่เป็นข้อความ ความสามารถในการทำงานกับ PDF โดยทางโปรแกรมสามารถปรับปรุงกระบวนการของคุณและปรับปรุงประสิทธิภาพได้ ในบทความนี้ เราจะแนะนำคุณตลอดขั้นตอนสำคัญในการ แยกข้อความจาก PDF โดยใช้ C# คุณสามารถควบคุมประสิทธิภาพของไลบรารี Viewer เพื่อ แยกข้อความจาก PDF ใน C# ได้อย่างราบรื่นโดยใช้ขั้นตอนต่อไปนี้
ขั้นตอนในการแยกข้อความจาก PDF โดยใช้ C#
- ติดตั้ง GroupDocs.Viewer for .NET โดยใช้ตัวจัดการแพ็คเกจ NuGet เพื่อแยกข้อความจาก PDF
- หากต้องการแยกข้อความ PDF ให้เพิ่มการอ้างอิง GroupDocs.Viewer ในโครงการของคุณ
- สร้างอินสแตนซ์คลาสออบเจ็กต์ Viewer โดยใช้เส้นทางของไฟล์ PDF ในตัวสร้าง
- เรียกเมธอด ViewInfoOptions.ForHtmlView เพื่อดึงข้อมูลเกี่ยวกับมุมมอง
- ตั้งค่าคุณสมบัติ ViewInfoOptions.ExtractText เป็น true เพื่อเปิดใช้งานการแยกข้อความ PDF
- ใช้คุณสมบัติ PdfViewInfo.Pages เพื่อเข้าถึงรายการหน้าเอกสารทั้งหมด
- วนซ้ำชุดบรรทัดในแต่ละหน้าโดยใช้ Page.Lines เพื่อแยกข้อความจากแต่ละบรรทัด
การเรียนรู้วิธีแยกข้อความจาก PDF โดยใช้ C# ช่วยให้คุณสามารถควบคุมความมั่งคั่งของข้อมูลที่มีอยู่ในเอกสาร PDF ไม่ว่าคุณจะทำงานในโครงการที่ขับเคลื่อนด้วยข้อมูล การจัดการเอกสาร หรือทำให้กระบวนการทางธุรกิจเป็นแบบอัตโนมัติ ทักษะนี้ถือเป็นทรัพย์สินที่มีค่า คุณสามารถ C# แยกข้อมูลจากวิธี PDF บนระบบปฏิบัติการที่ใช้กันอย่างแพร่หลาย เช่น Windows, macOS และ Linux หลังจากติดตั้ง .NET บนระบบของคุณ ตัวอย่างโค้ดด้านล่างอธิบายวิธีแยกข้อความจากไฟล์ PDF โดยใช้ C#
รหัสเพื่อแยกข้อความจาก PDF โดยใช้ C
using GroupDocs.Viewer; | |
using GroupDocs.Viewer.Options; | |
using GroupDocs.Viewer.Results; | |
using System; | |
namespace ExtractTextfromPDFUsingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Viewer library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Viewer.lic"); | |
using (var viewer = new Viewer("input.pdf")) | |
{ | |
var viewInfoOptions = ViewInfoOptions.ForHtmlView(); | |
viewInfoOptions.ExtractText = true; | |
var viewInfo = viewer.GetViewInfo(viewInfoOptions) as PdfViewInfo; | |
// Retrieve text from the PDF file. | |
Console.WriteLine("Extracted document text:"); | |
foreach (Page page in viewInfo.Pages) | |
foreach (Line line in page.Lines) | |
{ | |
Console.WriteLine(line.Value); | |
} | |
} | |
} | |
} | |
} |
เราได้ดูขั้นตอนหลักของ C# รับข้อความจาก PDF ในคู่มือนี้ คุณสามารถทำตามขั้นตอนการแยกข้อความนี้ให้เสร็จสิ้นได้อย่างง่ายดายสำหรับแอปพลิเคชันต่างๆ โดยทำตามขั้นตอนข้างต้น การรวมโค้ดข้อความที่แตกออกมาในโปรเจ็กต์ของคุณกลายเป็นการดำเนินการที่ไม่ซับซ้อนและไม่ลำบากหลังจากติดตั้งไลบรารีที่แนะนำสำเร็จและทำการเปลี่ยนแปลงเส้นทางไฟล์ที่จำเป็น
ในบทช่วยสอนก่อนหน้านี้ เราได้พูดคุยกันเกี่ยวกับการเรนเดอร์ PDF เป็น PNG หากคุณต้องการความช่วยเหลือเพิ่มเติม เราขอแนะนำให้คุณอ่านบทความของเราเกี่ยวกับวิธี แสดงผล PDF เป็น PNG โดยใช้ C #