ในภูมิทัศน์ดิจิทัลสมัยใหม่ ความสามารถในการแยกข้อความจากเอกสาร PDF โดยใช้การเขียนโปรแกรม Java นั้นมีข้อได้เปรียบอย่างแน่นอน ไม่ว่าคุณจะดึงข้อมูลอัตโนมัติ ใช้คุณลักษณะการค้นหา หรือดำเนินการวิเคราะห์ข้อความ ความสามารถในการจัดการ PDF โดยทางโปรแกรมสามารถปรับปรุงขั้นตอนการทำงานของคุณและเพิ่มผลผลิตได้อย่างมาก ในคู่มือนี้ เราจะแนะนำคุณตลอดขั้นตอนพื้นฐานในการ แยกข้อความจาก PDF โดยใช้ Java คุณสามารถควบคุมความสามารถของไลบรารี Viewer เพื่อ แยกข้อความจาก PDF ใน Java ได้อย่างมีประสิทธิภาพ โดยทำตามขั้นตอนที่อธิบายไว้ด้านล่าง
ขั้นตอนในการแยกข้อความจาก PDF โดยใช้ Java
- ติดตั้ง GroupDocs.Viewer for Java โดยใช้พื้นที่เก็บข้อมูล Maven เพื่ออ่านข้อความ PDF
- หากต้องการแยกข้อความ PDF ให้เพิ่มการอ้างอิง GroupDocs.Viewer ในโครงการของคุณ
- สร้างอินสแตนซ์คลาสออบเจ็กต์ Viewer โดยใช้เส้นทางของไฟล์ PDF อินพุตในตัวสร้าง
- เรียกเมธอด ViewInfoOptions.forHtmlView เพื่อรับข้อมูลเกี่ยวกับมุมมอง
- ตั้งค่าคุณสมบัติ ViewInfoOptions.extractText เป็น true เพื่อเปิดใช้งานการแยกข้อความ PDF
- ใช้คุณสมบัติ PdfViewInfo.Pages เพื่อรับรายการหน้า PDF ทั้งหมด
- วนซ้ำชุดบรรทัดในแต่ละหน้าโดยใช้คุณสมบัติ Page.Lines เพื่ออ่านข้อความของแต่ละบรรทัด
การได้รับความรู้ในการดึงข้อความจากไฟล์ PDF โดยใช้ Java ช่วยให้คุณสามารถเข้าถึงข้อมูลอันมีค่าที่อยู่ในเอกสาร PDF ได้ ไม่ว่าคุณจะมีส่วนร่วมในโครงการที่เน้นข้อมูลเป็นศูนย์กลาง การจัดการเอกสาร หรือปรับปรุงขั้นตอนการทำงานทางธุรกิจ ความเชี่ยวชาญนี้พิสูจน์ได้ว่าเป็นทรัพย์สินที่มีค่า การใช้วิธี Java แยกข้อมูลจาก PDF นั้นเป็นงานที่ตรงไปตรงมา และเข้ากันได้กับระบบปฏิบัติการทั่วไป เช่น Windows, macOS และ Linux โดยที่คุณต้องติดตั้ง Java ไว้ในเครื่องของคุณ ตัวอย่างโค้ดด้านล่างแสดงกระบวนการแยกข้อความจากไฟล์ PDF โดยใช้ Java
รหัสเพื่อแยกข้อความจาก PDF โดยใช้ Java
import com.groupdocs.viewer.License; | |
import com.groupdocs.viewer.Viewer; | |
import com.groupdocs.viewer.options.ViewInfoOptions; | |
import com.groupdocs.viewer.results.Line; | |
import com.groupdocs.viewer.results.Page; | |
import com.groupdocs.viewer.results.PdfViewInfo; | |
public class ExtractTextfromPDFUsingJava { | |
public static void main(String[] args) throws Exception { | |
// Set License to avoid the limitations of Viewer library | |
License license = new License(); | |
license.setLicense("GroupDocs.Viewer.lic"); | |
Viewer viewer = new Viewer("input.pdf"); | |
ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView(); | |
viewInfoOptions.setExtractText(true); | |
PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions); | |
// Retrieve text from the PDF file. | |
System.out.println("Extracted document text:"); | |
for (Page page : viewInfo.getPages()) { | |
for (Line line : page.getLines()) { | |
System.out.println(line.getValue()); | |
} | |
} | |
} | |
} |
ในบทช่วยสอนนี้ เราได้กล่าวถึงกระบวนการทั้งหมดแล้ว Java get text from PDF คุณสามารถใช้กระบวนการแยกข้อความนี้กับแอปพลิเคชันต่างๆ ได้อย่างราบรื่นโดยทำตามขั้นตอนที่อธิบายไว้ข้างต้น เมื่อคุณติดตั้งไลบรารีที่แนะนำอย่างเชี่ยวชาญและทำการปรับเปลี่ยนเส้นทางไฟล์ที่จำเป็นแล้ว การรวมโค้ดแยกข้อความเข้ากับโปรเจ็กต์ของคุณจะกลายเป็นงานที่ง่ายและไร้ปัญหา
ในบทช่วยสอนก่อนหน้านี้ เรามุ่งเน้นไปที่หัวข้อการแปลง PDF เป็น PNG หากคุณต้องการคำแนะนำเพิ่มเติม เราขอแนะนำให้อ่านบทความของเราเกี่ยวกับวิธี แสดงผล PDF เป็น PNG โดยใช้ Java