ในคู่มือวิธีใช้นี้ เราจะพูดถึงขั้นตอนทีละขั้นตอนในการ แยก Text จากเอกสาร Word ใน Java นอกจากนี้ คุณจะได้เรียนรู้วิธีตั้งค่าไลบรารีที่ต้องการจากที่เก็บ Maven และวิธีใช้คู่มือนี้เพื่อสร้างฟังก์ชัน แยกข้อความจาก DOCX โดยใช้ Java ต่อไปนี้เป็นประเด็นหลักในการแยกข้อความจากเอกสารพร้อมกับตัวอย่างโค้ด
ขั้นตอนในการแยกข้อความจากเอกสาร Word ใน Java
- ติดตั้ง GroupDocs.Parser for Java จากที่เก็บ Maven ในโครงการ Java เพื่อแยกข้อความจากเอกสาร Word
- นำเข้าคลาสที่จำเป็นสำหรับการพัฒนาฟังก์ชันสำหรับการแยกข้อความจากไฟล์ Word
- สร้างอินสแตนซ์คลาส Parser สำหรับการโหลดเอกสาร Word อินพุตเพื่อดึงข้อความออกมา
- เรียกใช้เมธอด getText ของคลาส Parser และรับวัตถุ TextReader
- ในที่สุดอ่านข้อความจากผู้อ่าน
เราได้ระบุจุดทั้งหมดที่จำเป็นในการสร้าง อ่านข้อความจากเอกสาร Word ในแอปพลิเคชัน Java ขั้นตอนเหล่านี้ง่ายมากที่จะปฏิบัติตามในระบบปฏิบัติการทั่วไป รวมทั้ง Windows, macOS และ Linux นอกจากนี้ คุณสามารถใช้ API เพื่อแยกข้อความจากเอกสารได้อย่างง่ายดายโดยไม่ต้องตั้งค่าซอฟต์แวร์เพิ่มเติมใดๆ
รหัสเพื่อแยกข้อความจากเอกสาร Word ใน Java
ข้อมูลโค้ดด้านบนแสดงการใช้งานตัวแยกข้อความ Java จากความสามารถของ Word ดังที่คุณสังเกตได้ว่าคลาส Parser ใช้เพื่อโหลดเอกสารอินพุต DOCX เพื่อแยกวิเคราะห์หลังจากตั้งค่าไลบรารีและนำเข้าคลาสที่ต้องการ หลังจากนั้นเราได้ใช้เมธอด getText เพื่อรับวัตถุ TextReader แล้วอ่านข้อความจากเครื่องอ่าน
เราได้กล่าวถึงกระบวนการโดยละเอียดของวิธีการแยกข้อความจากเอกสาร Word โดยใช้ Java และสร้างโค้ดตัวอย่างสำหรับมัน เมื่อเร็วๆ นี้ เราได้เผยแพร่บทความเกี่ยวกับการแยกรูปภาพจากเอกสาร Word ในภาษาจาวา ดูคำแนะนำ วิธีดึงรูปภาพออกจากเอกสาร Word โดยใช้ Java สำหรับข้อมูลเพิ่มเติม