วิธีแยกข้อความจากเอกสาร Word ใน Java

ในคู่มือวิธีใช้นี้ เราจะพูดถึงขั้นตอนทีละขั้นตอนในการ แยก Text จากเอกสาร Word ใน Java นอกจากนี้ คุณจะได้เรียนรู้วิธีตั้งค่าไลบรารีที่ต้องการจากที่เก็บ Maven และวิธีใช้คู่มือนี้เพื่อสร้างฟังก์ชัน แยกข้อความจาก DOCX โดยใช้ Java ต่อไปนี้เป็นประเด็นหลักในการแยกข้อความจากเอกสารพร้อมกับตัวอย่างโค้ด

ขั้นตอนในการแยกข้อความจากเอกสาร Word ใน Java

  1. ติดตั้ง GroupDocs.Parser for Java จากที่เก็บ Maven ในโครงการ Java เพื่อแยกข้อความจากเอกสาร Word
  2. นำเข้าคลาสที่จำเป็นสำหรับการพัฒนาฟังก์ชันสำหรับการแยกข้อความจากไฟล์ Word
  3. สร้างอินสแตนซ์คลาส Parser สำหรับการโหลดเอกสาร Word อินพุตเพื่อดึงข้อความออกมา
  4. เรียกใช้เมธอด getText ของคลาส Parser และรับวัตถุ TextReader
  5. ในที่สุดอ่านข้อความจากผู้อ่าน

เราได้ระบุจุดทั้งหมดที่จำเป็นในการสร้าง อ่านข้อความจากเอกสาร Word ในแอปพลิเคชัน Java ขั้นตอนเหล่านี้ง่ายมากที่จะปฏิบัติตามในระบบปฏิบัติการทั่วไป รวมทั้ง Windows, macOS และ Linux นอกจากนี้ คุณสามารถใช้ API เพื่อแยกข้อความจากเอกสารได้อย่างง่ายดายโดยไม่ต้องตั้งค่าซอฟต์แวร์เพิ่มเติมใดๆ

รหัสเพื่อแยกข้อความจากเอกสาร Word ใน Java

ข้อมูลโค้ดด้านบนแสดงการใช้งานตัวแยกข้อความ Java จากความสามารถของ Word ดังที่คุณสังเกตได้ว่าคลาส Parser ใช้เพื่อโหลดเอกสารอินพุต DOCX เพื่อแยกวิเคราะห์หลังจากตั้งค่าไลบรารีและนำเข้าคลาสที่ต้องการ หลังจากนั้นเราได้ใช้เมธอด getText เพื่อรับวัตถุ TextReader แล้วอ่านข้อความจากเครื่องอ่าน

เราได้กล่าวถึงกระบวนการโดยละเอียดของวิธีการแยกข้อความจากเอกสาร Word โดยใช้ Java และสร้างโค้ดตัวอย่างสำหรับมัน เมื่อเร็วๆ นี้ เราได้เผยแพร่บทความเกี่ยวกับการแยกรูปภาพจากเอกสาร Word ในภาษาจาวา ดูคำแนะนำ วิธีดึงรูปภาพออกจากเอกสาร Word โดยใช้ Java สำหรับข้อมูลเพิ่มเติม

 ไทย