วิธีแยกข้อความจาก HTML ใน Java

เราจะพิจารณากระบวนการ แยกข้อความจาก HTML ใน Java โดยทำตามหนึ่งใน API การแยกข้อมูลเอกสารที่ดีที่สุด คุณจะได้เรียนรู้วิธีตั้งค่าสภาพแวดล้อมและวิธีเปลี่ยนขั้นตอนเหล่านี้เป็นการเขียนโค้ดสำหรับการใช้งานแอปพลิเคชัน Java แยกข้อความจาก HTML มาดูคำแนะนำทีละขั้นตอนพร้อมกับโค้ดตัวอย่างเพื่อแยกข้อความจาก HTML โดยใช้ Java

ขั้นตอนในการแยกข้อความจาก HTML ใน Java

  1. ติดตั้ง GroupDocs.Parser for Java จากที่เก็บ Maven ในโครงการ Java เพื่อแยกข้อความจากเอกสาร HTML
  2. นำเข้าคลาสที่จำเป็นสำหรับการพัฒนาฟังก์ชันสำหรับการแยกข้อความจากไฟล์ HTML
  3. เริ่มต้นคลาส Parser เพื่อโหลดเอกสาร HTML อินพุตเพื่อดึงข้อความออกมา
  4. เรียกใช้เมธอด getText ของคลาส Parser และรับวัตถุ TextReader
  5. สุดท้าย อ่านข้อความจากผู้อ่านและแสดง

การใช้จุดข้างต้นตามลำดับจะช่วยให้คุณสร้างฟังก์ชัน แยกข้อความจาก HTML Java ได้อย่างรวดเร็ว ขั้นตอนแรกจะให้คุณตั้งค่าไลบรารีจากที่เก็บ Maven และขั้นตอนที่สองจะแนะนำให้คุณนำเข้าคลาสที่จำเป็นสำหรับการแยกข้อความ ขั้นตอนต่อไปให้คุณโหลดไฟล์ HTML โดยสร้างอินสแตนซ์ของคลาส Parser หลังจากนั้น คุณต้องใช้เมธอด getText เพื่อรวบรวมวัตถุ TextReader แล้วอ่านข้อความจากเครื่องอ่าน

รหัสเพื่อแยกข้อความจาก HTML ใน Java

ข้อมูลโค้ดก่อนหน้านี้แสดงวิธีพัฒนาแอปพลิเคชัน รับข้อความจาก HTML Java เราใช้การเรียก API ง่ายๆ เพียงไม่กี่ครั้งเพื่อให้ได้ฟังก์ชันที่ต้องการ นอกจากนี้ ตัวอย่างนี้สามารถดำเนินการได้บนระบบปฏิบัติการใดๆ รวมถึง Windows, Linux และ macOS โดยไม่ต้องตั้งค่าซอฟต์แวร์เพิ่มเติมใดๆ ยิ่งไปกว่านั้น คุณสามารถปรับโค้ดตัวอย่างนี้เพื่อรับข้อความจากรูปแบบเอกสารต่างๆ เช่น DOCX, XLSX, PPTX, PDF, EML, MSG และอื่นๆ อีกมากมาย

เราได้กล่าวถึงกระบวนการโดยละเอียดเกี่ยวกับวิธีสร้างความสามารถของ Java รับข้อความจาก HTML และสร้างโค้ดตัวอย่างสำหรับมัน เมื่อเร็ว ๆ นี้ เราได้เผยแพร่บทความเกี่ยวกับการแยกข้อความจากเอกสาร Word โดยใช้ Java ดูคำแนะนำ วิธีแยกข้อความจากเอกสาร Word ใน Java สำหรับข้อมูลเพิ่มเติม

 ไทย