วิธีแยกข้อความออกจากเอกสาร Word โดยใช้ C#

บทความนี้กล่าวถึงข้อมูลที่จำเป็นทั้งหมดสำหรับการแยกข้อความจากเอกสารโดยใช้หนึ่งใน .NET API ที่ดีที่สุดในการแยกข้อมูลเอกสารและแนะนำวิธี แยกข้อความจากเอกสาร Word โดยใช้ C# นอกจากนี้ยังให้ข้อมูลสำหรับการกำหนดค่าแพ็คเกจที่จำเป็นและตัวอย่างการทำงานเพื่อสาธิตการใช้งานแอพพลิเคชั่น C# แยกข้อความจากเอกสาร Word ต่อไปนี้คือขั้นตอนสำคัญและโค้ดตัวอย่างสำหรับการรับข้อความจากเอกสาร Word

ขั้นตอนในการแยกข้อความจากเอกสาร Word โดยใช้ C#

  1. ติดตั้งแพ็คเกจ GroupDocs.Parser for .NET จากเว็บไซต์ NuGet ในโครงการ .NET เพื่อแยกข้อความจากเอกสาร Word
  2. เพิ่มการอ้างอิงเนมสเปซที่จำเป็นสำหรับการแยกข้อความจากไฟล์ Word
  3. สร้างออบเจกต์ของคลาส Parser เพื่อโหลดเอกสาร DOCX อินพุต
  4. เรียกใช้เมธอด GetText ของคลาส Parser และรับวัตถุ TextReader
  5. สุดท้าย ใช้เมธอด ReadToEnd เพื่ออ่านข้อความจากวัตถุตัวอ่าน

ประเด็นข้างต้นทำให้คุณสามารถสร้างแอปพลิเคชันเพื่อ แยกข้อความจากเอกสาร Word C# ได้อย่างรวดเร็ว ขั้นตอนเหล่านี้ไม่ได้ขึ้นอยู่กับเครื่องมือของบุคคลที่สามสำหรับการแยกข้อความจากเอกสาร และคุณสามารถใช้บนแพลตฟอร์มใดก็ได้ เช่น MS Windows, Linux และ macOS ที่รองรับสภาพแวดล้อม .NET นอกจากนี้ คุณต้องเขียนโค้ดสองสามบรรทัดที่ใช้การเรียก API สองสามครั้งของไลบรารีที่จำเป็นเพื่อรับข้อความจากเอกสาร DOC หรือ DOCX

รหัสเพื่อแยกข้อความจากเอกสาร Word โดยใช้ C

ความสามารถ อ่านข้อความจากเอกสาร Word C# ได้รับการพัฒนาในข้อมูลโค้ดด้านบนเพื่อแสดงวิธีแยกข้อความจากเอกสาร DOCX อย่างไรก็ตาม คุณยังสามารถใช้เอกสารรูปแบบ DOC ในโค้ดตัวอย่างนี้เพื่อรับข้อความ นอกจากนี้ ตัวอย่างนี้สามารถปรับเปลี่ยนสำหรับการแยกข้อความจากรูปแบบเอกสารอื่นๆ ที่หลากหลาย เช่น DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF และอื่นๆ อีกมากมาย

เราได้กล่าวถึงขั้นตอนการแยกข้อความจากเอกสาร Word ใน C# และพัฒนาโค้ดตัวอย่างในโพสต์นี้ เมื่อเร็ว ๆ นี้ เราได้เผยแพร่บทความเกี่ยวกับการแยกรูปภาพจาก PDF ใน C# โปรดดูคำแนะนำ วิธีแยกรูปภาพจาก PDF โดยใช้ C# สำหรับข้อมูลเพิ่มเติม

 ไทย