บทความนี้กล่าวถึงข้อมูลที่จำเป็นทั้งหมดสำหรับการแยกข้อความจากเอกสารโดยใช้หนึ่งใน .NET API ที่ดีที่สุดในการแยกข้อมูลเอกสารและแนะนำวิธี แยกข้อความจากเอกสาร Word โดยใช้ C# นอกจากนี้ยังให้ข้อมูลสำหรับการกำหนดค่าแพ็คเกจที่จำเป็นและตัวอย่างการทำงานเพื่อสาธิตการใช้งานแอพพลิเคชั่น C# แยกข้อความจากเอกสาร Word ต่อไปนี้คือขั้นตอนสำคัญและโค้ดตัวอย่างสำหรับการรับข้อความจากเอกสาร Word
ขั้นตอนในการแยกข้อความจากเอกสาร Word โดยใช้ C#
- ติดตั้งแพ็คเกจ GroupDocs.Parser for .NET จากเว็บไซต์ NuGet ในโครงการ .NET เพื่อแยกข้อความจากเอกสาร Word
- เพิ่มการอ้างอิงเนมสเปซที่จำเป็นสำหรับการแยกข้อความจากไฟล์ Word
- สร้างออบเจกต์ของคลาส Parser เพื่อโหลดเอกสาร DOCX อินพุต
- เรียกใช้เมธอด GetText ของคลาส Parser และรับวัตถุ TextReader
- สุดท้าย ใช้เมธอด ReadToEnd เพื่ออ่านข้อความจากวัตถุตัวอ่าน
ประเด็นข้างต้นทำให้คุณสามารถสร้างแอปพลิเคชันเพื่อ แยกข้อความจากเอกสาร Word C# ได้อย่างรวดเร็ว ขั้นตอนเหล่านี้ไม่ได้ขึ้นอยู่กับเครื่องมือของบุคคลที่สามสำหรับการแยกข้อความจากเอกสาร และคุณสามารถใช้บนแพลตฟอร์มใดก็ได้ เช่น MS Windows, Linux และ macOS ที่รองรับสภาพแวดล้อม .NET นอกจากนี้ คุณต้องเขียนโค้ดสองสามบรรทัดที่ใช้การเรียก API สองสามครั้งของไลบรารีที่จำเป็นเพื่อรับข้อความจากเอกสาร DOC หรือ DOCX
รหัสเพื่อแยกข้อความจากเอกสาร Word โดยใช้ C
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromWordDocumentUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from Word document using C# | |
{ | |
// Remove the watermark in output PDF document by adding license | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.docx")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
ความสามารถ อ่านข้อความจากเอกสาร Word C# ได้รับการพัฒนาในข้อมูลโค้ดด้านบนเพื่อแสดงวิธีแยกข้อความจากเอกสาร DOCX อย่างไรก็ตาม คุณยังสามารถใช้เอกสารรูปแบบ DOC ในโค้ดตัวอย่างนี้เพื่อรับข้อความ นอกจากนี้ ตัวอย่างนี้สามารถปรับเปลี่ยนสำหรับการแยกข้อความจากรูปแบบเอกสารอื่นๆ ที่หลากหลาย เช่น DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF และอื่นๆ อีกมากมาย
เราได้กล่าวถึงขั้นตอนการแยกข้อความจากเอกสาร Word ใน C# และพัฒนาโค้ดตัวอย่างในโพสต์นี้ เมื่อเร็ว ๆ นี้ เราได้เผยแพร่บทความเกี่ยวกับการแยกรูปภาพจาก PDF ใน C# โปรดดูคำแนะนำ วิธีแยกรูปภาพจาก PDF โดยใช้ C# สำหรับข้อมูลเพิ่มเติม