วิธีแยกข้อความออกจากเอกสาร Word โดยใช้ C#

บทความนี้กล่าวถึงข้อมูลที่จำเป็นทั้งหมดสำหรับการแยกข้อความจากเอกสารโดยใช้หนึ่งใน .NET API ที่ดีที่สุดในการแยกข้อมูลเอกสารและแนะนำวิธี แยกข้อความจากเอกสาร Word โดยใช้ C# นอกจากนี้ยังให้ข้อมูลสำหรับการกำหนดค่าแพ็คเกจที่จำเป็นและตัวอย่างการทำงานเพื่อสาธิตการใช้งานแอพพลิเคชั่น C# แยกข้อความจากเอกสาร Word ต่อไปนี้คือขั้นตอนสำคัญและโค้ดตัวอย่างสำหรับการรับข้อความจากเอกสาร Word

ขั้นตอนในการแยกข้อความจากเอกสาร Word โดยใช้ C#

  1. ติดตั้งแพ็คเกจ GroupDocs.Parser for .NET จากเว็บไซต์ NuGet ในโครงการ .NET เพื่อแยกข้อความจากเอกสาร Word
  2. เพิ่มการอ้างอิงเนมสเปซที่จำเป็นสำหรับการแยกข้อความจากไฟล์ Word
  3. สร้างออบเจกต์ของคลาส Parser เพื่อโหลดเอกสาร DOCX อินพุต
  4. เรียกใช้เมธอด GetText ของคลาส Parser และรับวัตถุ TextReader
  5. สุดท้าย ใช้เมธอด ReadToEnd เพื่ออ่านข้อความจากวัตถุตัวอ่าน

ประเด็นข้างต้นทำให้คุณสามารถสร้างแอปพลิเคชันเพื่อ แยกข้อความจากเอกสาร Word C# ได้อย่างรวดเร็ว ขั้นตอนเหล่านี้ไม่ได้ขึ้นอยู่กับเครื่องมือของบุคคลที่สามสำหรับการแยกข้อความจากเอกสาร และคุณสามารถใช้บนแพลตฟอร์มใดก็ได้ เช่น MS Windows, Linux และ macOS ที่รองรับสภาพแวดล้อม .NET นอกจากนี้ คุณต้องเขียนโค้ดสองสามบรรทัดที่ใช้การเรียก API สองสามครั้งของไลบรารีที่จำเป็นเพื่อรับข้อความจากเอกสาร DOC หรือ DOCX

รหัสเพื่อแยกข้อความจากเอกสาร Word โดยใช้ C

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromWordDocumentUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from Word document using C#
{
// Remove the watermark in output PDF document by adding license
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.docx"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

ความสามารถ อ่านข้อความจากเอกสาร Word C# ได้รับการพัฒนาในข้อมูลโค้ดด้านบนเพื่อแสดงวิธีแยกข้อความจากเอกสาร DOCX อย่างไรก็ตาม คุณยังสามารถใช้เอกสารรูปแบบ DOC ในโค้ดตัวอย่างนี้เพื่อรับข้อความ นอกจากนี้ ตัวอย่างนี้สามารถปรับเปลี่ยนสำหรับการแยกข้อความจากรูปแบบเอกสารอื่นๆ ที่หลากหลาย เช่น DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF และอื่นๆ อีกมากมาย

เราได้กล่าวถึงขั้นตอนการแยกข้อความจากเอกสาร Word ใน C# และพัฒนาโค้ดตัวอย่างในโพสต์นี้ เมื่อเร็ว ๆ นี้ เราได้เผยแพร่บทความเกี่ยวกับการแยกรูปภาพจาก PDF ใน C# โปรดดูคำแนะนำ วิธีแยกรูปภาพจาก PDF โดยใช้ C# สำหรับข้อมูลเพิ่มเติม

 ไทย