In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. แม้ว่าจะมีอายุมากกว่า แต่ก็ยังคงใช้กันอย่างแพร่หลายในองค์กรหลายแห่ง ทำให้นักพัฒนาซอฟต์แวร์จำเป็นต้องสามารถแยกข้อความจากเอกสารเหล่านี้ได้ ต่อไปนี้เป็นขั้นตอนหลักในการแยกข้อความจากเอกสารโดยใช้ C#
ขั้นตอนในการแยกข้อความจากเอกสารโดยใช้ C#
- ตั้งค่าสภาพแวดล้อมการพัฒนาของคุณโดยติดตั้ง GroupDocs.Parser for .NET ซึ่งช่วยให้คุณดึงข้อความจากไฟล์ DOC ได้
- สร้างอ็อบเจ็กต์ Parser ใหม่และระบุตำแหน่งของไฟล์ DOC ของคุณ
- ใช้เมธอด GetText ของวัตถุ Parser เพื่อรับ TextReader
- สุดท้ายใช้เมธอด ReadToEnd ของ TextReader เพื่ออ่านข้อความทั้งหมด
ขั้นตอนที่กล่าวถึงข้างต้นใช้ได้กับ Windows, macOS หรือ Linux โดยไม่ต้องใช้ซอฟต์แวร์เพิ่มเติม คุณเพียงแค่ต้องติดตั้ง .NET ในระบบของคุณ ไลบรารี Parser เป็นวิธีที่มีประสิทธิภาพและทรงพลังในการจัดการการแยกข้อความ ทำให้เป็นตัวเลือกที่ยอดเยี่ยมสำหรับนักพัฒนาที่ทำงานกับไฟล์ DOC รุ่นเก่า วิธีนี้ช่วยเพิ่มความสามารถในการทำงานกับเนื้อหาเอกสาร ปรับปรุงทั้งประสิทธิภาพการทำงานและความสามารถในการจัดการข้อมูล เมื่อคุณกำหนดค่าสภาพแวดล้อมแล้ว คุณสามารถนำโค้ดด้านล่างไปใช้สำหรับ การแยกข้อความ DOC ใน C# ได้
โค้ดสำหรับดึงข้อความจากเอกสารโดยใช้ C#
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
ไม่ว่าคุณจะทำงานเกี่ยวกับการแปลงเอกสาร การวิเคราะห์ข้อมูล หรือการจัดการเนื้อหา แนวทางนี้จะช่วยให้คุณทำงานอัตโนมัติและปรับปรุงประสิทธิภาพของแอปพลิเคชันได้ แนวทางนี้ช่วยเพิ่มความสามารถในการทำงานกับเนื้อหาเอกสาร ปรับปรุงทั้งประสิทธิภาพการทำงานและความสามารถในการจัดการข้อมูล เมื่อทำตามบทความนี้ คุณจะสามารถผสานรวม การอ่านข้อความจากเอกสารด้วยภาษา C# เข้ากับแอปพลิเคชันของคุณได้อย่างราบรื่น ช่วยให้ประมวลผลเอกสารได้อย่างมีประสิทธิภาพและเชื่อถือได้ เมื่อคุณตั้งค่าไลบรารีที่แนะนำและปรับเส้นทางไฟล์แล้ว การเพิ่มโค้ดที่ให้มาลงในโปรเจ็กต์ของคุณก็ควรจะเป็นเรื่องง่าย
ก่อนหน้านี้ เราได้ให้คำแนะนำโดยละเอียดเกี่ยวกับการแยกข้อความจาก XLSX โดยใช้ C# หากต้องการความเข้าใจที่ละเอียดถี่ถ้วนยิ่งขึ้น โปรดดูบทช่วยสอนฉบับสมบูรณ์ของเราเกี่ยวกับวิธีการ แยกข้อความจาก XLSX โดยใช้ C#