In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. Annak ellenére, hogy régebbi, még mindig széles körben használják sok szervezetben, ezért fontos, hogy a fejlesztők szöveget tudjanak kinyerni ezekből a dokumentumokból. Itt vannak a fő lépések a szöveg DOC-ból C# használatával kivonásához.
Lépések a szöveg kibontásához a DOC-ból C# használatával
- Állítsa be a fejlesztői környezetet a GroupDocs.Parser for .NET telepítésével, amely segít szövegek kinyerésében a DOC-fájlokból
- Hozzon létre egy új Parser objektumot, és adja meg a DOC fájl helyét
- Használja a Parser objektum GetText metódusát a TextReader beszerzéséhez
- Végül használja a TextReader ReadToEnd metódusát a teljes szöveg elolvasásához
A fent említett lépések Windows, macOS vagy Linux rendszeren további szoftverek nélkül működnek. Csak telepítenie kell a .NET-et a rendszerére. Az Parser könyvtár hatékony és hatékony módot biztosít a szövegkivonás kezelésére, így kiváló választás a régi DOC fájlokkal dolgozó fejlesztők számára. Ez a megközelítés javítja a dokumentumtartalommal való munkavégzés képességét, javítva a termelékenységet és az adatkezelési képességeket. A konfigurált környezettel megvalósíthatja az alábbi kódot a DOC szövegkivonáshoz C#-ban.
Kód a szöveg DOC-ból C# használatával történő kinyeréséhez
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Függetlenül attól, hogy dokumentumkonverzión, adatelemzésen vagy tartalomkezelésen dolgozik, ez a megközelítés segít automatizálni a folyamatot és javítani az alkalmazás hatékonyságát. Ez a megközelítés javítja a dokumentumtartalommal való munkavégzés képességét, javítva a termelékenységet és az adatkezelési képességeket. A cikk követésével zökkenőmentesen integrálhatja a C# olvasható szöveget a DOC-ból az alkalmazásaiba, így biztosítva a hatékony és megbízható dokumentumfeldolgozást. Miután beállította az ajánlott könyvtárat és beállította a fájl elérési útjait, a megadott kód hozzáadása a projektekhez egyszerű lesz.
Korábban részletes útmutatót adtunk a szöveg XLSX-ből C# használatával történő kinyeréséhez. Az alaposabb megértéshez tekintse meg teljes oktatóanyagunkat a szöveg kibontása az XLSX-ből a C# használatával használatáról.