In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. Přestože je starší, stále je široce používán v mnoha organizacích, takže je důležité, aby vývojáři byli schopni extrahovat text z těchto dokumentů. Zde jsou hlavní kroky k extrahování textu z DOC pomocí C#.
Kroky k extrahování textu z DOC pomocí C#
- Nastavte své vývojové prostředí instalací GroupDocs.Parser for .NET, která vám pomůže vytáhnout text ze souborů DOC
- Vytvořte nový objekt Parser a zadejte mu umístění vašeho DOC souboru
- Pomocí metody GetText objektu Parser získáte TextReader
- Nakonec použijte metodu ReadToEnd aplikace TextReader k přečtení celého textu
Výše uvedené kroky fungují ve Windows, macOS nebo Linuxu bez potřeby dalšího softwaru. Stačí mít na svém systému nainstalovaný .NET. Knihovna Parser poskytuje výkonný a efektivní způsob, jak zvládnout extrakci textu, což z ní činí vynikající volbu pro vývojáře pracující se staršími soubory DOC. Tento přístup zlepšuje vaši schopnost pracovat s obsahem dokumentů, zlepšuje produktivitu i možnosti zpracování dat. S nakonfigurovaným prostředím můžete implementovat níže uvedený kód pro extrakci textu DOC v C#.
Kód pro extrahování textu z DOC pomocí C#
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Ať už pracujete na převodu dokumentů, analýze dat nebo správě obsahu, tento přístup vám pomůže automatizovat proces a zlepšit efektivitu vaší aplikace. Tento přístup zlepšuje vaši schopnost pracovat s obsahem dokumentů, zlepšuje produktivitu i možnosti zpracování dat. Dodržováním tohoto článku budete schopni bezproblémově integrovat C# čtený text z DOC do vašich aplikací a zajistit tak efektivní a spolehlivé zpracování dokumentů. Jakmile nastavíte doporučenou knihovnu a upravíte cesty k souborům, přidání poskytnutého kódu do vašich projektů by mělo být snadné.
Dříve jsme poskytli podrobný průvodce extrahováním textu z XLSX pomocí C#. Chcete-li důkladněji porozumět, podívejte se na náš úplný návod, jak extrahovat text z XLSX pomocí C#.