In the realm of modern software development, handling and processing documents programmatically has become a crucial task. Extracting text from DOC files using C# is a common requirement for developers working on document processing applications. Whether you need to analyze content, convert documents, or automate tasks, extracting text is a fundamental step in many workflows. In this article, we’ll walk through the process of text extraction from DOC in C#. DOC is a legacy file format used by Microsoft Word before the introduction of DOCX in 2007. Pomimo tego, że jest starszy, jest nadal szeroko stosowany w wielu organizacjach, co sprawia, że ważne jest, aby programiści mogli wyodrębnić tekst z tych dokumentów. Oto główne kroki, aby wyodrębnić tekst z DOC za pomocą C#.
Kroki wyodrębniania tekstu z DOC za pomocą C#
- Skonfiguruj środowisko programistyczne, instalując GroupDocs.Parser for .NET, który ułatwia pobieranie tekstu z plików DOC
- Utwórz nowy obiekt Parser i podaj mu lokalizację swojego pliku DOC
- Użyj metody GetText obiektu Parser, aby uzyskać TextReader
- Na koniec użyj metody ReadToEnd obiektu TextReader, aby odczytać cały tekst
Powyższe kroki działają w systemach Windows, macOS lub Linux bez konieczności instalowania dodatkowego oprogramowania. Wystarczy zainstalować .NET w systemie. Biblioteka Parser zapewnia potężny i wydajny sposób obsługi ekstrakcji tekstu, co czyni ją doskonałym wyborem dla programistów pracujących ze starszymi plikami DOC. To podejście zwiększa możliwości pracy z treścią dokumentu, poprawiając zarówno produktywność, jak i możliwości obsługi danych. Po skonfigurowaniu środowiska możesz zaimplementować poniższy kod do ekstrakcji tekstu DOC w języku C#.
Kod do wyodrębniania tekstu z DOC przy użyciu C#
using System; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Options; | |
namespace ExtractTextfromDOCusingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Apply the license to remove the limitations of the Parser library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Parser.lic"); | |
// Instantiate the Parser class | |
using (Parser parser = new Parser("input.doc")) | |
{ | |
// Retrieve formatted text into the reader | |
using (TextReader reader = parser.GetFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) | |
{ | |
// Output the formatted text from the document | |
// If formatted text extraction is not supported, | |
// the reader will be null | |
Console.WriteLine(reader == null ? | |
"Formatted text extraction isn't supported" | |
: reader.ReadToEnd()); | |
Console.ReadLine(); | |
} | |
} | |
} | |
} | |
} |
Niezależnie od tego, czy pracujesz nad konwersją dokumentów, analizą danych czy zarządzaniem treścią, to podejście pomoże Ci zautomatyzować proces i poprawić wydajność Twojej aplikacji. To podejście zwiększa Twoją zdolność do pracy z treścią dokumentu, poprawiając zarówno produktywność, jak i możliwości obsługi danych. Postępując zgodnie z tym artykułem, będziesz w stanie bezproblemowo zintegrować C# read text from DOC ze swoimi aplikacjami, zapewniając wydajne i niezawodne przetwarzanie dokumentów. Po skonfigurowaniu zalecanej biblioteki i dostosowaniu ścieżek plików dodanie dostarczonego kodu do Twoich projektów powinno być łatwe.
Wcześniej udostępniliśmy szczegółowy przewodnik na temat wyodrębniania tekstu z XLSX za pomocą C#. Aby uzyskać dokładniejsze zrozumienie, zapoznaj się z naszym kompletnym samouczkiem na temat wyodrębnij tekst z XLSX za pomocą C#.