So extrahieren Sie Text aus Word-Dokumenten mit C#

Dieser Artikel behandelt alle notwendigen Informationen zum Extrahieren von Text aus Dokumenten mit einer der besten .NET-APIs zum Extrahieren von Dokumentdaten und führt Sie durch das Extrahieren von Text aus Word-Dokument mit C#. Darüber hinaus enthält es die Informationen zum Konfigurieren des erforderlichen Pakets und ein funktionierendes Beispiel, um die Implementierung der Anwendung C#-Text aus Word-Dokument extrahieren zu demonstrieren. Hier sind die wichtigsten Schritte sowie Beispielcode zum Abrufen des Textes aus Word-Dokumenten.

Schritte zum Extrahieren von Text aus Word-Dokumenten mit C#

  1. Installieren Sie das GroupDocs.Parser for .NET-Paket von der NuGet-Website im .NET-Projekt, um Text aus einem Word-Dokument zu extrahieren
  2. Fügen Sie einen Verweis auf die erforderlichen Namespaces zum Extrahieren des Textes aus der Word-Datei hinzu
  3. Erstellen Sie ein Objekt der Klasse Parser zum Laden des DOCX-Eingabedokuments
  4. Rufen Sie die GetText-Methode der Parser-Klasse auf und rufen Sie ein TextReader-Objekt ab
  5. Verwenden Sie schließlich die ReadToEnd-Methode, um den Text aus dem Reader-Objekt zu lesen

Mit den obigen Punkten können Sie schnell die Anwendung zum Extrahieren von Text aus Word-Dokument C# erstellen. Diese Schritte hängen nicht von einem Drittanbieter-Tool zum Extrahieren von Text aus Dokumenten ab und Sie können sie auf jeder Plattform wie MS Windows, Linux und macOS verwenden, die eine .NET-Umgebung unterstützen. Außerdem müssen Sie einige Codezeilen schreiben, die einige API-Aufrufe der erforderlichen Bibliothek verbrauchen, um den Text aus den DOC- oder DOCX-Dokumenten zu erhalten.

Code zum Extrahieren von Text aus Word-Dokumenten mit C#

Die C#-Funktion Text aus Word-Dokument lesen wurde im obigen Code-Snippet entwickelt, um Ihnen zu zeigen, wie Sie Text aus einem DOCX-Dokument extrahieren. Sie können in diesem Beispielcode jedoch auch Dokumente im DOC-Format verwenden, um den Text abzurufen. Darüber hinaus kann dieses Beispiel zum Extrahieren von Text aus einer Vielzahl anderer Dokumentformate angepasst werden, darunter DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF und viele mehr.

Wir haben den Prozess zum Extrahieren von Text aus Word-Dokumenten in C# besprochen und in diesem Beitrag einen Beispielcode dafür entwickelt. Kürzlich haben wir einen Artikel zum Extrahieren von Bildern aus PDF in C# veröffentlicht. Weitere Informationen finden Sie im So extrahieren Sie Bilder aus PDF mit C#-Leitfaden.

 Deutsch