Comment extraire du texte d'un document Word à l'aide de C#

Cet article passe en revue toutes les informations nécessaires pour extraire du texte de documents à l’aide de l’une des meilleures API .NET pour extraire des données de document et vous explique comment extraire du texte d’un document Word à l’aide de C#. De plus, il fournit les informations pour configurer le package requis et un exemple pratique pour démontrer la mise en œuvre de l’application Extraire le texte C# du document Word. Voici les étapes clés ainsi qu’un exemple de code pour obtenir le texte à partir de documents Word.

Étapes pour extraire le texte d’un document Word à l’aide de C

  1. Installez le package GroupDocs.Parser for .NET à partir du site Web NuGet dans le projet .NET pour extraire le texte du document Word
  2. Ajouter une référence des espaces de noms nécessaires pour extraire le texte du fichier Word
  3. Créer un objet de la classe Parser pour charger le document DOCX d’entrée
  4. Appelez la méthode GetText de la classe Parser et obtenez un objet TextReader
  5. Enfin, utilisez la méthode ReadToEnd pour lire le texte de l’objet lecteur

Les points ci-dessus vous permettent de créer rapidement l’application pour extraire le texte du document Word C#. Ces étapes ne dépendent d’aucun outil tiers pour extraire du texte de documents et vous pouvez les utiliser sur n’importe quelle plate-forme comme MS Windows, Linux et macOS prenant en charge un environnement .NET. De plus, vous devez écrire quelques lignes de code qui consomment quelques appels d’API de la bibliothèque requise pour obtenir le texte des documents DOC ou DOCX.

Code pour extraire le texte d’un document Word à l’aide de C

La fonctionnalité lire le texte du document Word C# est développée dans l’extrait de code ci-dessus pour vous montrer comment extraire le texte du document DOCX. Cependant, vous pouvez également utiliser des documents au format DOC dans cet exemple de code pour obtenir le texte. En outre, cet exemple peut être adapté pour extraire du texte à partir d’une variété d’autres formats de documents, notamment DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF et bien d’autres.

Nous avons discuté du processus d’extraction de texte à partir de documents Word en C# et développé un exemple de code pour celui-ci dans cet article. Récemment, nous avons publié un article sur l’extraction d’images de PDF en C#, consultez le guide comment extraire des images d’un PDF à l’aide de C# pour plus d’informations.

 Français