Cómo extraer texto de un documento de Word usando C#

Este artículo repasa toda la información necesaria para extraer texto de documentos usando una de las mejores API de .NET para extraer datos de documentos y lo guía sobre cómo extraer texto de Word documento usando C#. Además, proporciona la información para configurar el paquete requerido y un ejemplo de trabajo para demostrar la implementación de la aplicación C# extraer texto del documento de Word. Estos son los pasos clave, así como el código de muestra para obtener el texto de los documentos de Word.

Pasos para extraer texto de un documento de Word usando C#

  1. Instale el paquete GroupDocs.Parser for .NET desde el sitio web de NuGet en el proyecto .NET para extraer texto del documento de Word
  2. Agregue una referencia de los espacios de nombres necesarios para extraer el texto del archivo de Word
  3. Cree un objeto de la clase Parser para cargar el documento DOCX de entrada
  4. Llame al método GetText de la clase Parser y obtenga un objeto TextReader
  5. Finalmente, use el método ReadToEnd para leer el texto del objeto del lector

Los puntos anteriores le permiten crear rápidamente la aplicación para extraer texto de un documento de Word C#. Estos pasos no dependen de ninguna herramienta de terceros para extraer texto de documentos y puede usarlos en cualquier plataforma como MS Windows, Linux y macOS que admita un entorno .NET. Además, debe escribir algunas líneas de código que consuman un par de llamadas API de la biblioteca requerida para obtener el texto de los documentos DOC o DOCX.

Código para extraer texto de un documento de Word usando C#

La función leer texto del documento de Word C# se desarrolla en el fragmento de código anterior para mostrarle cómo extraer texto del documento DOCX. Sin embargo, también puede usar documentos en formato DOC en este código de muestra para obtener el texto. Además, este ejemplo se puede adaptar para extraer texto de una variedad de otros formatos de documentos, incluidos DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF y muchos más.

Hemos discutido el proceso para extraer texto de documentos de Word en C# y hemos desarrollado un código de muestra en esta publicación. Recientemente, publicamos un artículo para extraer imágenes de PDF en C#, consulte la guía cómo extraer imágenes de PDF usando C# para obtener más información.

 Español