Este artigo apresenta todas as informações necessárias para extrair texto de documentos usando uma das melhores APIs .NET para extrair dados de documentos e orienta você sobre como extrair texto do documento Word usando C#. Além disso, ele fornece as informações para configurar o pacote necessário e um exemplo funcional para demonstrar a implementação do aplicativo C# extrair texto do documento do Word. Aqui estão as principais etapas, bem como o código de exemplo para obter o texto de documentos do Word.
Etapas para extrair texto do documento do Word usando C#
- Instale o pacote GroupDocs.Parser for .NET do site NuGet no projeto .NET para extrair texto do documento do Word
- Adicione uma referência dos namespaces necessários para extrair o texto do arquivo do Word
- Crie um objeto da classe Parser para carregar o documento DOCX de entrada
- Chame o método GetText da classe Parser e obtenha um objeto TextReader
- Por fim, use o método ReadToEnd para ler o texto do objeto leitor
Os pontos acima permitem que você crie rapidamente o aplicativo para extrair texto do documento do Word C#. Essas etapas não dependem de nenhuma ferramenta de terceiros para extrair texto de documentos e você pode usá-las em qualquer plataforma como MS Windows, Linux e macOS que suporte um ambiente .NET. Além disso, você precisa escrever algumas linhas de código que consomem algumas chamadas de API da biblioteca necessária para obter o texto dos documentos DOC ou DOCX.
Código para extrair texto do documento do Word usando C
O recurso ler texto do documento do Word C# é desenvolvido no trecho de código acima para mostrar como extrair texto do documento DOCX. No entanto, você também pode usar documentos no formato DOC neste código de exemplo para obter o texto. Além disso, este exemplo pode ser adaptado para extrair texto de vários outros formatos de documentos, incluindo DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF e muitos outros.
Discutimos o processo para extrair texto de documentos do Word em C# e desenvolvemos um código de exemplo para ele neste post. Recentemente, publicamos um artigo para extrair imagens de PDF em C#, consulte o guia como extrair imagens de PDF usando C # para obter mais informações.