Come estrarre testo da un documento di Word usando C#

Questo articolo esamina tutte le informazioni necessarie per estrarre il testo dai documenti utilizzando una delle migliori API .NET per estrarre i dati dei documenti e guida l’utente su come estrarre il testo dal documento Word utilizzando C#. Inoltre, fornisce le informazioni per la configurazione del pacchetto richiesto e un esempio funzionante per dimostrare l’implementazione dell’applicazione C# estrarre testo dal documento Word. Di seguito sono riportati i passaggi chiave e il codice di esempio per ottenere il testo dai documenti di Word.

Passaggi per estrarre il testo dal documento di Word usando C#

  1. Installa il pacchetto GroupDocs.Parser for .NET dal sito Web NuGet nel progetto .NET per estrarre il testo dal documento di Word
  2. Aggiungi un riferimento agli spazi dei nomi necessari per estrarre il testo dal file di Word
  3. Crea un oggetto della classe Parser per caricare il documento DOCX di input
  4. Chiama il metodo GetText della classe Parser e ottieni un oggetto TextReader
  5. Infine, usa il metodo ReadToEnd per leggere il testo dall’oggetto reader

I punti precedenti consentono di creare rapidamente l’applicazione per estrarre testo dal documento Word C#. Questi passaggi non dipendono da alcuno strumento di terze parti per l’estrazione di testo dai documenti e puoi utilizzarli su qualsiasi piattaforma come MS Windows, Linux e macOS che supporta un ambiente .NET. Inoltre, devi scrivere alcune righe di codice che consumano un paio di chiamate API della libreria richiesta per ottenere il testo dai documenti DOC o DOCX.

Codice per estrarre il testo dal documento di Word usando C#

La funzionalità leggi testo dal documento Word C# è sviluppata nel frammento di codice sopra per mostrarti come estrarre il testo dal documento DOCX. Tuttavia, puoi anche utilizzare documenti in formato DOC in questo codice di esempio per ottenere il testo. Inoltre, questo esempio può essere adattato per estrarre testo da una varietà di altri formati di documenti inclusi DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF e molti altri.

Abbiamo discusso il processo per estrarre il testo dai documenti di Word in C# e sviluppato un codice di esempio in questo post. Di recente, abbiamo pubblicato un articolo per estrarre immagini da PDF in C#, dai un’occhiata alla guida come estrarre immagini da PDF usando C# per ulteriori informazioni.

 Italiano