Den här artikeln går igenom all nödvändig information för att extrahera text från dokument med ett av de bästa .NET API:erna för att extrahera dokumentdata och guidar dig om hur du extraherar text från Word dokument med C#. Dessutom tillhandahåller den informationen för att konfigurera det nödvändiga paketet och ett fungerande exempel för att demonstrera implementeringen av C#-extraheringstexten från Word-dokument-applikationen. Här är de viktigaste stegen samt exempelkod för att hämta texten från Word-dokument.
Steg för att extrahera text från Word-dokument med C#
- Installera paketet GroupDocs.Parser for .NET från NuGet-webbplatsen i .NET-projektet för att extrahera text från Word-dokument
- Lägg till en referens till de nödvändiga namnområdena för att extrahera texten från Word-filen
- Skapa ett objekt av klassen Parser för att ladda det inmatade DOCX-dokumentet
- Anropa GetText-metoden för Parser-klassen och få ett TextReader-objekt
- Använd slutligen ReadToEnd-metoden för att läsa texten från läsarobjektet
Ovanstående punkter gör att du snabbt kan skapa applikationen för att extrahera text från Word-dokument C#. Dessa steg är inte beroende av något tredjepartsverktyg för att extrahera text från dokument och du kan använda dem på vilken plattform som helst som MS Windows, Linux och macOS som stöder en .NET-miljö. Vidare måste du skriva några rader kod som förbrukar ett par API-anrop av det nödvändiga biblioteket för att få texten från DOC- eller DOCX-dokumenten.
Kod för att extrahera text från Word-dokument med C#
Möjligheten läs text från Word-dokument C# är utvecklad i ovanstående kodavsnitt för att visa dig hur du extraherar text från DOCX-dokument. Du kan dock också använda dokument i DOC-format i den här exempelkoden för att hämta texten. Vidare kan detta exempel anpassas för att extrahera text från en mängd andra dokumentformat inklusive DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF och många fler.
Vi har diskuterat processen för att extrahera text från Word-dokument i C# och utvecklat en exempelkod för det i det här inlägget. Nyligen publicerade vi en artikel för att extrahera bilder från PDF i C#, ta en titt på guiden hur man extraherar bilder från PDF med C# för mer information.