Metadata extraheren uit Word-document in C#

Dit artikel bevat stapsgewijze instructies voor het extraheren van metadata uit een Word document in C# met een paar eenvoudige API-aanroepen. Je kunt in dit bericht ook een werkende voorbeeldcode vinden om Word-metadata op te halen met C#. De workflow die in deze handleiding wordt beschreven, is niet afhankelijk van een ander hulpprogramma van derden en kan worden gevolgd op elk van de populaire besturingssystemen zoals Windows, macOS en Linux die een .NET-omgeving ondersteunen.

Stappen om metadata te extraheren uit Word-document in C#

  1. Stel het GroupDocs.Parser for .NET-pakket in vanuit de NuGet-pakketbeheerder in het .NET-project om metagegevens uit een Word-document te extraheren
  2. Voeg een verwijzing toe naar de benodigde naamruimten voor het extraheren van metagegevens uit het Word-bestand
  3. Maak een instantiëring van de Parser-klasse voor het laden van het invoer-DOCX-bestand
  4. Roep de methode GetMetadata van de klasse Parser aan om de verzameling metagegevens op te halen
  5. Herhaal ten slotte de verzameling om de naam en waarde van de metadata te krijgen

Met de bovenstaande workflow kunt u snel de mogelijkheid creëren om metadata Word-document in C# op te halen. U kunt het extractieproces van Word-metagegevens initialiseren door het vereiste pakket in te stellen en de benodigde naamruimte in de code op te nemen. Als u hiermee klaar bent, moet u het DOC- of DOCX-bestand laden door de Parser-klasse te initialiseren. In de volgende twee stappen moet u de methode GetMetadata aanroepen om metagegevens te verzamelen en deze vervolgens herhalen voor verdere verwerking.

Code om metadata uit Word-document te extraheren in C#

using System;
using System.Collections.Generic;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractMetadataFromWordDocumentInCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract Metadata from Word using C#
{
// Remove the watermark in output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.docx"))
{
// Extract metadata from the document
IEnumerable<MetadataItem> metadata = parser.GetMetadata();
// Check if metadata extraction is supported
if (metadata == null)
{
Console.WriteLine("Metatada extraction isn't supported");
}
// Iterate over metadata items
foreach (MetadataItem item in metadata)
{
// Print an item name and value
Console.WriteLine(string.Format("{0}: {1}", item.Name, item.Value));
}
}
}
}
}

De C#-metadata Word-document-toepassing is ontwikkeld voor demonstratie met behulp van de instructies die in het eerdere gedeelte zijn uitgelegd. We hebben een paar regels code geschreven en een paar API-aanroepen gebruikt om metadata uit een Word-bestand te extraheren. Verder kunt u eenvoudig metadata extraheren uit andere documentindelingen zoals DOC, DOCX, RTF, XLSX, PDF, PPTX, MSG, EML en nog veel meer met een kleine aanpassing van deze voorbeeldcode.

We hebben de gedetailleerde instructies besproken om metagegevens uit een Word-document te extraheren met behulp van C# en hebben hiervoor een voorbeeldtoepassing ontwikkeld. Onlangs hebben we een artikel gepubliceerd over het extraheren van afbeeldingen uit PowerPoint met C#. Bekijk de hoe afbeeldingen uit PowerPoint in C# te extraheren-handleiding voor meer informatie. Als u meer wilt weten over GroupDocs-producten, gaat u naar deze page.

 Nederlands