Jak wyodrębnić metadane z pliku PDF za pomocą C#

W tym samouczku opisujemy krok po kroku procedurę wyodrębniania metadanych z PDF przy użyciu języka C# przy użyciu interfejsu API platformy .NET do wyodrębniania danych dokumentu. Ten przewodnik zawiera również instrukcje dotyczące konfigurowania wymaganej biblioteki i przykładowego kodu w celu pobierania metadanych z pliku PDF w języku C#. Oto kluczowe kroki i działający kod do wyodrębniania metadanych z dokumentów.

Kroki, aby wyodrębnić metadane z pliku PDF przy użyciu języka C#

  1. Skonfiguruj pakiet GroupDocs.Parser for .NET z menedżera pakietów NuGet w aplikacji .NET, aby wyodrębnić metadane z pliku PDF
  2. Dodaj odniesienie do niezbędnych przestrzeni nazw do wyodrębniania metadanych z dokumentu PDF
  3. Utwórz instancję klasy Parser i załaduj wejściowy dokument PDF
  4. Wywołaj metodę GetMetadata i uzyskaj kolekcję obiektów metadanych dokumentu
  5. Na koniec wykonaj iterację w kolekcji i uzyskaj nazwy i wartości metadanych

Aby zaimplementować funkcję odczytywania metadanych PDF w C#, po prostu wykonaj powyższe kroki w podanej kolejności. Przede wszystkim załaduj źródłowy plik PDF, inicjując klasę Parser po zainstalowaniu wymaganego pakietu z NuGet i zaimportowaniu niezbędnych przestrzeni nazw. Następnie metoda GetMetadata umożliwia pobranie obiektów metadanych dla dokumentu, a następnie iterację kolekcji w celu wyświetlenia nazwy i wartości metadanych.

Kod do wyodrębniania metadanych z pliku PDF przy użyciu języka C#

using System;
using System.Collections.Generic;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractMetadataFromPdfUsingCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract metadata from PDF using C#
{
// Remove the watermark from output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.pdf"))
{
// Extract metadata from the document
IEnumerable<MetadataItem> metadata = parser.GetMetadata();
// Check if metadata extraction is supported
if (metadata == null)
{
Console.WriteLine("Metatada extraction isn't supported");
}
// Iterate over metadata items
foreach (MetadataItem item in metadata)
{
// Print an item name and value
Console.WriteLine(string.Format("{0}: {1}", item.Name, item.Value));
}
}
}
}
}

Opracowaliśmy aplikację C# do odczytu metadanych PDF, aby zademonstrować działanie wyodrębniania metadanych z funkcji dokumentu. Ta aplikacja jest tworzona przez wykorzystanie kilku wywołań API biblioteki ekstrakcji danych dokumentów bez konfigurowania dodatkowego oprogramowania. Ponadto ten przykładowy kod można wykonać w dowolnym systemie operacyjnym, takim jak MS Windows, Linux i macOS, który obsługuje środowisko .NET.

 Polski