W tym samouczku opisujemy krok po kroku procedurę wyodrębniania metadanych z PDF przy użyciu języka C# przy użyciu interfejsu API platformy .NET do wyodrębniania danych dokumentu. Ten przewodnik zawiera również instrukcje dotyczące konfigurowania wymaganej biblioteki i przykładowego kodu w celu pobierania metadanych z pliku PDF w języku C#. Oto kluczowe kroki i działający kod do wyodrębniania metadanych z dokumentów.
Kroki, aby wyodrębnić metadane z pliku PDF przy użyciu języka C#
- Skonfiguruj pakiet GroupDocs.Parser for .NET z menedżera pakietów NuGet w aplikacji .NET, aby wyodrębnić metadane z pliku PDF
- Dodaj odniesienie do niezbędnych przestrzeni nazw do wyodrębniania metadanych z dokumentu PDF
- Utwórz instancję klasy Parser i załaduj wejściowy dokument PDF
- Wywołaj metodę GetMetadata i uzyskaj kolekcję obiektów metadanych dokumentu
- Na koniec wykonaj iterację w kolekcji i uzyskaj nazwy i wartości metadanych
Aby zaimplementować funkcję odczytywania metadanych PDF w C#, po prostu wykonaj powyższe kroki w podanej kolejności. Przede wszystkim załaduj źródłowy plik PDF, inicjując klasę Parser po zainstalowaniu wymaganego pakietu z NuGet i zaimportowaniu niezbędnych przestrzeni nazw. Następnie metoda GetMetadata umożliwia pobranie obiektów metadanych dla dokumentu, a następnie iterację kolekcji w celu wyświetlenia nazwy i wartości metadanych.
Kod do wyodrębniania metadanych z pliku PDF przy użyciu języka C#
using System; | |
using System.Collections.Generic; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractMetadataFromPdfUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract metadata from PDF using C# | |
{ | |
// Remove the watermark from output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.pdf")) | |
{ | |
// Extract metadata from the document | |
IEnumerable<MetadataItem> metadata = parser.GetMetadata(); | |
// Check if metadata extraction is supported | |
if (metadata == null) | |
{ | |
Console.WriteLine("Metatada extraction isn't supported"); | |
} | |
// Iterate over metadata items | |
foreach (MetadataItem item in metadata) | |
{ | |
// Print an item name and value | |
Console.WriteLine(string.Format("{0}: {1}", item.Name, item.Value)); | |
} | |
} | |
} | |
} | |
} |
Opracowaliśmy aplikację C# do odczytu metadanych PDF, aby zademonstrować działanie wyodrębniania metadanych z funkcji dokumentu. Ta aplikacja jest tworzona przez wykorzystanie kilku wywołań API biblioteki ekstrakcji danych dokumentów bez konfigurowania dodatkowego oprogramowania. Ponadto ten przykładowy kod można wykonać w dowolnym systemie operacyjnym, takim jak MS Windows, Linux i macOS, który obsługuje środowisko .NET.