Läs metadata från PDF med C#

Metadata i PDF-filer innehåller viktig information om dokumentet, såsom titel, författare, skapelsedatum, ändringsdatum, nyckelord och mer. Att extrahera denna metadata kan vara oerhört fördelaktigt för olika applikationer, inklusive dokumenthanteringssystem, dataanalys och automatiseringsuppgifter. I den här artikeln kommer vi att fördjupa oss i hur man läser metadata från PDF med C#. Här är en uppdelning av processen med en exempelkod som hjälper dig att förstå hur du läser metadata för PDF med C#.

Steg för att läsa metadata från PDF med C#

  1. Konfigurera din IDE för att använda GroupDocs.Metadata for .NET för att extrahera metadata från PDF-filer
  2. Skapa ett Metadata-objekt med hjälp av filsökvägen till PDF-filen som en parameter för dess konstruktor
  3. Upprätta kriterier för att validera den insamlade metadatainformationen
  4. Ange ett villkor för att använda metoden Metadata.FindProperties
  5. Gå igenom var och en av fastigheterna en efter en

Att extrahera metadata från PDF-filer med C# ger utvecklare värdefulla insikter i dokumentegenskaper som titel, författare, skapandedatum, ändringsdatum och nyckelord. Denna information kan vara avgörande för dokumenthanteringssystem, dataanalys och automatiserade arbetsflöden. Du kan följa instruktionerna ovan på Windows, macOS eller Linux så länge du har .NET installerat. Det finns inget behov av att installera extra programvara för att extrahera metadata från PDF i C#. När du väl har ställt in det rekommenderade biblioteket och justerat filsökvägarna därefter, kan du enkelt integrera följande kod i dina projekt utan problem eller komplikationer.

Kod för att läsa metadata från PDF med C#

using GroupDocs.Metadata;
using GroupDocs.Metadata.Common;
using GroupDocs.Metadata.Tagging;
using System.Text.RegularExpressions;
namespace ReadMetadataFromPDFUsingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Metadata library
License lic = new License();
lic.SetLicense(@"GroupDocs.Metadata.lic");
// Pass absolute or relative path of document to Metadata's constructor
using (Metadata metadata = new Metadata(@"input.pdf"))
{
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted)
{
Console.WriteLine();
// Fetch all metadata properties that fall into a particular category
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content));
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties having a specific type and value
var year = DateTime.Today.Year;
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime &&
p.Value.ToStruct(DateTime.MinValue).Year == year);
Console.WriteLine("All datetime properties with the year value equal to the current year");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties whose names match the specified regex
const string pattern = "^author|company|(.+date.*)$";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
properties = metadata.FindProperties(p => regex.IsMatch(p.Name));
Console.WriteLine("All properties whose names match the following regex: {0}", pattern);
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
}
}
}
}
}

Sammanfattningsvis har den här artikeln tillhandahållit en omfattande guide om hur man får metadata för PDF i C#-programmering. Genom att utnyttja Metadata-biblioteket kan utvecklare effektivt extrahera viktig information som dokumenttitel, författare, skapelsedatum, ändringsdatum och nyckelord från PDF-dokument. Att förstå och använda metadataextraktionstekniker i C# ger utvecklare möjlighet att bygga robusta applikationer för dokumenthantering, dataanalys och automatiseringsuppgifter. Vi föreslår att du experimenterar med olika PDF-filer och att utforska ytterligare metadataegenskaper kan ytterligare förbättra möjligheterna för extrahering av metadata i C#-applikationer.

Under vår tidigare diskussion gav vi en djupgående handledning om att extrahera metadata från PPTX-filer med C#. För en mer grundlig förståelse av detta ämne rekommenderar vi att du läser vår omfattande guide om hur du läsa metadata från PPTX med C#.

 Svenska