I metadati nei file PDF contengono informazioni essenziali sul documento, come titolo, autore, data di creazione, data di modifica, parole chiave e altro. L’estrazione di questi metadati può essere estremamente vantaggiosa per varie applicazioni, inclusi sistemi di gestione dei documenti, analisi dei dati e attività di automazione. In questo articolo approfondiremo come leggere i metadati da PDF utilizzando C#. Ecco un’analisi dettagliata del processo con un codice di esempio per aiutarti a capire come leggere i metadati del PDF utilizzando C#.
Passaggi per leggere i metadati da PDF utilizzando C#
- Configura il tuo IDE per utilizzare GroupDocs.Metadata for .NET per estrarre metadati dai file PDF
- Crea un oggetto Metadata utilizzando il percorso del file PDF come parametro per il suo costruttore
- Stabilire criteri per la convalida delle informazioni sui metadati raccolti
- Specifica una condizione per l’utilizzo del metodo Metadata.FindProperties
- Passa in rassegna ciascuna delle proprietà una per una
L’estrazione di metadati dai file PDF utilizzando C# fornisce agli sviluppatori informazioni preziose sulle proprietà del documento come titolo, autore, data di creazione, data di modifica e parole chiave. Queste informazioni possono essere cruciali per i sistemi di gestione dei documenti, l’analisi dei dati e i flussi di lavoro automatizzati. Puoi seguire le istruzioni precedenti su Windows, macOS o Linux purché .NET sia installato. Non è necessario installare software aggiuntivo per estrarre i metadati del PDF in C#. Dopo aver impostato la libreria consigliata e modificato di conseguenza i percorsi dei file, puoi facilmente integrare il seguente codice nei tuoi progetti senza problemi o complicazioni.
Codice per leggere i metadati da PDF utilizzando C#
using GroupDocs.Metadata; | |
using GroupDocs.Metadata.Common; | |
using GroupDocs.Metadata.Tagging; | |
using System.Text.RegularExpressions; | |
namespace ReadMetadataFromPDFUsingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Metadata library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Metadata.lic"); | |
// Pass absolute or relative path of document to Metadata's constructor | |
using (Metadata metadata = new Metadata(@"input.pdf")) | |
{ | |
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted) | |
{ | |
Console.WriteLine(); | |
// Fetch all metadata properties that fall into a particular category | |
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content)); | |
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc."); | |
foreach (var property in properties) | |
{ | |
Console.WriteLine("{0} = {1}", property.Name, property.Value); | |
} | |
// Fetch all properties having a specific type and value | |
var year = DateTime.Today.Year; | |
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime && | |
p.Value.ToStruct(DateTime.MinValue).Year == year); | |
Console.WriteLine("All datetime properties with the year value equal to the current year"); | |
foreach (var property in properties) | |
{ | |
Console.WriteLine("{0} = {1}", property.Name, property.Value); | |
} | |
// Fetch all properties whose names match the specified regex | |
const string pattern = "^author|company|(.+date.*)$"; | |
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase); | |
properties = metadata.FindProperties(p => regex.IsMatch(p.Name)); | |
Console.WriteLine("All properties whose names match the following regex: {0}", pattern); | |
foreach (var property in properties) | |
{ | |
Console.WriteLine("{0} = {1}", property.Name, property.Value); | |
} | |
} | |
} | |
} | |
} | |
} |
In conclusione, questo articolo ha fornito una guida completa su come ottenere metadati di PDF nella programmazione C#. Sfruttando la libreria di metadati, gli sviluppatori possono estrarre in modo efficiente informazioni essenziali come titolo del documento, autore, data di creazione, data di modifica e parole chiave dai documenti PDF. Comprendere e utilizzare le tecniche di estrazione dei metadati in C# consente agli sviluppatori di creare applicazioni robuste per la gestione dei documenti, l’analisi dei dati e le attività di automazione. Ti suggeriamo di sperimentare diversi file PDF e di esplorare ulteriori proprietà dei metadati per migliorare ulteriormente le capacità di estrazione dei metadati nelle applicazioni C#.
Durante la nostra discussione precedente, abbiamo fornito un tutorial approfondito sull’estrazione dei metadati dai file PPTX utilizzando C#. Per una comprensione più approfondita di questo argomento, ti consigliamo di fare riferimento alla nostra guida completa su come leggere i metadati da PPTX utilizzando C#.