Leggi metadati da PDF utilizzando C#

I metadati nei file PDF contengono informazioni essenziali sul documento, come titolo, autore, data di creazione, data di modifica, parole chiave e altro. L’estrazione di questi metadati può essere estremamente vantaggiosa per varie applicazioni, inclusi sistemi di gestione dei documenti, analisi dei dati e attività di automazione. In questo articolo approfondiremo come leggere i metadati da PDF utilizzando C#. Ecco un’analisi dettagliata del processo con un codice di esempio per aiutarti a capire come leggere i metadati del PDF utilizzando C#.

Passaggi per leggere i metadati da PDF utilizzando C#

  1. Configura il tuo IDE per utilizzare GroupDocs.Metadata for .NET per estrarre metadati dai file PDF
  2. Crea un oggetto Metadata utilizzando il percorso del file PDF come parametro per il suo costruttore
  3. Stabilire criteri per la convalida delle informazioni sui metadati raccolti
  4. Specifica una condizione per l’utilizzo del metodo Metadata.FindProperties
  5. Passa in rassegna ciascuna delle proprietà una per una

L’estrazione di metadati dai file PDF utilizzando C# fornisce agli sviluppatori informazioni preziose sulle proprietà del documento come titolo, autore, data di creazione, data di modifica e parole chiave. Queste informazioni possono essere cruciali per i sistemi di gestione dei documenti, l’analisi dei dati e i flussi di lavoro automatizzati. Puoi seguire le istruzioni precedenti su Windows, macOS o Linux purché .NET sia installato. Non è necessario installare software aggiuntivo per estrarre i metadati del PDF in C#. Dopo aver impostato la libreria consigliata e modificato di conseguenza i percorsi dei file, puoi facilmente integrare il seguente codice nei tuoi progetti senza problemi o complicazioni.

Codice per leggere i metadati da PDF utilizzando C#

using GroupDocs.Metadata;
using GroupDocs.Metadata.Common;
using GroupDocs.Metadata.Tagging;
using System.Text.RegularExpressions;
namespace ReadMetadataFromPDFUsingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Metadata library
License lic = new License();
lic.SetLicense(@"GroupDocs.Metadata.lic");
// Pass absolute or relative path of document to Metadata's constructor
using (Metadata metadata = new Metadata(@"input.pdf"))
{
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted)
{
Console.WriteLine();
// Fetch all metadata properties that fall into a particular category
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content));
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties having a specific type and value
var year = DateTime.Today.Year;
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime &&
p.Value.ToStruct(DateTime.MinValue).Year == year);
Console.WriteLine("All datetime properties with the year value equal to the current year");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties whose names match the specified regex
const string pattern = "^author|company|(.+date.*)$";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
properties = metadata.FindProperties(p => regex.IsMatch(p.Name));
Console.WriteLine("All properties whose names match the following regex: {0}", pattern);
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
}
}
}
}
}

In conclusione, questo articolo ha fornito una guida completa su come ottenere metadati di PDF nella programmazione C#. Sfruttando la libreria di metadati, gli sviluppatori possono estrarre in modo efficiente informazioni essenziali come titolo del documento, autore, data di creazione, data di modifica e parole chiave dai documenti PDF. Comprendere e utilizzare le tecniche di estrazione dei metadati in C# consente agli sviluppatori di creare applicazioni robuste per la gestione dei documenti, l’analisi dei dati e le attività di automazione. Ti suggeriamo di sperimentare diversi file PDF e di esplorare ulteriori proprietà dei metadati per migliorare ulteriormente le capacità di estrazione dei metadati nelle applicazioni C#.

Durante la nostra discussione precedente, abbiamo fornito un tutorial approfondito sull’estrazione dei metadati dai file PPTX utilizzando C#. Per una comprensione più approfondita di questo argomento, ti consigliamo di fare riferimento alla nostra guida completa su come leggere i metadati da PPTX utilizzando C#.

 Italiano