Čitajte metapodatke iz PDF-a koristeći C#

Metapodaci u datotekama PDF sadrže bitne podatke o dokumentu, kao što su naslov, autor, datum stvaranja, datum izmjene, ključne riječi i još mnogo toga. Izdvajanje ovih metapodataka može biti iznimno korisno za razne aplikacije, uključujući sustave za upravljanje dokumentima, analizu podataka i zadatke automatizacije. U ovom ćemo članku istražiti kako čitati metapodatke iz PDF-a pomoću C#. Evo raščlambe procesa s primjerom koda koji će vam pomoći razumjeti kako čitati metapodatke PDF-a pomoću C#.

Koraci za čitanje metapodataka iz PDF-a pomoću C#

  1. Konfigurirajte svoj IDE da koristi GroupDocs.Metadata for .NET za izdvajanje metapodataka iz PDF datoteka
  2. Stvorite objekt Metadata koristeći put datoteke PDF datoteke kao parametar za njen konstruktor
  3. Uspostavite kriterije za provjeru valjanosti prikupljenih metapodataka
  4. Navedite uvjet za korištenje metode Metadata.FindProperties
  5. Prođite kroz svako svojstvo jedno po jedno

Izdvajanje metapodataka iz PDF datoteka pomoću jezika C# pruža programerima vrijedan uvid u svojstva dokumenta kao što su naslov, autor, datum stvaranja, datum izmjene i ključne riječi. Ove informacije mogu biti ključne za sustave upravljanja dokumentima, analizu podataka i automatizirane tijekove rada. Možete slijediti gornje upute u sustavu Windows, macOS ili Linux sve dok imate instaliran .NET. Nema potrebe za instaliranjem dodatnog softvera za izdvajanje metapodataka PDF-a u C#. Nakon što postavite preporučenu biblioteku i prilagodite staze datoteka u skladu s tim, možete jednostavno integrirati sljedeći kod u svoje projekte bez ikakvih problema ili komplikacija.

Kod za čitanje metapodataka iz PDF-a pomoću C#

using GroupDocs.Metadata;
using GroupDocs.Metadata.Common;
using GroupDocs.Metadata.Tagging;
using System.Text.RegularExpressions;
namespace ReadMetadataFromPDFUsingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Metadata library
License lic = new License();
lic.SetLicense(@"GroupDocs.Metadata.lic");
// Pass absolute or relative path of document to Metadata's constructor
using (Metadata metadata = new Metadata(@"input.pdf"))
{
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted)
{
Console.WriteLine();
// Fetch all metadata properties that fall into a particular category
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content));
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties having a specific type and value
var year = DateTime.Today.Year;
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime &&
p.Value.ToStruct(DateTime.MinValue).Year == year);
Console.WriteLine("All datetime properties with the year value equal to the current year");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties whose names match the specified regex
const string pattern = "^author|company|(.+date.*)$";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
properties = metadata.FindProperties(p => regex.IsMatch(p.Name));
Console.WriteLine("All properties whose names match the following regex: {0}", pattern);
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
}
}
}
}
}

Zaključno, ovaj članak pruža opsežan vodič o tome kako dobiti metapodatke PDF-a u C# programiranju. Korištenjem biblioteke metapodataka, programeri mogu učinkovito izdvojiti bitne informacije kao što su naslov dokumenta, autor, datum stvaranja, datum izmjene i ključne riječi iz PDF dokumenata. Razumijevanje i korištenje tehnika ekstrakcije metapodataka u C# omogućuje programerima da izgrade robusne aplikacije za upravljanje dokumentima, analizu podataka i zadatke automatizacije. Predlažemo da eksperimentirate s različitim PDF datotekama i istraživanje dodatnih svojstava metapodataka može dodatno poboljšati mogućnosti ekstrakcije metapodataka u C# aplikacijama.

Tijekom naše prethodne rasprave pružili smo detaljan vodič o izdvajanju metapodataka iz PPTX datoteka pomoću C#. Za temeljitije razumijevanje ove teme, preporučujemo da pogledate naš opsežan vodič o tome kako čitanje metapodataka iz PPTX koristeći C#.

 Hrvatski