Czytaj metadane z pliku PDF przy użyciu języka C#

Metadane w plikach PDF zawierają istotne informacje o dokumencie, takie jak tytuł, autor, data utworzenia, data modyfikacji, słowa kluczowe i inne. Wyodrębnianie tych metadanych może być niezwykle korzystne dla różnych zastosowań, w tym systemów zarządzania dokumentami, analizy danych i zadań automatyzacyjnych. W tym artykule przyjrzymy się, jak odczytywać metadane z pliku PDF przy użyciu języka C#. Oto opis procesu z przykładowym kodem, który pomoże Ci zrozumieć, jak odczytywać metadane pliku PDF przy użyciu języka C#.

Kroki, aby odczytać metadane z pliku PDF przy użyciu języka C#

  1. Skonfiguruj swoje IDE, aby używać GroupDocs.Metadata for .NET do wyodrębniania metadanych z plików PDF
  2. Utwórz obiekt Metadata, używając ścieżki pliku PDF jako parametru jego konstruktora
  3. Ustal kryteria walidacji zebranych metadanych
  4. Określ warunek użycia metody Metadata.FindProperties
  5. Przejdź kolejno przez każdą z właściwości

Wyodrębnianie metadanych z plików PDF przy użyciu języka C# zapewnia programistom cenny wgląd w właściwości dokumentu, takie jak tytuł, autor, data utworzenia, data modyfikacji i słowa kluczowe. Informacje te mogą mieć kluczowe znaczenie dla systemów zarządzania dokumentami, analizy danych i zautomatyzowanych przepływów pracy. Możesz postępować zgodnie z powyższymi instrukcjami w systemie Windows, macOS lub Linux, jeśli masz zainstalowaną platformę .NET. Nie ma potrzeby instalowania dodatkowego oprogramowania, aby wyodrębniać metadane z pliku PDF w języku C#. Po skonfigurowaniu zalecanej biblioteki i odpowiednim dostosowaniu ścieżek plików możesz łatwo zintegrować poniższy kod ze swoimi projektami bez żadnych problemów i komplikacji.

Kod do odczytu metadanych z pliku PDF przy użyciu języka C#

using GroupDocs.Metadata;
using GroupDocs.Metadata.Common;
using GroupDocs.Metadata.Tagging;
using System.Text.RegularExpressions;
namespace ReadMetadataFromPDFUsingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Set License to avoid the limitations of Metadata library
License lic = new License();
lic.SetLicense(@"GroupDocs.Metadata.lic");
// Pass absolute or relative path of document to Metadata's constructor
using (Metadata metadata = new Metadata(@"input.pdf"))
{
if (metadata.FileFormat != FileFormat.Unknown && !metadata.GetDocumentInfo().IsEncrypted)
{
Console.WriteLine();
// Fetch all metadata properties that fall into a particular category
var properties = metadata.FindProperties(p => p.Tags.Any(t => t.Category == Tags.Content));
Console.WriteLine("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties having a specific type and value
var year = DateTime.Today.Year;
properties = metadata.FindProperties(p => p.Value.Type == MetadataPropertyType.DateTime &&
p.Value.ToStruct(DateTime.MinValue).Year == year);
Console.WriteLine("All datetime properties with the year value equal to the current year");
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
// Fetch all properties whose names match the specified regex
const string pattern = "^author|company|(.+date.*)$";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
properties = metadata.FindProperties(p => regex.IsMatch(p.Name));
Console.WriteLine("All properties whose names match the following regex: {0}", pattern);
foreach (var property in properties)
{
Console.WriteLine("{0} = {1}", property.Name, property.Value);
}
}
}
}
}
}

Podsumowując, ten artykuł zawiera obszerny przewodnik na temat uzyskiwania metadanych plików PDF w programowaniu C#. Wykorzystując bibliotekę Metadata, programiści mogą skutecznie wyodrębniać z dokumentów PDF istotne informacje, takie jak tytuł dokumentu, autor, data utworzenia, data modyfikacji i słowa kluczowe. Zrozumienie i wykorzystanie technik ekstrakcji metadanych w języku C# umożliwia programistom tworzenie solidnych aplikacji do zarządzania dokumentami, analizy danych i zadań automatyzacji. Sugerujemy eksperymentowanie z różnymi plikami PDF, a odkrywanie dodatkowych właściwości metadanych może jeszcze bardziej zwiększyć możliwości wyodrębniania metadanych w aplikacjach C#.

Podczas naszej poprzedniej dyskusji udostępniliśmy szczegółowy samouczek dotyczący wyodrębniania metadanych z plików PPTX przy użyciu języka C#. Aby uzyskać dokładniejsze zrozumienie tego tematu, zalecamy zapoznanie się z naszym obszernym przewodnikiem dotyczącym odczytaj metadane z PPTX za pomocą C#.

 Polski