Jak wyodrębnić metadane z pliku PDF przy użyciu języka Java

Ten krótki samouczek opisuje krok po kroku proces wyodrębniania metadanych z pliku PDF przy użyciu języka Java. Do pobrania metadanych z dokumentu PDF użyjemy jednego z najlepszych interfejsów API do wyodrębniania metadanych. Ponadto dowiesz się, jak napisać kod, aby utworzyć funkcjonalność pobierania metadanych z pliku PDF w Javie. Poniżej znajdują się szczegółowe instrukcje i przykładowy kod do wydobywania metadanych z dokumentów.

Kroki, aby wyodrębnić metadane z pliku PDF przy użyciu języka Java

  1. Zainstaluj GroupDocs.Parser for Java z repozytorium Maven w projekcie Java, aby wyodrębnić metadane z dokumentu PDF
  2. Importuj podstawowe klasy do rozwijania funkcjonalności wyodrębniania metadanych z dokumentu PDF
  3. Utwórz instancję klasy Parser i przekaż źródłowy plik PDF do jej konstruktora
  4. Wywołaj metodę getMetadata i uzyskaj kolekcję obiektów metadanych dokumentu PDF
  5. Na koniec wykonaj iterację w kolekcji i wyświetl nazwy i wartości metadanych

Wymieniliśmy instrukcje krok po kroku, jak uzyskać metadane PDF przy użyciu języka Java. Musisz postępować zgodnie z tymi punktami w kolejności, aby wyodrębnić metadane z dokumentu PDF i nie musisz konfigurować do tego żadnego dodatkowego oprogramowania. Te kroki można wykonać w dowolnym systemie operacyjnym, w tym MS Windows, Linux i Mac OS.

Kod do wyodrębniania metadanych z pliku PDF przy użyciu języka Java

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.MetadataItem;
public class ExtractMetadataFromPdfUsingJava {
public static void main(String[] args) { // Main function to extract metadata from PDF in Java
// Create an instance of Parser class
try (Parser parser = new Parser("sample.pdf")) {
// Extract metadata from the document
Iterable < MetadataItem > metadata = parser.getMetadata();
// Check if metadata extraction is supported
if (metadata == null) {
System.out.println("Metatada extraction isn't supported");
}
// Iterate over metadata items
for (MetadataItem item: metadata) {
// Print an item name and value
System.out.println(String.format("%s: %s", item.getName(), item.getValue()));
}
}
}
}

W powyższym przykładzie opracowaliśmy funkcję Java PDF metadata. Jak widać, klasa Parser służy do ładowania wejściowego dokumentu PDF w celu pobrania metadanych. Następnie wywołaliśmy metodę getMetadata do zbierania metadanych i przeglądania ich w celu wyświetlenia nazwy i wartości metadanych. Możesz także wyodrębniać metadane z różnych formatów dokumentów, takich jak DOCX, XLSX, PPTX, MSG, EML, EPUB i wiele innych.

Omówiliśmy szczegółową procedurę wyodrębniania metadanych z pliku PDF w Javie. Niedawno opublikowaliśmy artykuł na temat wydobywania metadanych z dokumentu Word w Javie, zajrzyj do przewodnika jak wyodrębnić metadane z dokumentu programu Word za pomocą języka Java, aby uzyskać więcej informacji.

 Polski