この短いチュートリアルでは、Java を使用して PDF からメタデータを抽出するための段階的なプロセスについて説明します。 PDF ドキュメントからメタデータを取得するために、最適なメタデータ エクストラクタ API の 1 つを使用します。さらに、Java で PDF からメタデータを取得する機能を作成するコードを作成する方法についても学習します。以下は、ドキュメントからメタデータを抽出するための詳細な手順とサンプル コードです。
Java を使用して PDF からメタデータを抽出する手順
- Java プロジェクトの Maven リポジトリから GroupDocs.Parser for Java をインストールして、PDF ドキュメントからメタデータを抽出します。
- PDF ドキュメントからメタデータを抽出する機能を開発するために不可欠なクラスをインポートします
- Parser クラスのインスタンスを作成し、ソース PDF ファイルをそのコンストラクターに渡します
- getMetadata メソッドを呼び出して、PDF ドキュメント メタデータ オブジェクトのコレクションを取得します。
- 最後に、コレクションを反復処理し、メタデータの名前と値を表示します
Java を使用して PDF メタデータを取得するための段階的な手順をリストしました。 PDF ドキュメントからメタデータを抽出するには、これらのポイントを順番に実行する必要があり、追加のソフトウェアをセットアップする必要はありません。これらの手順は、MS Windows、Linux、および Mac OS を含む任意のオペレーティング システムで使用できます。
Java を使用して PDF からメタデータを抽出するコード
上記の例では、Java PDF メタデータ 機能を開発しました。ご覧のとおり、Parser クラスは、入力 PDF ドキュメントをロードしてメタデータを取得するために使用されます。その後、メタデータを収集するために getMetadata メソッドを呼び出し、それを繰り返し処理してメタデータの名前と値を表示しました。 DOCX、XLSX、PPTX、MSG、EML、EPUB などのさまざまなドキュメント形式からメタデータを抽出することもできます。
Java で PDF からメタデータを抽出する詳細な手順について説明しました。最近、Java での Word 文書からのメタデータの抽出に関する記事を公開しました。詳細については、Javaを使用してWord文書からメタデータを抽出する方法 ガイドをご覧ください。