Đọc siêu dữ liệu từ DOCX bằng Java

Trong kỷ nguyên hiện đại của công nghệ kỹ thuật số, việc khám phá những thông tin bị che giấu trong tài liệu là rất quan trọng để quản lý và phân tích tài liệu hiệu quả. Siêu dữ liệu tài liệu, bao gồm các chi tiết như quyền tác giả, ngày tạo và lịch sử sửa đổi, cung cấp những hiểu biết sâu sắc có giá trị về nguồn gốc và sự phát triển của tài liệu. Bài viết này đi sâu vào quy trình cách đọc siêu dữ liệu từ DOCX bằng Java, tận dụng thư viện Siêu dữ liệu. Điều này cho phép các nhà phát triển nghiên cứu sâu hơn về kho tài liệu của họ và cải thiện quy trình xử lý tài liệu của họ. Dưới đây là các bước thiết yếu và ví dụ về mã minh họa cách đọc siêu dữ liệu của DOCX bằng Java.

Các bước để đọc siêu dữ liệu từ DOCX bằng Java

  1. Định cấu hình IDE của bạn để sử dụng GroupDocs.Metadata for Java nhằm trích xuất siêu dữ liệu DOCX
  2. Khởi tạo lớp Metadata, chuyển đường dẫn tệp DOCX làm đối số cho hàm tạo
  3. Tạo điều kiện hoặc quy tắc để kiểm tra tất cả thuộc tính siêu dữ liệu
  4. Chỉ định một vị từ cho phương thức Metadata.findProperties
  5. Lặp lại các thuộc tính được truy xuất

Việc trích xuất siêu dữ liệu từ tệp DOCX mang đến cho các nhà phát triển nhiều cơ hội, cho dù đó là tự động hóa việc phân loại tài liệu, triển khai các tính năng tìm kiếm trong kho tài liệu hay đảm bảo sự tuân thủ của tổ chức. Làm theo hướng dẫn được cung cấp sẽ tương thích với các hệ điều hành phổ biến như Windows, macOS và Linux, giả sử Java đã được cài đặt. Quá trình này không yêu cầu cài đặt phần mềm bổ sung để trích xuất siêu dữ liệu của DOCX trong Java. Sau khi thiết lập thư viện được đề xuất và điều chỉnh đường dẫn tệp, việc tích hợp mã sau vào dự án của bạn sẽ đơn giản và không gặp sự cố.

Mã để đọc siêu dữ liệu từ DOCX bằng Java

import com.groupdocs.metadata.Metadata;
import com.groupdocs.metadata.core.FileFormat;
import com.groupdocs.metadata.core.IReadOnlyList;
import com.groupdocs.metadata.core.MetadataProperty;
import com.groupdocs.metadata.core.MetadataPropertyType;
import com.groupdocs.metadata.licensing.License;
import com.groupdocs.metadata.search.FallsIntoCategorySpecification;
import com.groupdocs.metadata.search.OfTypeSpecification;
import com.groupdocs.metadata.search.Specification;
import com.groupdocs.metadata.tagging.Tags;
import java.util.Calendar;
import java.util.Date;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ReadMetadataFromDOCXUsingJava {
public static void main(String[] args) {
// Set License to avoid the limitations of Metadata library
License license = new License();
Metadata metadata = new Metadata("input.docx");
if (metadata.getFileFormat() != FileFormat.Unknown && !metadata.getDocumentInfo().isEncrypted()) {
// Fetch all metadata properties that fall into a particular category
IReadOnlyList<MetadataProperty> properties = metadata.findProperties(new FallsIntoCategorySpecification(Tags.getContent()));
System.out.println("The metadata properties describing some characteristics of the file content: title, keywords, language, etc.");
for (MetadataProperty property : properties) {
System.out.println(String.format("Property name: %s, Property value: %s", property.getName(), property.getValue()));
// Fetch all properties having a specific type and value
int year = Calendar.getInstance().get(Calendar.YEAR);
properties = metadata.findProperties(new OfTypeSpecification(MetadataPropertyType.DateTime).and(new ReadMetadataFromDOCXUsingJava().new YearMatchSpecification(year)));
System.out.println("All datetime properties with the year value equal to the current year");
for (MetadataProperty property : properties) {
System.out.println(String.format("Property name: %s, Property value: %s", property.getName(), property.getValue()));
// Fetch all properties whose names match the specified regex
Pattern pattern = Pattern.compile("^author|company|(.+date.*)$", Pattern.CASE_INSENSITIVE);
properties = metadata.findProperties(new ReadMetadataFromDOCXUsingJava().new RegexSpecification(pattern));
System.out.println(String.format("All properties whose names match the following regex: %s", pattern.pattern()));
for (MetadataProperty property : properties) {
System.out.println(String.format("Property name: %s, Property value: %s", property.getName(), property.getValue()));
// Define your own specifications to filter metadata properties
public class YearMatchSpecification extends Specification {
public YearMatchSpecification(int year) {
public final int getValue() {
return auto_Value;
private void setValue(int value) {
auto_Value = value;
private int auto_Value;
public boolean isSatisfiedBy(MetadataProperty candidate) {
Date date = candidate.getValue().toClass(Date.class);
if (date != null) {
Calendar calendar = Calendar.getInstance();
return getValue() == calendar.get(Calendar.YEAR);
return false;
public class RegexSpecification extends Specification {
private Pattern pattern;
public RegexSpecification(Pattern pattern) {
this.pattern = pattern;
public boolean isSatisfiedBy(MetadataProperty metadataProperty) {
Matcher matcher = pattern.matcher(metadataProperty.getName());
return matcher.find();

Tóm lại, khả năng đọc siêu dữ liệu từ tệp DOCX mang lại cho nhà phát triển những hiểu biết sâu sắc có giá trị về thư viện tài liệu của họ. Bằng cách làm theo các bước được nêu chi tiết trong bài viết này và sử dụng mã ví dụ được cung cấp, bạn có thể dễ dàng lấy siêu dữ liệu của DOCX trong Java, giúp cải thiện khả năng tổ chức, phân tích và quản lý tài liệu của bạn. Khám phá các thuộc tính siêu dữ liệu khác nhau và đi sâu vào thư viện để nâng cao khả năng xử lý tài liệu của bạn trong Java. Làm tốt! Bây giờ bạn đã thành thạo kỹ năng trích xuất siêu dữ liệu DOCX bằng Java.

Trong cuộc thảo luận trước, chúng tôi đã cung cấp hướng dẫn toàn diện về cách truy cập chi tiết tài liệu bằng Java. Để hiểu sâu hơn về chủ đề này, chúng tôi khuyên bạn nên tham khảo hướng dẫn chi tiết của chúng tôi về cách lấy thông tin tài liệu bằng Java.

 Tiếng Việt