Šioje mokymo programoje paaiškinsime, kaip ištraukti metaduomenis iš Word dokumento naudojant Java. Šiame straipsnyje pateikiama informacija, kaip konfigūruoti metaduomenų ištraukimo biblioteką, nuoseklios instrukcijos, kaip gauti metaduomenis iš DOC arba DOCX dokumentų, ir pavyzdinis kodas, rodantis, kaip veikia Java metaduomenų Word dokumentas. Štai žingsniai ir kodas, kaip gauti metaduomenis iš Word apdorojimo dokumentų.
Veiksmai metaduomenų ištraukimui iš „Word“ dokumento naudojant „Java“.
- Įdiekite GroupDocs.Parser for Java iš Maven saugyklos Java programoje, kad ištrauktumėte metaduomenis iš Word dokumento
- Importuokite pagrindines klases, skirtas kurti metaduomenų ištraukimo iš Word funkcionalumą
- Sukurkite klasės Parser egzempliorių ir perduokite šaltinio Word failą jo konstruktoriui
- Iškvieskite metodą getMetadata ir gaukite DOCX dokumento metaduomenų objektų rinkinį
- Galiausiai naudokite for loop, kad galėtumėte kartoti rinkinį ir gauti metaduomenų pavadinimus bei reikšmes
Aukščiau pateiktuose punktuose paaiškinome kiekvieną žingsnį, kaip sukurti funkciją, kad būtų galima gauti Word metaduomenis Java. Pirmiausia turite nustatyti reikiamą metaduomenų ištraukimo biblioteką ir importuoti reikiamas klases. Kitame veiksme įkelkite įvesties Word failą inicijuodami Parser klasę metaduomenims išgauti. Paskutiniame veiksme naudokite parser klasės metodą getMetadata, kad rinktumėte Word dokumento metaduomenų objektus, tada kartokite, kad būtų rodomas metaduomenų pavadinimas ir reikšmės.
Kodas metaduomenų ištraukimui iš „Word“ dokumento naudojant „Java“.
Sukūrėme aukščiau pateiktą kodo fragmentą, kad parodytume, kaip gauti metaduomenų Word dokumentą naudojant Java funkciją. Parašėme kelias kodo eilutes ir panaudojome kelis API iškvietimus metaduomenims iš Word failo išgauti. Be to, šis kodas gali būti naudojamas bet kurioje operacinėje sistemoje, pvz., MS Windows, Linux ir Mac OS, neįdiegus jokios trečiosios šalies programinės įrangos. Be to, galite naudoti metaduomenų ištraukimo API, norėdami išgauti metaduomenis iš įvairių dokumentų formatų, tokių kaip PDF, XLSX, PPTX, MSG, EML, EPUB ir daugelis kitų.