Ժամանակակից թվային լանդշաֆտում Java ծրագրավորման միջոցով PDF փաստաթղթերից տեքստ հանելու հնարավորությունը միանշանակ ձեռնտու է: Անկախ նրանից, թե դուք ավտոմատացնում եք տվյալների որոնումը, իրականացնում եք որոնման գործառույթներ կամ իրականացնում եք տեքստային վերլուծություն, PDF-ը ծրագրային կերպով մանիպուլյացիայի ենթարկելու ունակությունը կարող է զգալիորեն բարելավել ձեր աշխատանքային հոսքերը և բարձրացնել արտադրողականությունը: Այս ուղեցույցում մենք ձեզ կառաջնորդենք հիմնարար քայլերով ** PDF-ից տեքստ հանելու Java-ի միջոցով**: Դուք կարող եք օգտագործել Viewer գրադարանի հնարավորությունները՝ արդյունավետորեն ** PDF-ից տեքստ հանելու Java-ից**՝ հետևելով ստորև նշված քայլերին:
Java-ի միջոցով PDF-ից տեքստ հանելու քայլեր
- Տեղադրեք GroupDocs.Viewer for Java՝ օգտագործելով Maven պահոցը՝ PDF տեքստը կարդալու համար
- PDF տեքստ հանելու համար ձեր նախագծում ավելացրեք GroupDocs.Viewer հղումը
- Ստուգեք Viewer դասի օբյեկտը՝ օգտագործելով մուտքագրված PDF ֆայլի ուղին դրա կոնստրուկտորում
- Դիտման մասին տեղեկություններ ստանալու համար զանգահարեք ViewInfoOptions.forHtmlView մեթոդին
- ViewInfoOptions.extractText հատկության արժեքը սահմանեք true՝ PDF տեքստի արդյունահանումը միացնելու համար:
- PDF էջերի ամբողջ ցանկը ստանալու համար օգտագործեք PdfViewInfo.Pages հատկությունը
- Կրկնեք յուրաքանչյուր էջի տողերի հավաքածուն՝ օգտագործելով Page.Lines հատկությունը՝ յուրաքանչյուր տողի տեքստը կարդալու համար
Java-ի միջոցով PDF ֆայլերից տեքստ հանելու գիտելիքներ ձեռք բերելը ձեզ հնարավորություն է տալիս օգտագործել PDF փաստաթղթերում ներառված արժեքավոր տեղեկատվությունը: Անկախ նրանից, թե դուք զբաղվում եք տվյալների վրա հիմնված նախագծերով, փաստաթղթերի մշակմամբ կամ բիզնեսի աշխատանքային հոսքերի պարզեցմամբ, այս փորձաքննությունն ապացուցում է, որ արժեքավոր ակտիվ է: Java-ի արդյունահանման տվյալների PDF-ից մեթոդի ներդրումը պարզ խնդիր է, և այն համատեղելի է տարածված օպերացիոն համակարգերի հետ, ինչպիսիք են Windows-ը, macOS-ը և Linux-ը, պայմանով, որ ձեր սարքում Java-ն տեղադրված է: Ստորև բերված ուղեկցող կոդի օրինակը ցույց է տալիս Java-ի միջոցով PDF ֆայլից տեքստ հանելու գործընթացը:
Կոդ՝ Java-ի միջոցով PDF-ից տեքստ հանելու համար
import com.groupdocs.viewer.License; | |
import com.groupdocs.viewer.Viewer; | |
import com.groupdocs.viewer.options.ViewInfoOptions; | |
import com.groupdocs.viewer.results.Line; | |
import com.groupdocs.viewer.results.Page; | |
import com.groupdocs.viewer.results.PdfViewInfo; | |
public class ExtractTextfromPDFUsingJava { | |
public static void main(String[] args) throws Exception { | |
// Set License to avoid the limitations of Viewer library | |
License license = new License(); | |
license.setLicense("GroupDocs.Viewer.lic"); | |
Viewer viewer = new Viewer("input.pdf"); | |
ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView(); | |
viewInfoOptions.setExtractText(true); | |
PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions); | |
// Retrieve text from the PDF file. | |
System.out.println("Extracted document text:"); | |
for (Page page : viewInfo.getPages()) { | |
for (Line line : page.getLines()) { | |
System.out.println(line.getValue()); | |
} | |
} | |
} | |
} |
Այս ձեռնարկում մենք լուսաբանել ենք Java ստանալ տեքստ PDF-ից ամբողջական գործընթացը: Դուք կարող եք անխափան կիրառել տեքստի արդյունահանման այս գործընթացը մի շարք ծրագրերի համար՝ հետևելով վերը նշված քայլերին: Երբ դուք հմտորեն տեղադրեք առաջարկվող գրադարանը և կատարեք անհրաժեշտ ճշգրտումներ ֆայլերի ուղիներում, տեքստի արդյունահանման կոդը ձեր նախագծերում ինտեգրելը դառնում է պարզ և անփորձանք խնդիր:
Մեր ավելի վաղ ձեռնարկում մենք կենտրոնացել էինք PDF-ը PNG-ի փոխարկելու թեմայի վրա: Եթե Ձեզ անհրաժեշտ է լրացուցիչ ուղեցույց, խորհուրդ ենք տալիս ծանոթանալ մեր հոդվածին, թե ինչպես անել PDF-ը ներկայացնել որպես PNG՝ օգտագործելով Java: