Ինչպես հանել տեքստը PDF-ից Java-ում

Այս արագ ուղեցույցը ձեզ ուղղորդում է Java-ում PDF-ից տեքստ հանելու ընթացակարգը**: Այս հոդվածը տրամադրում է ամբողջական տեղեկատվություն պահանջվող գրադարանը կազմաձևելու համար, տեքստի արդյունահանման քայլ առ քայլ հրահանգներ և աշխատանքային օրինակ՝ ցույց տալու տեքստի քաղել PDF Java-ի հնարավորությունը: Ահա հիմնական քայլերը և կոդի հատվածը՝ Java-ի միջոցով PDF-ից տեքստ հանելու համար:

Java-ով PDF-ից տեքստ հանելու քայլեր

  1. Տեղադրեք GroupDocs.Parser for Java-ը Maven պահոցից Java նախագծում՝ PDF փաստաթղթից տեքստ հանելու համար
  2. Ներմուծեք էական դասեր՝ PDF փաստաթղթից տեքստ հանելու ֆունկցիոնալությունը զարգացնելու համար
  3. Ներբեռնեք մուտքագրված PDF-ը` ստեղծելով Parser դասի օրինակ
  4. Զանգահարեք getText մեթոդը և ստացեք TextReader օբյեկտը
  5. Ի վերջո, կարդացեք ընթերցողից տեքստ և ցուցադրեք այն

Java extract PDF text ֆունկցիոնալությունը կարելի է արագ հասնել՝ հետևելով վերը նշված կետերին հաջորդականությամբ: Այս ուղեցույցը կարելի է սկսել՝ տեղադրելով անհրաժեշտ գրադարանը Maven պահոցից և հղում կատարելով PDF փաստաթղթից տեքստը ստանալու համար անհրաժեշտ դասին: Այնուհետև սկսեք Parser դասը տեքստը հանելու համար մուտքագրված PDF ֆայլը բեռնելու համար և կանչեք getText մեթոդը TextReader օբյեկտը հավաքելու համար: Դրանից հետո ցուցադրեք տեքստը՝ կարդալով այն ընթերցողից։

Կոդ՝ Java-ով PDF-ից տեքստ հանելու համար

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.*;
import java.io.IOException;
public class ExtractTextFromPdfInJava {
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java
// Create an instance of Parser class
try (Parser parser = new Parser("sample.pdf")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

Նախորդ հատվածում մենք ցույց տվեցինք, թե ինչպես զարգացնել Extract PDF text Java հնարավորությունը: Մենք լրացրել ենք PDF-ից տեքստ ստանալու գործառույթը մի քանի տող կոդով, որը բաղկացած է տեքստի արդյունահանման գրադարանի API զանգերից: Այս օրինակելի կոդը չի պահանջում որևէ լրացուցիչ ծրագրաշարի տեղադրում և կարող է իրականացվել ցանկացած հարթակում, ինչպիսիք են MS Windows-ը, Linux-ը և Mac OS-ը:

Մենք քննարկել ենք Java-ի տեքստը PDF-ից ստացվող տեքստի ներդրման մանրամասն գործընթացը և դրա համար ստեղծել ենք օրինակելի կոդը: Վերջերս մենք հրապարակեցինք հոդված Java-ից PDF-ից մետատվյալներ հանելու մասին, լրացուցիչ տեղեկությունների համար դիտեք ինչպես հանել մետատվյալները PDF-ից Java-ի միջոցով ուղեցույցը:

 Հայերեն