Ovaj brzi vodič vodi vas kroz postupak ekstrahiranja teksta iz PDF u Javi. Ovaj članak pruža potpune informacije za konfiguriranje potrebne biblioteke, postupne upute za izdvajanje teksta i radni primjer za prikaz implementacije mogućnosti izdvajanja teksta iz PDF Java. Ovdje su ključni koraci i isječak koda za izdvajanje teksta iz PDF-a pomoću Jave.
Koraci za izdvajanje teksta iz PDF-a u Javi
- Instalirajte GroupDocs.Parser for Java iz repozitorija Maven u Java projektu da izdvojite tekst iz PDF dokumenta
- Uvezite osnovne klase za razvoj funkcionalnosti za izdvajanje teksta iz PDF dokumenta
- Učitajte ulazni PDF stvaranjem instance klase Parser
- Pozovite metodu getText i nabavite objekt TextReader
- Na kraju pročitajte tekst iz čitača i prikažite ga
Funkcionalnost Java ekstrakta PDF teksta može se brzo postići slijedeći gore navedene točke u nizu. Ovaj vodič se može pokrenuti instaliranjem potrebne biblioteke iz repozitorija Maven i referenciranjem potrebne klase za dobivanje teksta iz PDF dokumenta. Zatim pokrenite klasu Parser za učitavanje ulazne PDF datoteke za izdvajanje teksta i pozovite metodu getText za prikupljanje objekta TextReader. Nakon toga prikažite tekst čitajući ga iz čitača.
Kod za izdvajanje teksta iz PDF-a u Javi
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.*; | |
import java.io.IOException; | |
public class ExtractTextFromPdfInJava { | |
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.pdf")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
U prethodnom isječku demonstrirali smo kako razviti mogućnost ekstrakcije PDF teksta Java. Dovršili smo funkcionalnost za dobivanje teksta iz PDF-a s nekoliko redaka koda koji se sastoji od API poziva biblioteke za izdvajanje teksta. Ovaj primjer koda ne zahtijeva postavljanje dodatnog softvera i može se izvršiti na bilo kojoj platformi kao što su MS Windows, Linux i Mac OS.
Razgovarali smo o detaljnom procesu implementacije Java mogućnosti dobivanja teksta iz PDF-a i proizveli primjer koda za to. Nedavno smo objavili članak o izdvajanju metapodataka iz PDF-a u Javi, pogledajte kako izdvojiti metapodatke iz PDF-a pomoću Jave vodič za više informacija.