Tento rychlý průvodce vás provede postupem extrahování textu z PDF v Javě. Tento článek poskytuje úplné informace pro konfiguraci požadované knihovny, postupné pokyny pro extrahování textu a pracovní příklad, který ukazuje implementaci schopnosti extrahovat text z PDF Java. Zde jsou klíčové kroky a úryvek kódu pro extrahování textu z PDF pomocí Java.
Kroky k extrahování textu z PDF v Javě
- Chcete-li extrahovat text z dokumentu PDF, nainstalujte GroupDocs.Parser for Java z úložiště Maven v projektu Java
- Importujte základní třídy pro vývoj funkcí pro extrahování textu z dokumentu PDF
- Načtěte vstupní PDF vytvořením instance třídy Parser
- Zavolejte metodu getText a získejte objekt TextReader
- Nakonec si přečtěte text ze čtečky a zobrazte jej
Funkce Java Extrahovat PDF text lze rychle dosáhnout tím, že budete postupovat podle výše uvedených bodů v sekvenci. Tuto příručku lze spustit instalací požadované knihovny z úložiště Maven a odkazem na nezbytnou třídu pro získání textu z dokumentu PDF. Poté spusťte třídu Parser pro načtení vstupního souboru PDF pro extrakci textu a zavolejte metodu getText pro shromáždění objektu TextReader. Poté zobrazte text přečtením ze čtečky.
Kód pro extrahování textu z PDF v Javě
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.*; | |
import java.io.IOException; | |
public class ExtractTextFromPdfInJava { | |
public static void main(String[] args) throws IOException { // Main function to compare text from PDF in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.pdf")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
V předchozím úryvku jsme si ukázali, jak vyvinout schopnost extract PDF text Java. Dokončili jsme funkci získání textu z PDF pomocí několika řádků kódu, který se skládá z volání API knihovny pro extrakci textu. Tento ukázkový kód nevyžaduje nastavení žádného dalšího softwaru a lze jej spustit na jakékoli platformě, jako je MS Windows, Linux a Mac OS.
Probrali jsme podrobný proces implementace Java získat text z PDF a vytvořili jsme pro něj ukázkový kód. Nedávno jsme publikovali článek o extrahování metadat z PDF v Javě. Další informace naleznete v průvodci jak extrahovat metadata z PDF pomocí Java.