V tomto článku s návody se zaměříme na postup, jak krok za krokem extrahovat text z PowerPointu pomocí Javy a jak tyto pokyny převést na vývoj aplikace pro extrahování textu z PPTX v Javě. Dále použijeme několik jednoduchých volání API knihovny pro extrakci dat dokumentu pro extrakci textu z dokumentů. Zde jsou klíčové kroky a také ukázkový kód pro extrahování textu z PowerPointu v Javě.
Kroky k extrahování textu z PowerPointu pomocí Java
- Nastavte GroupDocs.Parser for Java z úložiště Maven v projektu Java pro extrahování textu z dokumentu PowerPoint
- Importujte základní třídy pro vývoj funkcí pro extrahování textu ze souboru PowerPoint
- Vytvořte instanci třídy Parser pro načtení vstupního dokumentu PowerPoint a extrahujte z něj text
- Zavolejte metodu getText pro získání objektu TextReader
- Nakonec si přečtěte text ze čtečky a vytiskněte jej
Uvedli jsme všechny body, které jsou nezbytné pro vytvoření extrakce textu z PPT pomocí Java. Tyto kroky jsou jednoduché pro získání textu ze souboru PowerPoint a lze je použít v jakémkoli běžném operačním systému, jako je Windows, Linux a macOS. Dále tyto pokyny nevyžadují nastavení žádného dalšího softwaru pro implementaci funkce.
Kód pro extrahování textu z PowerPointu pomocí Java
| import com.groupdocs.parser.Parser; | |
| import com.groupdocs.parser.licensing.License; | |
| import com.groupdocs.parser.data.TextReader; | |
| import java.io.IOException; | |
| public class ExtractTextFromPowerpointUsingJava { | |
| public static void main(String[] args) throws IOException { // Main function to extract text from PowerPoint in Java | |
| // Remove the watermark in output | |
| License lic = new License(); | |
| lic.setLicense("GroupDocs.Parser.lic"); | |
| // Create an instance of Parser class | |
| try (Parser parser = new Parser("sample.pptx")) { | |
| // Extract a text into the reader | |
| try (TextReader reader = parser.getText()) { | |
| // Print a text from the document | |
| // If text extraction isn't supported, a reader is null | |
| System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
| } | |
| } | |
| } | |
| } |
V předchozím úryvku kódu jsme vyvinuli aplikaci get Text from PowerPoint Java, která ukazuje implementaci této funkce. Chcete-li extrahovat text ze souboru PPT, musíte nastavit požadovanou knihovnu a poté zahrnout potřebné třídy. Poté načtěte vstupní soubor PPTX inicializací třídy Parser a použijte metodu getText pro získání kolekce TextReader. Nakonec musíte text vytisknout čtením textu ze čtečky.
Probrali jsme podrobný proces, jak vyvinout funkci Java get Text from PowerPoint, a vytvořili jsme pro ni ukázkový kód. Nedávno jsme publikovali článek o extrahování textu z HTML pomocí Javy. Další informace naleznete v průvodci jak extrahovat text z HTML v Javě.