Neste artigo de instruções, vamos nos concentrar no procedimento passo a passo para extrair texto do PowerPoint usando Java e como transformar essas instruções no desenvolvimento do aplicativo para extrair texto de PPTX em Java. Além disso, usaremos algumas chamadas de API simples da biblioteca de extração de dados de documentos para extrair o texto dos documentos. Aqui estão as principais etapas, bem como um código de exemplo para extrair texto do PowerPoint em Java.
Etapas para extrair texto do PowerPoint usando Java
- Configure o GroupDocs.Parser for Java do repositório Maven no projeto Java para extrair texto do documento do PowerPoint
- Importe classes essenciais para desenvolver a funcionalidade de extração de texto de um arquivo do PowerPoint
- Crie uma instância da classe Parser para carregar o documento de entrada do PowerPoint para extrair o texto dele
- Chame o método getText para obter o objeto TextReader
- Por fim, leia o texto do leitor e imprima-o
Listamos todos os pontos essenciais para criar o extrair texto do PPT usando Java. Essas etapas são simples de seguir para obter o texto do arquivo do PowerPoint e podem ser usadas em qualquer sistema operacional comum, como Windows, Linux e macOS. Além disso, estas instruções não requerem a configuração de nenhum software adicional para a implementação da funcionalidade.
Código para extrair texto do PowerPoint usando Java
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.licensing.License; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromPowerpointUsingJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from PowerPoint in Java | |
// Remove the watermark in output | |
License lic = new License(); | |
lic.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.pptx")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
No trecho de código anterior, desenvolvemos o aplicativo get Text from PowerPoint Java para mostrar a implementação do recurso. Para extrair texto do arquivo PPT, você precisa configurar a biblioteca necessária e incluir as classes necessárias. Depois disso, carregue o arquivo PPTX de entrada inicializando a classe Parser e use o método getText para obter a coleção TextReader. No final, você tem que imprimir o texto lendo o texto do leitor.
Discutimos o processo detalhado de como desenvolver o recurso Java get Text from PowerPoint e produzimos um código de exemplo para ele. Recentemente, publicamos um artigo sobre como extrair texto de HTML usando Java. Consulte o guia como extrair texto de HTML em Java para obter mais informações.