Jak extrahovat text ze souboru Markdown v Javě

V tomto článku s návody vysvětlíme krok za krokem proces extrahování textu ze souboru Markdown v jazyce Java a sdílení ukázkového úryvku kódu, který demonstruje implementaci toho, jak získat text z Markdown pomocí Java. Pro extrakci textu nemusíte instalovat žádný jiný nástroj třetí strany a tuto příručku lze použít na kterémkoli z běžných operačních systémů včetně Windows, macOS a Linux. Níže je uveden pracovní postup a úryvek kódu pro získání textu ze souboru MD.

Kroky k extrahování textu ze souboru Markdown v Javě

  1. Nastavení GroupDocs.Parser for Java z úložiště Maven v aplikaci Java pro extrahování textu ze souboru Markdown
  2. Importujte požadované třídy pro vývoj funkcí pro extrahování textu z dokumentu Markdown
  3. Inicializujte třídu Parser pro načtení souboru MD, abyste z něj extrahovali text
  4. Chcete-li získat objekt pro čtení textu, zavolejte metodu getText
  5. Nakonec zavolejte metodu readToEnd čtečky a vytiskněte text na obrazovku

Aplikaci textový extraktor z MD v Javě lze rychle vytvořit provedením výše uvedených kroků v sekvenci. Pracovní postup je velmi jednoduchý a postup extrakce textu můžete inicializovat nastavením požadované knihovny a importem potřebných tříd. Poté musíte inicializovat třídu Parser pro načtení souboru MD pro získání textu z něj. Poslední dva kroky vám umožní získat text ze vstupního dokumentu a poté jej vytisknout na obrazovku.

Kód pro extrahování textu ze souboru Markdown v Javě

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.licensing.License;
import com.groupdocs.parser.data.TextReader;
import java.io.IOException;
public class ExtractTextFromMarkdownFileInJava {
public static void main(String[] args) throws IOException { // Main function to extract text from Markdown in Java
// Remove the watermark in output
License lic = new License();
lic.setLicense("GroupDocs.Parser.lic");
// Create an instance of Parser class
try (Parser parser = new Parser("sample.md")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

V předchozím úryvku kódu jsme vyvinuli funkci pro extrahování textu ze souboru Markdown pomocí Javy s pomocí pracovního postupu definovaného v předchozí části. Toto je funkční kód a můžete jej použít ve svých aplikacích pro extrakci textu, můžete jej však dále vylepšit podle svých požadavků. Tento příklad můžete navíc upravit pro načítání textu z jiných formátů dokumentů, jako jsou DOC, DOCX, PDF, XLSX, XML, HTML a mnoho dalších.

Probrali jsme podrobný proces, jak získat text z Markdown v Javě, a vyvinuli jsme pro něj ukázkový kód. Nedávno jsme publikovali článek o extrahování obrázků z PowerPointu pomocí Javy. Další informace naleznete v průvodci jak extrahovat obrázky z PowerPointu v Javě.

 Čeština