V tomto článku s návody vysvětlíme krok za krokem proces extrahování textu ze souboru Markdown v jazyce Java a sdílení ukázkového úryvku kódu, který demonstruje implementaci toho, jak získat text z Markdown pomocí Java. Pro extrakci textu nemusíte instalovat žádný jiný nástroj třetí strany a tuto příručku lze použít na kterémkoli z běžných operačních systémů včetně Windows, macOS a Linux. Níže je uveden pracovní postup a úryvek kódu pro získání textu ze souboru MD.
Kroky k extrahování textu ze souboru Markdown v Javě
- Nastavení GroupDocs.Parser for Java z úložiště Maven v aplikaci Java pro extrahování textu ze souboru Markdown
- Importujte požadované třídy pro vývoj funkcí pro extrahování textu z dokumentu Markdown
- Inicializujte třídu Parser pro načtení souboru MD, abyste z něj extrahovali text
- Chcete-li získat objekt pro čtení textu, zavolejte metodu getText
- Nakonec zavolejte metodu readToEnd čtečky a vytiskněte text na obrazovku
Aplikaci textový extraktor z MD v Javě lze rychle vytvořit provedením výše uvedených kroků v sekvenci. Pracovní postup je velmi jednoduchý a postup extrakce textu můžete inicializovat nastavením požadované knihovny a importem potřebných tříd. Poté musíte inicializovat třídu Parser pro načtení souboru MD pro získání textu z něj. Poslední dva kroky vám umožní získat text ze vstupního dokumentu a poté jej vytisknout na obrazovku.
Kód pro extrahování textu ze souboru Markdown v Javě
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.licensing.License; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromMarkdownFileInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from Markdown in Java | |
// Remove the watermark in output | |
License lic = new License(); | |
lic.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.md")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
V předchozím úryvku kódu jsme vyvinuli funkci pro extrahování textu ze souboru Markdown pomocí Javy s pomocí pracovního postupu definovaného v předchozí části. Toto je funkční kód a můžete jej použít ve svých aplikacích pro extrakci textu, můžete jej však dále vylepšit podle svých požadavků. Tento příklad můžete navíc upravit pro načítání textu z jiných formátů dokumentů, jako jsou DOC, DOCX, PDF, XLSX, XML, HTML a mnoho dalších.
Probrali jsme podrobný proces, jak získat text z Markdown v Javě, a vyvinuli jsme pro něj ukázkový kód. Nedávno jsme publikovali článek o extrahování obrázků z PowerPointu pomocí Javy. Další informace naleznete v průvodci jak extrahovat obrázky z PowerPointu v Javě.