W tym artykule instruktażowym wyjaśnimy krok po kroku proces wyodrębniania tekstu z pliku Markdown w Javie i udostępnimy przykładowy fragment kodu, aby zademonstrować implementację sposobu pobierania tekstu z Markdown przy użyciu Javy. Nie musisz instalować żadnego innego narzędzia innej firmy do wyodrębniania tekstu, a z tego przewodnika można korzystać w dowolnym popularnym systemie operacyjnym, w tym Windows, macOS i Linux. Poniżej znajduje się przepływ pracy i fragment kodu do pobierania tekstu z pliku MD.
Kroki, aby wyodrębnić tekst z pliku Markdown w Javie
- Skonfiguruj GroupDocs.Parser for Java z repozytorium Maven w aplikacji Java, aby wyodrębnić tekst z pliku Markdown
- Importuj wymagane klasy do rozwijania funkcjonalności wyodrębniania tekstu z dokumentu Markdown
- Zainicjuj klasę Parser do ładowania pliku MD w celu wyodrębnienia z niego tekstu
- Wywołaj metodę getText, aby uzyskać obiekt czytnika tekstu
- Na koniec wywołaj metodę readToEnd czytnika i wydrukuj tekst na ekranie
Ekstraktor tekstu z aplikacji MD w Javie można szybko utworzyć, wykonując kolejno powyższe kroki. Przepływ pracy jest bardzo prosty i możesz zainicjować procedurę wyodrębniania tekstu, konfigurując wymaganą bibliotekę i importując niezbędne klasy. Następnie musisz zainicjować klasę Parser w celu załadowania pliku MD w celu uzyskania z niego tekstu. Ostatnie dwa kroki umożliwiają pobranie tekstu z dokumentu wejściowego, a następnie wydrukowanie go na ekranie.
Kod do wyodrębnienia tekstu z pliku Markdown w Javie
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.licensing.License; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromMarkdownFileInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from Markdown in Java | |
// Remove the watermark in output | |
License lic = new License(); | |
lic.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.md")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
W powyższym fragmencie kodu opracowaliśmy funkcję wyodrębniania tekstu z pliku Markdown przy użyciu języka Java za pomocą przepływu pracy zdefiniowanego we wcześniejszej sekcji. To jest działający kod i możesz go używać w swoich aplikacjach do wyodrębniania tekstu, jednak możesz go dalej ulepszać zgodnie z własnymi wymaganiami. Dodatkowo możesz zmodyfikować ten przykład, aby pobierać tekst z innych formatów dokumentów, takich jak DOC, DOCX, PDF, XLSX, XML, HTML i wiele innych.
Omówiliśmy szczegółowy proces uzyskiwania tekstu z Markdown w Javie i opracowaliśmy przykładowy kod. Niedawno opublikowaliśmy artykuł na temat wyodrębniania obrazów z programu PowerPoint przy użyciu języka Java. Zajrzyj do przewodnika jak wyodrębnić obrazy z programu PowerPoint w Javie, aby uzyskać więcej informacji.