Jak wyodrębnić tekst z pliku Markdown w Javie

W tym artykule instruktażowym wyjaśnimy krok po kroku proces wyodrębniania tekstu z pliku Markdown w Javie i udostępnimy przykładowy fragment kodu, aby zademonstrować implementację sposobu pobierania tekstu z Markdown przy użyciu Javy. Nie musisz instalować żadnego innego narzędzia innej firmy do wyodrębniania tekstu, a z tego przewodnika można korzystać w dowolnym popularnym systemie operacyjnym, w tym Windows, macOS i Linux. Poniżej znajduje się przepływ pracy i fragment kodu do pobierania tekstu z pliku MD.

Kroki, aby wyodrębnić tekst z pliku Markdown w Javie

  1. Skonfiguruj GroupDocs.Parser for Java z repozytorium Maven w aplikacji Java, aby wyodrębnić tekst z pliku Markdown
  2. Importuj wymagane klasy do rozwijania funkcjonalności wyodrębniania tekstu z dokumentu Markdown
  3. Zainicjuj klasę Parser do ładowania pliku MD w celu wyodrębnienia z niego tekstu
  4. Wywołaj metodę getText, aby uzyskać obiekt czytnika tekstu
  5. Na koniec wywołaj metodę readToEnd czytnika i wydrukuj tekst na ekranie

Ekstraktor tekstu z aplikacji MD w Javie można szybko utworzyć, wykonując kolejno powyższe kroki. Przepływ pracy jest bardzo prosty i możesz zainicjować procedurę wyodrębniania tekstu, konfigurując wymaganą bibliotekę i importując niezbędne klasy. Następnie musisz zainicjować klasę Parser w celu załadowania pliku MD w celu uzyskania z niego tekstu. Ostatnie dwa kroki umożliwiają pobranie tekstu z dokumentu wejściowego, a następnie wydrukowanie go na ekranie.

Kod do wyodrębnienia tekstu z pliku Markdown w Javie

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.licensing.License;
import com.groupdocs.parser.data.TextReader;
import java.io.IOException;
public class ExtractTextFromMarkdownFileInJava {
public static void main(String[] args) throws IOException { // Main function to extract text from Markdown in Java
// Remove the watermark in output
License lic = new License();
lic.setLicense("GroupDocs.Parser.lic");
// Create an instance of Parser class
try (Parser parser = new Parser("sample.md")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

W powyższym fragmencie kodu opracowaliśmy funkcję wyodrębniania tekstu z pliku Markdown przy użyciu języka Java za pomocą przepływu pracy zdefiniowanego we wcześniejszej sekcji. To jest działający kod i możesz go używać w swoich aplikacjach do wyodrębniania tekstu, jednak możesz go dalej ulepszać zgodnie z własnymi wymaganiami. Dodatkowo możesz zmodyfikować ten przykład, aby pobierać tekst z innych formatów dokumentów, takich jak DOC, DOCX, PDF, XLSX, XML, HTML i wiele innych.

Omówiliśmy szczegółowy proces uzyskiwania tekstu z Markdown w Javie i opracowaliśmy przykładowy kod. Niedawno opublikowaliśmy artykuł na temat wyodrębniania obrazów z programu PowerPoint przy użyciu języka Java. Zajrzyj do przewodnika jak wyodrębnić obrazy z programu PowerPoint w Javie, aby uzyskać więcej informacji.

 Polski