Как извлечь текст из файла Markdown в Java

В этой практической статье мы объясним пошаговый процесс извлечения текста из Markdown файла на Java и поделимся фрагментом примера кода, чтобы продемонстрировать реализацию того, как получить текст. из Markdown с использованием Java. Вам не нужно устанавливать какой-либо другой сторонний инструмент для извлечения текста, и этому руководству можно следовать в любой из распространенных операционных систем, включая Windows, macOS и Linux. Ниже приведен рабочий процесс и фрагмент кода для получения текста из файла MD.

Шаги по извлечению текста из файла Markdown в Java

  1. Настройте GroupDocs.Parser for Java из репозитория Maven в приложении Java для извлечения текста из файла Markdown.
  2. Импорт необходимых классов для разработки функционала извлечения текста из документа Markdown
  3. Инициализируйте класс Parser для загрузки файла MD, чтобы извлечь из него текст.
  4. Вызовите метод getText, чтобы получить объект чтения текста.
  5. Наконец, вызовите метод readToEnd читалки и напечатайте текст на экране.
  • Приложение для извлечения текста из MD в Java * можно быстро создать, выполнив описанные выше шаги в последовательности. Рабочий процесс очень прост, и вы можете инициализировать процедуру извлечения текста, настроив необходимую библиотеку и импортировав необходимые классы. После этого необходимо инициализировать класс Parser для загрузки MD-файла для получения из него текста. Последние два шага позволяют вам получить текст из входного документа, а затем распечатать его на экране.

Код для извлечения текста из файла Markdown в Java

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.licensing.License;
import com.groupdocs.parser.data.TextReader;
import java.io.IOException;
public class ExtractTextFromMarkdownFileInJava {
public static void main(String[] args) throws IOException { // Main function to extract text from Markdown in Java
// Remove the watermark in output
License lic = new License();
lic.setLicense("GroupDocs.Parser.lic");
// Create an instance of Parser class
try (Parser parser = new Parser("sample.md")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

В предыдущем фрагменте кода мы разработали функцию извлечения текста из файла Markdown с помощью Java с помощью рабочего процесса, определенного в предыдущем разделе. Это рабочий код, и вы можете использовать его в своих приложениях для извлечения текста, однако вы можете дополнительно улучшить его в соответствии со своими требованиями. Кроме того, вы можете изменить этот пример для извлечения текста из других форматов документов, таких как DOC, DOCX, PDF, XLSX, XML, HTML и многих других.

Мы подробно обсудили процесс получения текста из Markdown в Java и разработали для него пример кода. Недавно мы опубликовали статью об извлечении изображений из PowerPoint с помощью Java. Дополнительные сведения см. в руководстве как извлечь изображения из PowerPoint в Java.

 Русский