В этой практической статье мы объясним пошаговый процесс извлечения текста из Markdown файла на Java и поделимся фрагментом примера кода, чтобы продемонстрировать реализацию того, как получить текст. из Markdown с использованием Java. Вам не нужно устанавливать какой-либо другой сторонний инструмент для извлечения текста, и этому руководству можно следовать в любой из распространенных операционных систем, включая Windows, macOS и Linux. Ниже приведен рабочий процесс и фрагмент кода для получения текста из файла MD.
Шаги по извлечению текста из файла Markdown в Java
- Настройте GroupDocs.Parser for Java из репозитория Maven в приложении Java для извлечения текста из файла Markdown.
- Импорт необходимых классов для разработки функционала извлечения текста из документа Markdown
- Инициализируйте класс Parser для загрузки файла MD, чтобы извлечь из него текст.
- Вызовите метод getText, чтобы получить объект чтения текста.
- Наконец, вызовите метод readToEnd читалки и напечатайте текст на экране.
- Приложение для извлечения текста из MD в Java * можно быстро создать, выполнив описанные выше шаги в последовательности. Рабочий процесс очень прост, и вы можете инициализировать процедуру извлечения текста, настроив необходимую библиотеку и импортировав необходимые классы. После этого необходимо инициализировать класс Parser для загрузки MD-файла для получения из него текста. Последние два шага позволяют вам получить текст из входного документа, а затем распечатать его на экране.
Код для извлечения текста из файла Markdown в Java
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.licensing.License; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromMarkdownFileInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from Markdown in Java | |
// Remove the watermark in output | |
License lic = new License(); | |
lic.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.md")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
В предыдущем фрагменте кода мы разработали функцию извлечения текста из файла Markdown с помощью Java с помощью рабочего процесса, определенного в предыдущем разделе. Это рабочий код, и вы можете использовать его в своих приложениях для извлечения текста, однако вы можете дополнительно улучшить его в соответствии со своими требованиями. Кроме того, вы можете изменить этот пример для извлечения текста из других форматов документов, таких как DOC, DOCX, PDF, XLSX, XML, HTML и многих других.
Мы подробно обсудили процесс получения текста из Markdown в Java и разработали для него пример кода. Недавно мы опубликовали статью об извлечении изображений из PowerPoint с помощью Java. Дополнительные сведения см. в руководстве как извлечь изображения из PowerPoint в Java.