在这篇操作指南文章中,我们将解释从 Java 中的 Markdown 文件中提取文本的分步过程,并共享示例代码片段以演示如何获取文本的实现来自 Markdown 使用 Java。您无需安装任何其他第三方工具来提取文本,并且可以在任何常见操作系统(包括 Windows、macOS 和 Linux)上遵循本指南。下面是从 MD 文件中获取文本的工作流程和代码片段。
在 Java 中从 Markdown 文件中提取文本的步骤
- 在 Java 应用程序中从 Maven 存储库设置 GroupDocs.Parser for Java 以从 Markdown 文件中提取文本
- 导入用于开发从 Markdown 文档中提取文本的功能所需的类
- 初始化 Parser 类以加载 MD 文件以从中提取文本
- 调用getText方法获取文本阅读器对象
- 最后调用阅读器的readToEnd方法,将文字打印到屏幕上
通过按顺序执行上述步骤,可以快速创建 Java* 应用程序中来自 MD 的*文本提取器。工作流程非常简单,您可以通过设置所需的库并导入必要的类来初始化文本提取过程。之后,您必须初始化 Parser 类以加载 MD 文件以从中获取文本。最后两个步骤使您能够从输入文档中获取文本,然后将其打印在屏幕上。
在 Java 中从 Markdown 文件中提取文本的代码
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.licensing.License; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromMarkdownFileInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from Markdown in Java | |
// Remove the watermark in output | |
License lic = new License(); | |
lic.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.md")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
在前面的代码片段中,我们开发了在前面部分定义的工作流的帮助下使用 Java* 从 Markdown 文件中提取文本的功能。这是一个工作代码,您可以在您的应用程序中使用它来提取文本,但是,您可以根据您的要求进一步增强它。此外,您可以修改此示例以从其他文档格式(如 DOC、DOCX、PDF、XLSX、XML、HTML 等)中获取文本。
我们已经讨论了如何在Java中从Markdown中获取文本的详细过程,并为其开发了示例代码。最近,我们发表了一篇关于使用 Java 从 PowerPoint 中提取图像的文章,请查看 如何在 Java 中从 PowerPoint 中提取图像 指南了解更多信息。