В тази статия с инструкции ще се съсредоточим върху процедурата стъпка по стъпка за извличане на текст от PowerPoint с помощта на Java и как да превърнем тези инструкции в разработването на приложението за извличане на текст от PPTX в Java. Освен това ще използваме няколко прости извиквания на API на библиотеката за извличане на данни за документи за извличане на текста от документи. Ето ключови стъпки, както и примерен код за извличане на текст от PowerPoint в Java.
Стъпки за извличане на текст от PowerPoint с помощта на Java
- Настройте GroupDocs.Parser for Java от хранилището на Maven в проекта на Java, за да извлечете текст от документа на PowerPoint
- Импортирайте основни класове за разработване на функционалността за извличане на текст от файл на PowerPoint
- Създайте екземпляр на класа Parser за зареждане на входния документ на PowerPoint, за да извлечете текст от него
- Извикайте метода getText за получаване на обекта TextReader
- Накрая прочетете текста от четеца и го отпечатайте
Изброихме всички точки, които са от съществено значение за създаването на извличане на текст от PPT с помощта на Java. Тези стъпки са лесни за изпълнение за получаване на текста от файла на PowerPoint и могат да се използват на всяка обща операционна система като Windows, Linux и macOS. Освен това, тези инструкции не изискват настройка на допълнителен софтуер за изпълнение на функционалността.
Код за извличане на текст от PowerPoint с помощта на Java
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.licensing.License; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromPowerpointUsingJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from PowerPoint in Java | |
// Remove the watermark in output | |
License lic = new License(); | |
lic.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.pptx")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
В предходния кодов фрагмент разработихме приложението get Text from PowerPoint Java, за да покажем изпълнението на функцията. За да извлечете текст от PPT файла, трябва да настроите необходимата библиотека и след това да включите необходимите класове. След това заредете входния PPTX файл, като инициализирате класа Parser и използвайте метода getText за получаване на колекцията TextReader. В крайна сметка трябва да отпечатате текста, като прочетете текста от четеца.
Обсъдихме подробния процес за това как да разработим възможността Java get Text from PowerPoint и създадохме примерен код за него. Наскоро публикувахме статия за извличане на текст от HTML с помощта на Java, вижте ръководството как да извлечете текст от HTML в Java за повече информация.