Как да конвертирате Word документ в текст в Java

В тази статия с инструкции ще се съсредоточим върху процедурата стъпка по стъпка за конвертиране на документ на Word в текст в Java. Можете да предоставите както DOC, така и DOCX документи за конвертиране във формат TXT. Освен това това ръководство предоставя информация за конфигуриране на средата за извършване на преобразуването и примерен работен код за приложението Java DOCX към TXT конвертор.

Стъпки за конвертиране на Word документ в текст в Java

  1. Инсталирайте GroupDocs.Conversion for Java от хранилището на Maven в проекта Java, за да приложите възможността за конвертиране на Word в TXT
  2. Импортирайте основни класове за извършване на конвертиране на документи от Word към текстов формат
  3. Създайте обект от класа Converter за зареждане на входния Word файл за трансформиране в текстовия документ
  4. Инициализирайте класа WordProcessingConvertOptions за дефиниране на параметрите за персонализиране на конвертирания текстов файл
  5. И накрая, извикайте метода Convert, за да запазите Word като текстов файл на диска

Горните точки са ясно обяснени как да конвертирате Word в текст с помощта на Java. Можете да започнете да зареждате входния файл на Word, като инициализирате класа Converter, след като инсталирате библиотеката от хранилището на Maven и импортирате основни класове. Следващата стъпка ви помага да дефинирате опциите за конвертиране за персонализиране на конвертирания текстов файл с помощта на WordProcessingConvertOption, а последната стъпка ви позволява да извършите конвертирането в определения формат и да запишете получения файл на диска.

Код за конвертиране на Word документ в текст в Java

import com.groupdocs.conversion.Converter;
import com.groupdocs.conversion.licensing.License;
import com.groupdocs.conversion.options.convert.WordProcessingConvertOptions;
import com.groupdocs.conversion.filetypes.WordProcessingFileType;
public class ConvertWordDocumentToTextInJava {
public static void main(String[] args) { // Main function to convert Word to Text in Java
// Remove the watermark in output Text document by adding license
License lic = new License();
lic.setLicense("GroupDocs.Conversion.lic");
// Load the source Word file for conversion to Text
Converter converter = new Converter("sample.docx");
// Set the convert options for TXT format
WordProcessingConvertOptions options = new WordProcessingConvertOptions();
options.setPageNumber(1);
options.setPagesCount(1);
options.setFormat(WordProcessingFileType.Txt); // Specify the conversion format
// Convert and save the DOCX in TXT format
converter.convert("converted.txt", options);
System.out.println("Done");
}
}

Разработихме приложението Java Word to TXT converter, като следвахме поетапния процес, обяснен в предишния раздел. Използвахме няколко прости извиквания на API на библиотеката за конвертиране на документи и написахме няколко реда код за извършване на трансформацията на документа. Освен това персонализирахме конвертирания файл, като дефинирахме няколко свойства с помощта на обекта WordProcessingConvertOption. Освен това можете да разширите този примерен код според вашите специфични нужди и да го изпълните на общи операционни системи като Windows, macOS и Linux.

Обсъдихме подробната процедура за това как да конвертирате документ на Word в текст с помощта на Java и създадохме примерен код за него. Наскоро публикувахме статия за конвертиране на HTML в RTF с помощта на Java, разгледайте публикацията как да конвертирате HTML в RTF в Java за повече информация.

 Български