W tym poradniku omówimy krok po kroku procedurę wyodrębniania Text z Word dokumentu w Javie. Ponadto dowiesz się, jak skonfigurować wymaganą bibliotekę z repozytorium Maven i jak korzystać z tej instrukcji, aby stworzyć funkcjonalność wyodrębniania tekstu z DOCX przy użyciu Javy. Oto główne punkty wyodrębniania tekstu z dokumentów wraz z przykładowym fragmentem kodu.
Kroki, aby wyodrębnić tekst z dokumentu programu Word w Javie
- Zainstaluj GroupDocs.Parser for Java z repozytorium Maven w projekcie Java, aby wyodrębnić tekst z dokumentu Word
- Importuj podstawowe klasy do rozwijania funkcjonalności wyodrębniania tekstu z pliku Word
- Utwórz instancję klasy Parser do ładowania wejściowego dokumentu programu Word w celu wyodrębnienia z niego tekstu
- Wywołaj metodę getText klasy Parser i pobierz obiekt TextReader
- Na koniec przeczytaj tekst od czytelnika
Wymieniliśmy wszystkie punkty, które są niezbędne do stworzenia odczytu tekstu z dokumentu Word w aplikacji Java. Te kroki są bardzo proste do wykonania w dowolnym popularnym systemie operacyjnym, w tym Windows, macOS i Linux. Ponadto możesz łatwo korzystać z interfejsu API do wyodrębniania tekstu z dokumentów bez konfigurowania dodatkowego oprogramowania.
Kod do wyodrębniania tekstu z dokumentu programu Word w Javie
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromWordDocumentInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from Word document in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.docx")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
Powyższy fragment kodu przedstawia implementację funkcji wyciągu tekstu Java z programu Word. Jak widać, klasa Parser służy do załadowania wejściowego dokumentu DOCX do parsowania po skonfigurowaniu biblioteki i zaimportowaniu wymaganej klasy. Następnie wykorzystaliśmy metodę getText do uzyskania obiektu TextReader, a następnie odczytaliśmy tekst z czytnika.
Omówiliśmy szczegółowy proces wyodrębniania tekstu z dokumentu programu Word za pomocą języka Java i stworzyliśmy dla niego przykładowy kod. Niedawno opublikowaliśmy artykuł na temat wyodrębniania obrazów z dokumentu Word w Javie, zajrzyj do przewodnika jak wyodrębnić obrazy z dokumentu programu Word za pomocą języka Java, aby uzyskać więcej informacji.