Hogyan lehet szöveget kivonni a Word dokumentumból Java-ban

Ebben az útmutatóban lépésről lépésre bemutatjuk a(z) Text ** Java nyelvű Word dokumentumból történő kibontásának** lépéseit. Továbbá megtudhatja, hogyan állíthatja be a szükséges könyvtárat a Maven tárolóból, és hogyan használhatja ezt a kézikönyvet a DOCX-ből Java segítségével szöveg kinyerésére szolgáló funkció létrehozására. Itt vannak a főbb pontok a dokumentumokból a szöveg és a minta kódrészlet kinyeréséhez.

Szöveg kibontásának lépései a Word dokumentumból Java nyelven

  1. Telepítse a(z) GroupDocs.Parser for Java fájlt a Java projekt Maven tárolójából, hogy szöveget kinyerhessen a Word dokumentumból
  2. Importáljon alapvető osztályokat a Word-fájlból szövegkivonat funkcióinak fejlesztéséhez
  3. Példányosítsa a Parser osztályt a bemeneti Word dokumentum betöltéséhez, hogy szöveget vonjon ki belőle
  4. Hívja meg a Parser osztály getText metódusát, és szerezze be a TextReader objektumot
  5. Végül olvassa el a szöveget az olvasótól

Felsoroltunk minden olyan pontot, amely szükséges a olvasott szöveg Word dokumentumból Java alkalmazásban történő létrehozásához. Ezek a lépések nagyon egyszerűen követhetők bármely elterjedt operációs rendszerben, beleértve a Windowst, a macOS-t és a Linuxot. Ezenkívül könnyedén felhasználhatja az API-t a dokumentumok szövegének kinyerésére anélkül, hogy további szoftvereket kellene beállítani.

Kód szöveg kivonásához a Word dokumentumból Java nyelven

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.TextReader;
import java.io.IOException;
public class ExtractTextFromWordDocumentInJava {
public static void main(String[] args) throws IOException { // Main function to extract text from Word document in Java
// Create an instance of Parser class
try (Parser parser = new Parser("sample.docx")) {
// Extract a text into the reader
try (TextReader reader = parser.getText()) {
// Print a text from the document
// If text extraction isn't supported, a reader is null
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd());
}
}
}
}

A fenti kódrészlet a Java szövegkivonó Wordből képesség megvalósítását mutatja be. Mint látható, az Parser osztályt használják a bemeneti DOCX dokumentum betöltésére elemzés céljából a könyvtár beállítása és a szükséges osztály importálása után. Ezt követően felhasználtuk a getText metódust a TextReader objektum megszerzéséhez, majd kiolvastuk a szöveget az olvasóból.

Megbeszéltük annak részletes folyamatát, hogyan lehet szöveget kivonni a Word-dokumentumból Java használatával, és elkészítettünk hozzá egy mintakódot. Nemrég közzétettünk egy cikket a Word-dokumentumból képek Java nyelven történő kibontásáról. További információért tekintse meg a hogyan lehet képeket kivonni a Word dokumentumból Java segítségével útmutatót.

 Magyar