Hogyan lehet szöveget kivonni a HTML-ből Java-ban

Röviden megvizsgáljuk, hogyan lehet kivonatolni a szöveget a HTML webhelyről Java-ban az egyik legjobb dokumentum-adatkinyerési API-t követve. Megtanulja, hogyan állíthatja be a környezetet, és hogyan alakíthatja át ezeket a lépéseket a Java kivonat szövege HTML-ből alkalmazás megvalósításához. Tekintsük át a lépésenkénti utasításokat, valamint egy mintakódrészletet, amellyel Java segítségével kivonhatjuk a szöveget a HTML-ből.

Lépések a szöveg kivonásához a HTML-ből Java nyelven

  1. Telepítse a(z) GroupDocs.Parser for Java fájlt a Java projekt Maven tárolójából, hogy szöveget vonjon ki a HTML dokumentumból
  2. Importáljon alapvető osztályokat a HTML-fájlból történő szövegkivonat funkcióinak fejlesztéséhez
  3. Inicializálja a Parser osztályt a bemeneti HTML dokumentum betöltéséhez, hogy szöveget vonjon ki belőle
  4. Hívja meg a Parser osztály getText metódusát, és szerezze be a TextReader objektumot
  5. Végül olvassa el a szöveget az olvasótól, és jelenítse meg

A fenti pontok sorrendben történő használata segít gyorsan létrehozni a extract Text from HTML Java funkciót. Az első lépés lehetővé teszi a könyvtár beállítását a Maven tárolóból, a második lépés pedig a szövegkivonáshoz szükséges osztályok importálásához vezet. A következő lépés lehetővé teszi a HTML-fájl betöltését a Parser osztály példányosításával. Ezt követően a getText metódust kell használnia a TextReader objektum összegyűjtésére, majd ki kell olvasnia a szöveget az olvasóból.

Kód a HTML-ből szöveg kivonásához Java nyelven

Az előző kódrészlet bemutatja, hogyan kell fejleszteni a get Text from HTML Java alkalmazást. Felhasználtunk néhány egyszerű API-hívást, hogy elérjük a kívánt funkciót. Ezenkívül ez a példa bármilyen operációs rendszeren végrehajtható, beleértve a Windowst, a Linuxot és a macOS-t is, további szoftverek beállítása nélkül. Sőt, ezt a mintakódrészletet adaptálhatja szövegek lekéréséhez különböző dokumentumformátumokból, például DOCX, XLSX, PPTX, PDF, EML, MSG és még sok másból.

Megbeszéltük a Java get Text from HTML képesség létrehozásának részletes folyamatát, és készítettünk hozzá egy mintakódot. A közelmúltban közzétettünk egy cikket a Word-dokumentumból Java segítségével történő szövegek kibontásáról. További információért tekintse meg a hogyan lehet szöveget kivonni a Word dokumentumból Java-ban útmutatót.

 Magyar