A szöveg kinyerése a PDF webhelyről számos alkalmazáshoz elengedhetetlen, például adatelemzés, tartalomindexelés és szövegfeldolgozás. A PDF-eket széles körben használják dokumentumok tárolására, de az olvasható szöveg kézi kinyerése belőlük időigényes és nem hatékony. Szerencsére a Node.js segítségével ezt a folyamatot automatizálhatjuk, és hatékonyan kivonhatjuk a szöveget egy megbízható dokumentumkonverziós könyvtár segítségével. Egy egyszerű szkript megírásával a PDF-et szöveggé konvertálhatjuk a Node.js segítségével, megkönnyítve ezzel a különféle dokumentumok szöveges tartalmának kezelését. Ez a megközelítés különösen hasznos azoknak a vállalkozásoknak, amelyek olyan jelentésekkel, szerződésekkel vagy szkennelt dokumentumokkal foglalkoznak, amelyekhez szövegkivonat szükséges. Ebben a cikkben egy egyszerű módszert mutatunk be a PDF-exportáláshoz a Node.js-ben szöveggé, néhány kódsor használatával.
A PDF-ből szöveggé konvertálás lépései a Node.js használatával
- Állítsa be és integrálja a(z) GroupDocs.Conversion for Node.js Java segítségével szolgáltatást projektjébe a PDF-ből szöveggé átalakítás engedélyezéséhez
- Importálja a konvertáló modult az alkalmazásába a különböző fájlformátum-konverziók kezeléséhez
- Példányosítsa a Converter osztályt, és adja meg a fájl elérési útját a PDF-dokumentum betöltéséhez
- Konfigurálja a szövegkivonat konverziós beállításait, és válassza ki a TXT-t kimeneti formátumként
- Hívja a Converter osztály konvertáló metódusát a PDF feldolgozásához és egy szövegfájl előállításához
Az alábbi kód először inicializálja a konverziós könyvtárat, és betölti a PDF-fájlt. Ezután a WordProcessingConvertOptions segítségével egyszerű szövegként határozza meg a kimeneti formátumot, biztosítva, hogy az összes olvasható szöveg kibontásra kerüljön, miközben figyelmen kívül hagyja a szükségtelen formázást. A kibontott szöveget a rendszer .txt fájlba menti, ami megkönnyíti a további feldolgozást. Ez a megközelítés olyan alkalmazások számára előnyös, amelyek természetes nyelvi feldolgozást, tartalomindexelést vagy automatizált szövegelemzést igényelnek. Ezen túlmenően ez a módszer hatékony nagyméretű dokumentumok kezelésére, biztosítva a fontos szöveges adatok kézi beavatkozás nélkül történő megőrzését. A következő szkript bemutatja, hogyan lehet minimális erőfeszítéssel szöveget generálni PDF-ből Node.js-ben.
Kód a PDF-nek szöveggé konvertálásához a Node.js használatával
const conversion = require('@groupdocs/groupdocs.conversion') | |
const licensePath = "GroupDocs.Search.lic"; | |
const license = new conversion.License() | |
license.setLicense(licensePath); | |
// Load the input PDF file | |
const converter = new conversion.Converter("sample.pdf"); | |
const options = new conversion.WordProcessingConvertOptions(); | |
options.setFormat(conversion.WordProcessingFileType.Txt); | |
// Save output TXT to disk | |
converter.convert("output.txt", options); | |
process.exit(0); |
Ennek a megoldásnak a munkafolyamatába való integrálása leegyszerűsíti a dokumentumfeldolgozást és növeli a termelékenységet. Lehetővé teszi a gyors és pontos szövegek kinyerését számlákból, szerződésekből és jelentésekből, mindössze néhány sornyi kóddal. A Node.js* segítségével *PDF szöveggé alakításának folyamata leegyszerűsíti az automatizálást, javítja az adatok hozzáférhetőségét és javítja a kereshetőséget. Ideális olyan iparágakban, mint a pénzügy, a jogi és az egészségügy, időt takarít meg, csökkenti a hibákat, és optimalizálja a munkafolyamatokat a zökkenőmentes dokumentumkezelés érdekében.
Korábban részletes útmutatót adtunk a PDF-nek a Node.js használatával való konvertálásához Excelbe. A lépésről lépésre történő áttekintéshez tekintse meg a konvertálja a PDF-et Excel-be a Node.js használatával részletes ismertetőjét.