PDF konvertálása szöveggé a Node.js használatával

A szöveg kinyerése a PDF webhelyről számos alkalmazáshoz elengedhetetlen, például adatelemzés, tartalomindexelés és szövegfeldolgozás. A PDF-eket széles körben használják dokumentumok tárolására, de az olvasható szöveg kézi kinyerése belőlük időigényes és nem hatékony. Szerencsére a Node.js segítségével ezt a folyamatot automatizálhatjuk, és hatékonyan kivonhatjuk a szöveget egy megbízható dokumentumkonverziós könyvtár segítségével. Egy egyszerű szkript megírásával a PDF-et szöveggé konvertálhatjuk a Node.js segítségével, megkönnyítve ezzel a különféle dokumentumok szöveges tartalmának kezelését. Ez a megközelítés különösen hasznos azoknak a vállalkozásoknak, amelyek olyan jelentésekkel, szerződésekkel vagy szkennelt dokumentumokkal foglalkoznak, amelyekhez szövegkivonat szükséges. Ebben a cikkben egy egyszerű módszert mutatunk be a PDF-exportáláshoz a Node.js-ben szöveggé, néhány kódsor használatával.

A PDF-ből szöveggé konvertálás lépései a Node.js használatával

  1. Állítsa be és integrálja a(z) GroupDocs.Conversion for Node.js Java segítségével szolgáltatást projektjébe a PDF-ből szöveggé átalakítás engedélyezéséhez
  2. Importálja a konvertáló modult az alkalmazásába a különböző fájlformátum-konverziók kezeléséhez
  3. Példányosítsa a Converter osztályt, és adja meg a fájl elérési útját a PDF-dokumentum betöltéséhez
  4. Konfigurálja a szövegkivonat konverziós beállításait, és válassza ki a TXT-t kimeneti formátumként
  5. Hívja a Converter osztály konvertáló metódusát a PDF feldolgozásához és egy szövegfájl előállításához

Az alábbi kód először inicializálja a konverziós könyvtárat, és betölti a PDF-fájlt. Ezután a WordProcessingConvertOptions segítségével egyszerű szövegként határozza meg a kimeneti formátumot, biztosítva, hogy az összes olvasható szöveg kibontásra kerüljön, miközben figyelmen kívül hagyja a szükségtelen formázást. A kibontott szöveget a rendszer .txt fájlba menti, ami megkönnyíti a további feldolgozást. Ez a megközelítés olyan alkalmazások számára előnyös, amelyek természetes nyelvi feldolgozást, tartalomindexelést vagy automatizált szövegelemzést igényelnek. Ezen túlmenően ez a módszer hatékony nagyméretű dokumentumok kezelésére, biztosítva a fontos szöveges adatok kézi beavatkozás nélkül történő megőrzését. A következő szkript bemutatja, hogyan lehet minimális erőfeszítéssel szöveget generálni PDF-ből Node.js-ben.

Kód a PDF-nek szöveggé konvertálásához a Node.js használatával

const conversion = require('@groupdocs/groupdocs.conversion')
const licensePath = "GroupDocs.Search.lic";
const license = new conversion.License()
license.setLicense(licensePath);
// Load the input PDF file
const converter = new conversion.Converter("sample.pdf");
const options = new conversion.WordProcessingConvertOptions();
options.setFormat(conversion.WordProcessingFileType.Txt);
// Save output TXT to disk
converter.convert("output.txt", options);
process.exit(0);

Ennek a megoldásnak a munkafolyamatába való integrálása leegyszerűsíti a dokumentumfeldolgozást és növeli a termelékenységet. Lehetővé teszi a gyors és pontos szövegek kinyerését számlákból, szerződésekből és jelentésekből, mindössze néhány sornyi kóddal. A Node.js* segítségével *PDF szöveggé alakításának folyamata leegyszerűsíti az automatizálást, javítja az adatok hozzáférhetőségét és javítja a kereshetőséget. Ideális olyan iparágakban, mint a pénzügy, a jogi és az egészségügy, időt takarít meg, csökkenti a hibákat, és optimalizálja a munkafolyamatokat a zökkenőmentes dokumentumkezelés érdekében.

Korábban részletes útmutatót adtunk a PDF-nek a Node.js használatával való konvertálásához Excelbe. A lépésről lépésre történő áttekintéshez tekintse meg a konvertálja a PDF-et Excel-be a Node.js használatával részletes ismertetőjét.

 Magyar