Node.js'yi kullanarak PDF'yi Metne dönüştürün

PDF kaynağından metin çıkarmak; veri analizi, içerik dizine ekleme ve metin işleme gibi birçok uygulama için gereklidir. PDF’ler belge depolamak için yaygın olarak kullanılır, ancak bunlardan okunabilir metinlerin manuel olarak çıkarılması zaman alıcı ve verimsiz olabilir. Neyse ki Node.js ile bu süreci otomatikleştirebiliyor ve güvenilir bir belge dönüştürme kitaplığı kullanarak metni verimli bir şekilde çıkarabiliyoruz. Basit bir komut dosyası yazarak Node.js kullanarak PDF’yi Metne dönüştürebiliriz, böylece çeşitli belgelerdeki metin içeriğini yönetmeyi kolaylaştırırız. Bu yaklaşım özellikle metin çıkarma gerektiren raporlar, sözleşmeler veya taranmış belgelerle uğraşan işletmeler için kullanışlıdır. Bu makalede, birkaç satır kod kullanarak Node.js’de PDF’yi Metne dışa aktarmanın kolay bir yöntemini anlatacağız.

Node.js kullanarak PDF’yi Metne Dönüştürme Adımları

  1. PDF’den Metne dönüştürmeyi etkinleştirmek için Java aracılığıyla Node.js için GroupDocs.Conversion uygulamasını kurup projenize entegre edin
  2. Çeşitli dosya formatı dönüşümlerini yönetmek için dönüştürme modülünü uygulamanıza aktarın
  3. Converter sınıfını örnekleyin ve PDF belgesini yüklemek için dosya yolunu sağlayın
  4. Metin çıkarma için dönüştürme ayarlarını yapılandırın ve çıktı formatı olarak TXT’yi seçin
  5. PDF’yi işlemek ve bir metin dosyası oluşturmak için Converter sınıfının dönüştürme yöntemini çağırın

Aşağıdaki kod önce dönüştürme kitaplığını başlatır ve PDF dosyasını yükler. Daha sonra, WordProcessingConvertOptions’ı kullanarak çıktı formatını düz metin olarak belirtir ve gereksiz formatlama göz ardı edilerek tüm okunabilir metnin çıkarılmasını sağlar. Çıkarılan metin bir .txt dosyasına kaydedilerek daha fazla işlenmesini kolaylaştırır. Bu yaklaşım, doğal dil işleme, içerik indeksleme veya otomatik metin analizi gerektiren uygulamalar için faydalıdır. Ek olarak, bu yöntem büyük belgelerin işlenmesinde etkilidir ve önemli metin verilerinin manuel müdahaleye gerek kalmadan korunmasını sağlar. Aşağıdaki komut dosyası, Node.js’de PDF’den Metnin minimum çabayla nasıl oluşturulacağını gösterir.

Node.js kullanarak PDF’yi Metne Dönüştürme Kodu

const conversion = require('@groupdocs/groupdocs.conversion')
const licensePath = "GroupDocs.Search.lic";
const license = new conversion.License()
license.setLicense(licensePath);
// Load the input PDF file
const converter = new conversion.Converter("sample.pdf");
const options = new conversion.WordProcessingConvertOptions();
options.setFormat(conversion.WordProcessingFileType.Txt);
// Save output TXT to disk
converter.convert("output.txt", options);
process.exit(0);

Bu çözümü iş akışınıza entegre etmek belge işlemeyi basitleştirir ve üretkenliği artırır. Yalnızca birkaç satır kodla faturalardan, sözleşmelerden ve raporlardan hızlı, doğru metin çıkarmayı sağlar. Node.js* kullanılarak PDF’nin Metne nasıl değiştirileceği süreci otomasyonu kolaylaştırır, veri erişilebilirliğini geliştirir ve aranabilirliği geliştirir. Finans, hukuk ve sağlık gibi sektörler için ideal olan bu ürün, zamandan tasarruf sağlar, hataları azaltır ve kusursuz belge yönetimi için iş akışlarını optimize eder.

Daha önce Node.js kullanarak PDF’yi Excel’e dönüştürme konusunda ayrıntılı bir kılavuz sunmuştuk. Adım adım açıklamalı bir kılavuz için Node.js kullanarak PDF’yi Excel’e dönüştürün işleminin nasıl yapılacağına ilişkin ayrıntılı eğitimimizi inceleyin.

 Türkçe