Այսօրվա թվային դարաշրջանում C# ծրագրավորման լեզուներով PDF փաստաթղթերից տեքստ հանելու ունակությունը աներևակայելի արժեքավոր է: Անկախ նրանից, թե դուք ավտոմատացնում եք տվյալների արդյունահանումը, ստեղծում եք որոնման գործառույթներ կամ վերլուծում եք տեքստային բովանդակությունը, PDF ֆայլերի հետ ծրագրային կերպով աշխատելու հնարավորությունը կարող է հեշտացնել ձեր գործընթացները և բարելավել արդյունավետությունը: Այս հոդվածում մենք ձեզ կքայլենք հիմնական քայլերի միջով՝ ** PDF-ից տեքստ հանելու C#-ի միջոցով: Դուք կարող եք վերահսկել Viewer գրադարանի հզորությունը՝ անխափան ** PDF-ից տեքստ հանելու C#-ով` օգտագործելով հետևյալ քայլերը:
Քայլեր՝ տեքստը PDF-ից հանելու համար՝ օգտագործելով C#
- Տեղադրեք GroupDocs.Viewer for .NET՝ օգտագործելով NuGet փաթեթի կառավարիչը՝ PDF-ից տեքստ հանելու համար
- PDF տեքստ հանելու համար ձեր նախագծում ավելացրեք GroupDocs.Viewer հղումը
- Ստուգեք Viewer դասի օբյեկտը` օգտագործելով PDF ֆայլի ուղին դրա կոնստրուկտորում
- Զանգահարեք ViewInfoOptions.ForHtmlView մեթոդ՝ դիտման մասին տեղեկություններ ստանալու համար
- Սահմանեք ViewInfoOptions.ExtractText հատկությունը true՝ PDF տեքստի արդյունահանումը միացնելու համար
- Օգտագործեք PdfViewInfo.Pages հատկությունը՝ փաստաթղթերի էջերի ամբողջ ցանկը մուտք գործելու համար
- Կրկնեք յուրաքանչյուր էջի տողերի հավաքածուն՝ օգտագործելով Page.Lines՝ յուրաքանչյուր տողից տեքստ հանելու համար
Սովորելով, թե ինչպես հանել տեքստը PDF-ից C#-ի միջոցով, ձեզ հնարավորություն է տալիս օգտագործել PDF փաստաթղթերում պարունակվող տեղեկատվության հարուստությունը: Անկախ նրանից, թե դուք աշխատում եք տվյալների վրա հիմնված նախագծերի, փաստաթղթերի կառավարման կամ բիզնես գործընթացների ավտոմատացման վրա, այս հմտությունը արժեքավոր արժեք է: Դուք կարող եք հեշտությամբ կատարել C# տվյալների հանում PDF-ից եղանակով լայնորեն օգտագործվող օպերացիոն համակարգերում, ինչպիսիք են Windows-ը, macOS-ը և Linux-ը ձեր համակարգում .NET-ը տեղադրելուց հետո: Ստորև բերված կոդի օրինակը բացատրում է, թե ինչպես կարելի է տեքստ հանել PDF ֆայլից՝ օգտագործելով C#:
Կոդ՝ PDF-ից տեքստ հանելու համար՝ օգտագործելով C#
using GroupDocs.Viewer; | |
using GroupDocs.Viewer.Options; | |
using GroupDocs.Viewer.Results; | |
using System; | |
namespace ExtractTextfromPDFUsingCSharp | |
{ | |
internal class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set License to avoid the limitations of Viewer library | |
License lic = new License(); | |
lic.SetLicense(@"GroupDocs.Viewer.lic"); | |
using (var viewer = new Viewer("input.pdf")) | |
{ | |
var viewInfoOptions = ViewInfoOptions.ForHtmlView(); | |
viewInfoOptions.ExtractText = true; | |
var viewInfo = viewer.GetViewInfo(viewInfoOptions) as PdfViewInfo; | |
// Retrieve text from the PDF file. | |
Console.WriteLine("Extracted document text:"); | |
foreach (Page page in viewInfo.Pages) | |
foreach (Line line in page.Lines) | |
{ | |
Console.WriteLine(line.Value); | |
} | |
} | |
} | |
} | |
} |
Այս ուղեցույցում մենք նայեցինք C#-ի հիմնական քայլերը PDF-ից ստացեք տեքստ: Դուք կարող եք հեշտությամբ լրացնել այս տեքստի արդյունահանման ընթացակարգը տարբեր ծրագրերի համար՝ հետևելով վերը նշված քայլերին: Ձեր նախագծերում արդյունահանվող տեքստային կոդի ինտեգրումը դառնում է պարզ և ցավազուրկ գործողություն՝ առաջարկվող գրադարանը հաջողությամբ տեղադրելուց և ֆայլերի ուղիներում անհրաժեշտ փոփոխություններ կատարելուց հետո:
Նախորդ ձեռնարկում մենք քննարկել ենք PDF-ը PNG-ով մատուցելու մասին: Եթե լրացուցիչ օգնության կարիք ունեք, առաջարկում ենք կարդալ մեր հոդվածը, թե ինչպես անել PDF-ը ներկայացնել որպես PNG՝ օգտագործելով C#: