C#'ta HTML'den Metin Nasıl Çıkarılır

Bu nasıl yapılır makalesinde, **C#’ta HTML‘den Metin ayıklamak için adım adım işleme ve bu kılavuzun C#‘dan Metin çıkarmanın geliştirilmesi için nasıl kullanılacağına odaklanacağız. HTML işlevi. Bu kılavuz, birkaç basit API çağrısı kullanarak metin çıkarmak için HTML belgesi sağlamanızı gerektirir. Aşağıda, C# kullanarak HTML’den Metin çıkarmak için tüm bilgilere ve çalışan bir örneğe göz atabilirsiniz.

C#’ta HTML’den Metin Çıkarma Adımları

  1. HTML’den Metin çıkarmak için .NET projesindeki NuGet web sitesinden GroupDocs.Parser for .NET paketini yükleyin
  2. HTML belgesinden metin çıkarmak için gerekli ad alanlarına bir başvuru ekleyin
  3. Giriş HTML belgesini yüklemek için Parser sınıfının bir örneğini oluşturun
  4. TextReader nesnesini toplamak için Parser sınıfının GetText yöntemini çağırın
  5. Metni TextReader’dan okuyun ve konsolda görüntüleyin

Önceki adım adım yönergeler, HTML C#* uygulamasından *metin ayıkla uygulamasını hızlı bir şekilde oluşturmanıza olanak tanır. Bunlar, kullanımı çok kolay talimatlardır ve minimum geliştirme deneyimine sahip herkes, belgelerden metin almak için bunları takip edebilir. Ayrıca, bu noktaları MS Windows, Linux ve macOS gibi yaygın işletim sistemlerinden herhangi birinde kullanabilirsiniz. Ayrıca, herhangi bir ek yazılım kurmadan metin çıkarmak için API’leri arayabilirsiniz.

C#’ta HTML’den Metin Çıkarma Kodu

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromHtmlInCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from HTML using C#
{
// Remove the watermark in output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.html"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

C# get Text from HTML, önceki bölümde açıklanan adımlar izlenerek geliştirilmiştir. Yukarıdaki kod parçacığında, gerekli paketi yapılandırarak ve gerekli ad alanlarına referans ekleyerek metin çıkarma işleminin başladığını görebilirsiniz. Sonraki adımlarda, Parser sınıfının bir örneğini oluşturarak giriş HTML belgesini yükledik ve ardından TextReader nesnesini elde etmek için GetText yöntemini kullandık ve son olarak metni ondan okuduk.

Get Text from HTML C# uygulamasını geliştirmek için ayrıntılı talimatları tartıştık. Yakın zamanda, C# kullanarak Excel Dosyasından Meta Veri çıkarmak için bir makale yayınladık, daha fazla bilgi için C# ile Excel Dosyasından Meta Veriler Nasıl Ayıklanır kılavuzuna bakın.

 Türkçe