U ovom članku s uputama, usredotočit ćemo se na postupak korak po korak za izdvajanje teksta iz HTML u C# i kako koristiti ovaj vodič za razvoj C# izvlačenja teksta iz HTML funkcionalnost. Ovaj priručnik zahtijeva da osigurate HTML dokument za izdvajanje teksta korištenjem nekoliko jednostavnih API poziva. U nastavku možete pogledati potpune informacije kao i radni primjer za izdvajanje teksta iz HTML-a pomoću C#.
Koraci za izdvajanje teksta iz HTML-a u C#
- Instalirajte paket GroupDocs.Parser for .NET s web stranice NuGet u .NET projektu da izvučete tekst iz HTML-a
- Dodajte referencu na potrebne prostore imena za izvlačenje teksta iz HTML dokumenta
- Napravite instancu klase Parser za učitavanje ulaznog HTML dokumenta
- Pozovite metodu GetText klase Parser za prikupljanje objekta TextReader
- Pročitajte tekst iz TextReader-a i prikažite ga na konzoli
Prethodne postupne upute omogućuju vam brzo stvaranje aplikacije ekstrakt teksta iz HTML C#. Ovo su upute vrlo jednostavne za korištenje i svatko s minimalnim razvojnim iskustvom može ih slijediti za dobivanje teksta iz dokumenata. Nadalje, ove bodove možete koristiti na bilo kojem od uobičajenih operativnih sustava kao što su MS Windows, Linux i macOS. Štoviše, možete pozvati API-je za izdvajanje teksta bez postavljanja dodatnog softvera.
Kod za izdvajanje teksta iz HTML-a u C#
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromHtmlInCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from HTML using C# | |
{ | |
// Remove the watermark in output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.html")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
C# dobivanje teksta iz HTML-a razvija se slijedeći korake objašnjene u prethodnom odjeljku. U gornjem isječku koda možete vidjeti da se proces ekstrakcije teksta pokreće konfiguriranjem potrebnog paketa i dodavanjem reference na potrebne prostore imena. U sljedećim koracima smo učitali ulazni HTML dokument tako što smo kreirali instancu klase Parser, a zatim koristili metodu GetText za dobivanje TextReader objekta i konačno pročitali tekst iz njega.
Raspravljali smo o detaljnim uputama za razvoj aplikacije Get Text from HTML C#. Nedavno smo objavili članak o izdvajanju metapodataka iz Excel datoteke pomoću C#, pogledajte kako izdvojiti metapodatke iz Excel datoteke u C# vodič za više informacija.