Jak převést HTML na text v C#

V tomto tutoriálu vysvětlíme krok za krokem proces převodu HTML na Text v C#. Tato příručka poskytuje podrobné informace pro nastavení knihovny převodníků dokumentů, postupné pokyny pro provádění transformace dokumentů a ukázkový kód pro schopnost C# převést HTML na prostý text. Zde jsou podrobné pokyny spolu s pracovním příkladem pro převod HTML na text pomocí C#.

Kroky k převodu HTML na text v C#

  1. Nainstalujte balíček GroupDocs.Conversion for .NET z projektu NuGet v projektu .NET pro implementaci funkcí C# HTML do prostého textu
  2. Přidejte odkaz na jmenný prostor GroupDocs.Conversion pro transformaci HTML na text
  3. Vytvořte instanci třídy Converter a předejte vstupní soubor HTML jejímu konstruktoru
  4. Inicializujte třídu WordProcessingConvertOptions a definujte parametry pro přizpůsobení textového dokumentu
  5. Nakonec zavolejte metodu Convert a uložte HTML jako text

Výše uvedené body vám umožňují snadno a rychle implementovat funkci získání prostého textu z HTML C#. Stačí nainstalovat požadovaný balíček z webu NuGet, napsat tři až čtyři řádky kódu a spotřebovat několik volání API pro dokončení převodu dokumentu. Tyto kroky dále nevyžadují žádný další nástroj třetí strany a lze je implementovat na jakýkoli operační systém, jako je MS Windows, Linux a Mac OS.

Kód pro převod HTML na text v C#

using System;
using GroupDocs.Conversion.Options.Convert;
namespace ConvertHtmlToTextInCSharp
{
class Program
{
public static void Main(string[] args) // Main function to convert HTML to Text using C#
{
// Remove the watermark in output Text document by adding license
string licensePath = "GroupDocs.Conversion.lic";
GroupDocs.Conversion.License lic = new GroupDocs.Conversion.License();
lic.SetLicense(licensePath);
// Load the source HTML file for conversion to TXT
var converter = new GroupDocs.Conversion.Converter("sample.html");
// Set the convert options for TXT file
WordProcessingConvertOptions convertOptions = new WordProcessingConvertOptions {
Format = GroupDocs.Conversion.FileTypes.WordProcessingFileType.Txt
};
// Convert and save the HTML in TXT format
converter.Convert("converted.txt", convertOptions);
Console.WriteLine("Done");
}
}
}

Výše uvedený příklad jsme vyvinuli podle pokynů definovaných v předchozí části pro implementaci schopnosti převést HTML na prostý text C#. Jak můžete vidět, použili jsme třídu Converter pro načtení vstupního dokumentu HTML a nastavili formát výstupního souboru pomocí objektu WordProcessingConvertOptions. Nakonec jsme zavolali metodu Convert pro uložení výsledného souboru na disk.

Soustředili jsme se na proces konverze dokumentů pro implementaci funkce C# získat prostý text z HTML. Nedávno jsme publikovali článek o změně PDF na CSV v C#. Další informace naleznete v průvodci jak převést PDF do CSV pomocí C#.

 Čeština