このハウツー記事では、C# で HTML からテキストを抽出する ための段階的なプロセスと、このガイドを使用して C# の抽出テキストを開発する方法に焦点を当てます。 HTML 機能。このマニュアルでは、いくつかの単純な API 呼び出しを使用してテキストを抽出するための HTML ドキュメントを提供する必要があります。以下に、完全な情報と、C# を使用して HTML からテキストを抽出する実際の例を示します。
C# で HTML からテキストを抽出する手順
- NuGet Web サイトから GroupDocs.Parser for .NET パッケージを .NET プロジェクトにインストールして、HTML からテキストを抽出します
- HTML ドキュメントからテキストを抽出するために必要な名前空間への参照を追加します。
- 入力 HTML ドキュメントをロードするための Parser クラスのインスタンスを作成します
- TextReader オブジェクトを収集するために、Parser クラスの GetText メソッドを呼び出します。
- TextReader からテキストを読み取り、コンソールに表示する
上記の段階的な手順により、HTML C# からテキストを抽出 アプリケーションをすばやく作成できます。これらは非常に使いやすい指示であり、最低限の開発経験しかない人なら誰でも文書からテキストを取得するために従うことができます。さらに、これらのポイントは、MS Windows、Linux、macOS などの一般的なオペレーティング システムで使用できます。さらに、追加のソフトウェアをセットアップすることなく、テキストを抽出するための API を呼び出すことができます。
C# で HTML からテキストを抽出するコード
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromHtmlInCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from HTML using C# | |
{ | |
// Remove the watermark in output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.html")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
C# get Text from HTML は、前のセクションで説明した手順に従って開発されます。上記のコード スニペットで、必要なパッケージを構成し、必要な名前空間への参照を追加することによって、テキスト抽出プロセスが開始されることがわかります。次の手順では、Parser クラスのインスタンスを作成して入力 HTML ドキュメントを読み込み、GetText メソッドを使用して TextReader オブジェクトを取得し、最後にそこからテキストを読み取ります。
get Text from HTML C# アプリケーションを開発するための詳細な手順について説明しました。最近、C# を使用して Excel ファイルからメタデータを抽出するための記事を公開しました。詳細については、C# で Excel ファイルからメタデータを抽出する方法 ガイドをご覧ください。