C#의 HTML에서 텍스트를 추출하는 방법

이 방법 기사에서는 **C#의 **HTML에서 텍스트를 추출하는 단계별 프로세스와 C#에서 텍스트 추출 개발을 위해 이 가이드를 사용하는 방법에 집중할 것입니다. HTML 기능. 이 매뉴얼에서는 몇 가지 간단한 API 호출을 사용하여 텍스트를 추출하기 위한 HTML 문서를 제공해야 합니다. 아래에서 C#을 사용하여 HTML에서 텍스트를 추출하는 작업 예제와 전체 정보를 볼 수 있습니다.

C#의 HTML에서 텍스트를 추출하는 단계

  1. .NET 프로젝트의 NuGet 웹사이트에서 GroupDocs.Parser for .NET 패키지를 설치하여 HTML에서 텍스트 추출
  2. HTML 문서에서 텍스트를 추출하는 데 필요한 네임스페이스에 대한 참조 추가
  3. 입력 HTML 문서를 로드하기 위한 Parser 클래스의 인스턴스 생성
  4. TextReader 개체를 수집하기 위해 Parser 클래스의 GetText 메서드를 호출합니다.
  5. TextReader에서 텍스트를 읽고 콘솔에 표시

위의 단계별 지침을 사용하면 HTML C# 응용 프로그램에서 텍스트 추출을 빠르게 만들 수 있습니다. 이것은 매우 사용하기 쉬운 지침이며 최소한의 개발 경험이 있는 사람이라면 누구나 문서에서 텍스트를 가져오기 위해 지침을 따를 수 있습니다. 또한 MS Windows, Linux 및 macOS와 같은 일반적인 운영 체제에서 이러한 포인트를 사용할 수 있습니다. 또한 추가 소프트웨어를 설정하지 않고도 텍스트 추출을 위한 API를 호출할 수 있습니다.

C#의 HTML에서 텍스트를 추출하는 코드

using System;
using System.Collections.Generic;
using System.Text;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Data;
namespace ExtractTextFromHtmlInCSharp
{
class Program
{
public static void Main(string[] args) // Main function to extract text from HTML using C#
{
// Remove the watermark in output
string licensePath = "GroupDocs.Parser.lic";
GroupDocs.Parser.License lic = new GroupDocs.Parser.License();
lic.SetLicense(licensePath);
// Create an instance of Parser class
using (Parser parser = new Parser("sample.html"))
{
// Extract a text into the reader
using(TextReader reader = parser.GetText())
{
// Print a text from the document
// If text extraction isn't supported, a reader is null
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}
}
}
}
}

C# get Text from HTML은 이전 섹션에서 설명한 단계에 따라 개발되었습니다. 위의 코드 조각에서 필요한 패키지를 구성하고 필요한 네임스페이스에 대한 참조를 추가하여 텍스트 추출 프로세스가 시작되었음을 알 수 있습니다. 다음 단계에서는 Parser 클래스의 인스턴스를 만들어 입력 HTML 문서를 로드한 다음 GetText 메서드를 사용하여 TextReader 개체를 가져오고 마지막으로 이 개체에서 텍스트를 읽습니다.

HTML C# 응용 프로그램에서 텍스트 가져오기를 개발하기 위한 자세한 지침에 대해 논의했습니다. 최근에 C#을 사용하여 Excel 파일에서 메타데이터를 추출하는 방법에 대한 기사를 게시했습니다. 자세한 내용은 C#의 Excel 파일에서 메타데이터를 추출하는 방법 가이드를 참조하세요.

 한국인