이 방법 기사에서는 **C#의 **HTML에서 텍스트를 추출하는 단계별 프로세스와 C#에서 텍스트 추출 개발을 위해 이 가이드를 사용하는 방법에 집중할 것입니다. HTML 기능. 이 매뉴얼에서는 몇 가지 간단한 API 호출을 사용하여 텍스트를 추출하기 위한 HTML 문서를 제공해야 합니다. 아래에서 C#을 사용하여 HTML에서 텍스트를 추출하는 작업 예제와 전체 정보를 볼 수 있습니다.
C#의 HTML에서 텍스트를 추출하는 단계
- .NET 프로젝트의 NuGet 웹사이트에서 GroupDocs.Parser for .NET 패키지를 설치하여 HTML에서 텍스트 추출
- HTML 문서에서 텍스트를 추출하는 데 필요한 네임스페이스에 대한 참조 추가
- 입력 HTML 문서를 로드하기 위한 Parser 클래스의 인스턴스 생성
- TextReader 개체를 수집하기 위해 Parser 클래스의 GetText 메서드를 호출합니다.
- TextReader에서 텍스트를 읽고 콘솔에 표시
위의 단계별 지침을 사용하면 HTML C# 응용 프로그램에서 텍스트 추출을 빠르게 만들 수 있습니다. 이것은 매우 사용하기 쉬운 지침이며 최소한의 개발 경험이 있는 사람이라면 누구나 문서에서 텍스트를 가져오기 위해 지침을 따를 수 있습니다. 또한 MS Windows, Linux 및 macOS와 같은 일반적인 운영 체제에서 이러한 포인트를 사용할 수 있습니다. 또한 추가 소프트웨어를 설정하지 않고도 텍스트 추출을 위한 API를 호출할 수 있습니다.
C#의 HTML에서 텍스트를 추출하는 코드
using System; | |
using System.Collections.Generic; | |
using System.Text; | |
using System.IO; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractTextFromHtmlInCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract text from HTML using C# | |
{ | |
// Remove the watermark in output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.html")) | |
{ | |
// Extract a text into the reader | |
using(TextReader reader = parser.GetText()) | |
{ | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd()); | |
} | |
} | |
} | |
} | |
} |
C# get Text from HTML은 이전 섹션에서 설명한 단계에 따라 개발되었습니다. 위의 코드 조각에서 필요한 패키지를 구성하고 필요한 네임스페이스에 대한 참조를 추가하여 텍스트 추출 프로세스가 시작되었음을 알 수 있습니다. 다음 단계에서는 Parser 클래스의 인스턴스를 만들어 입력 HTML 문서를 로드한 다음 GetText 메서드를 사용하여 TextReader 개체를 가져오고 마지막으로 이 개체에서 텍스트를 읽습니다.
HTML C# 응용 프로그램에서 텍스트 가져오기를 개발하기 위한 자세한 지침에 대해 논의했습니다. 최근에 C#을 사용하여 Excel 파일에서 메타데이터를 추출하는 방법에 대한 기사를 게시했습니다. 자세한 내용은 C#의 Excel 파일에서 메타데이터를 추출하는 방법 가이드를 참조하세요.