C#을 사용하여 Word 문서에서 텍스트를 추출하는 방법

이 문서에서는 문서 데이터를 추출하는 최고의 .NET API 중 하나를 사용하여 문서에서 텍스트를 추출하는 데 필요한 모든 정보를 살펴보고 **C#을 사용하여 **Word 문서에서 텍스트를 추출하는 방법을 안내합니다. 또한 C# Word 문서에서 텍스트 추출 응용 프로그램의 구현을 보여 주는 작업 예제와 필요한 패키지 구성에 대한 정보를 제공합니다. 다음은 Word 문서에서 텍스트를 가져오기 위한 주요 단계와 샘플 코드입니다.

C#을 사용하여 Word 문서에서 텍스트를 추출하는 단계

  1. .NET 프로젝트의 NuGet 웹사이트에서 GroupDocs.Parser for .NET 패키지를 설치하여 Word 문서에서 텍스트 추출
  2. Word 파일에서 텍스트를 추출하는 데 필요한 네임스페이스 참조 추가
  3. 입력 DOCX 문서를 로드하기 위한 Parser 클래스의 객체 생성
  4. Parser 클래스의 GetText 메서드를 호출하고 TextReader 개체를 가져옵니다.
  5. 마지막으로 ReadToEnd 메서드를 사용하여 판독기 개체에서 텍스트를 읽습니다.

위의 사항을 통해 *Word 문서 C#*에서 텍스트를 추출하는 응용 프로그램을 빠르게 만들 수 있습니다. 이 단계는 문서에서 텍스트를 추출하기 위한 타사 도구에 의존하지 않으며 .NET 환경을 지원하는 MS Windows, Linux 및 macOS와 같은 모든 플랫폼에서 사용할 수 있습니다. 또한 DOC 또는 DOCX 문서에서 텍스트를 가져오기 위해 필요한 라이브러리의 몇 가지 API 호출을 사용하는 몇 줄의 코드를 작성해야 합니다.

C#을 사용하여 Word 문서에서 텍스트를 추출하는 코드

Word 문서에서 텍스트 읽기 C# 기능은 DOCX 문서에서 텍스트를 추출하는 방법을 보여주기 위해 위의 코드 스니펫에서 개발되었습니다. 그러나 이 샘플 코드에서 텍스트를 가져오기 위해 DOC 형식 문서를 사용할 수도 있습니다. 또한 이 예제는 DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF 등을 포함한 다양한 다른 문서 형식에서 텍스트를 추출하는 데 적용할 수 있습니다.

이 게시물에서는 C#의 Word 문서에서 텍스트를 추출하는 프로세스에 대해 논의하고 이에 대한 샘플 코드를 개발했습니다. 최근에 C#으로 PDF에서 이미지를 추출하는 방법에 대한 기사를 게시했습니다. 자세한 내용은 C#을 사용하여 PDF에서 이미지를 추출하는 방법 가이드를 참조하세요.

 한국인