Wyodrębnij tekst z XLSX za pomocą C#

Wyodrębnianie tekstu z plików XLSX jest powszechnym wymogiem w różnych zadaniach przetwarzania i analizy danych. Pliki XLSX, popularny format arkuszy kalkulacyjnych, zawierają bogactwo informacji, do których często trzeba uzyskać dostęp, przeanalizować je lub przenieść do innych systemów. Dzięki odpowiedniej bibliotece, takiej jak GroupDocs.Parser dla .NET, wyodrębnianie tekstu z XLSX w C# staje się prostym i wysoce wydajnym procesem. Rozumiejąc, jak programowo pobierać dane z tych plików, możesz usprawnić swoje przepływy pracy i zwiększyć wydajność zadań zarządzania danymi. Ten artykuł przeprowadzi Cię przez kluczowe kroki związane ze sposobem wyodrębniania tekstu z XLSX przy użyciu C#.

Kroki wyodrębniania tekstu z XLSX za pomocą C#

  1. Skonfiguruj środowisko programistyczne, integrując GroupDocs.Parser for .NET, co umożliwi wyodrębnianie tekstu z plików XLSX
  2. Zainicjuj klasę Parser, przekazując ścieżkę do pliku XLSX jako argument konstruktora
  3. Wywołaj metodę GetText z klasy Parser, aby pobrać obiekt TextReader
  4. Na koniec użyj metody ReadToEnd obiektu TextReader, aby uzyskać dostęp do wyodrębnionego tekstu

Na początek niezbędne jest skonfigurowanie środowiska programistycznego z biblioteką Parser. Ta potężna biblioteka zapewnia wszechstronną funkcjonalność do pracy z różnymi formatami dokumentów, w tym XLSX. Po skonfigurowaniu środowiska pierwszym krokiem jest utworzenie instancji klasy Parser, która służy jako główny komponent do wyodrębniania tekstu. Podając ścieżkę do pliku XLSX, klasa Parser może uzyskać dostęp do dokumentu i przygotować go do wyodrębniania tekstu. Proces wyodrębniania jest płynny i wydajny, co pozwala na obsługę nawet dużych i złożonych plików XLSX bez żadnych problemów. Aby uzyskać wyodrębnienie tekstu XLSX w języku C#, możesz użyć poniższego kodu w swoich aplikacjach.

Kod do wyodrębniania tekstu z XLSX przy użyciu C#

using System;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Options;
namespace ExtractTextfromXLSXusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Apply the license to remove the limitations of the Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.xlsx"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

Powyższy przykład kodu jest zgodny z popularnymi systemami operacyjnymi, takimi jak Windows, macOS i Linux, pod warunkiem zainstalowania .NET. Nie ma potrzeby instalowania żadnego dodatkowego oprogramowania. Po skonfigurowaniu zalecanej biblioteki i dostosowaniu ścieżek plików w razie potrzeby, zintegrowanie dostarczonego kodu z projektami powinno przebiegać bezproblemowo. Podsumowując, C# read text from XLSX to prosty i wydajny proces, który może znacznie zwiększyć możliwości obsługi i analizy danych. Ta metoda zapewnia niezawodne rozwiązanie do integracji ekstrakcji tekstu XLSX z aplikacjami, ułatwiając zarządzanie danymi w arkuszach kalkulacyjnych i ich analizę.

Wcześniej udostępniliśmy szczegółowy przewodnik na temat wyodrębniania tekstu z plików DOCX za pomocą C#. Aby uzyskać pełniejsze zrozumienie, sugerujemy zapoznanie się z naszym obszernym samouczkiem na temat wyodrębnij tekst z DOCX za pomocą C#.

 Polski