Extrahujte text z XLSX pomocí C#

Extrahování textu ze souborů XLSX je běžným požadavkem při různých úlohách zpracování a analýzy dat. Soubory XLSX, oblíbený formát pro tabulkové procesory, obsahují velké množství informací, ke kterým je často potřeba přistupovat, analyzovat je nebo je přenášet do jiných systémů. Se správnou knihovnou, jako je GroupDocs.Parser pro .NET, se extrakce textu z XLSX v C# stává přímočarým a vysoce efektivním procesem. Pochopením toho, jak programově získávat data z těchto souborů, můžete zefektivnit své pracovní postupy a zvýšit efektivitu úloh správy dat. Tento článek vás provede klíčovými kroky, jak extrahovat text z XLSX pomocí C#.

Kroky k extrahování textu z XLSX pomocí C#

  1. Nastavte své vývojové prostředí integrací GroupDocs.Parser for .NET, která umožňuje extrakci textu ze souborů XLSX
  2. Inicializujte třídu Parser a předejte cestu k vašemu souboru XLSX jako argument konstruktoru
  3. Voláním metody GetText ze třídy Parser načtete objekt TextReader
  4. Nakonec použijte metodu ReadToEnd objektu TextReader pro přístup k extrahovanému textu

Pro začátek je nezbytné nastavit vývojové prostředí s knihovnou Parser. Tato výkonná knihovna poskytuje komplexní funkce pro práci s různými formáty dokumentů, včetně XLSX. Jakmile je vaše prostředí nakonfigurováno, prvním krokem je vytvoření instance třídy Parser, která slouží jako hlavní komponenta pro extrahování textu. Poskytnutím cesty k souboru XLSX může třída Parser získat přístup k dokumentu a připravit jej pro extrakci textu. Proces extrakce je bezproblémový a efektivní a umožňuje vám bez problémů zpracovávat i velké a složité soubory XLSX. Chcete-li dosáhnout XLSX extrakce textu v C#, můžete do svých aplikací použít níže uvedený kód.

Kód pro extrahování textu z XLSX pomocí C#

using System;
using System.IO;
using GroupDocs.Parser;
using GroupDocs.Parser.Options;
namespace ExtractTextfromXLSXusingCSharp
{
internal class Program
{
static void Main(string[] args)
{
// Apply the license to remove the limitations of the Parser library
License lic = new License();
lic.SetLicense(@"GroupDocs.Parser.lic");
// Instantiate the Parser class
using (Parser parser = new Parser("input.xlsx"))
{
// Retrieve formatted text into the reader
using (TextReader reader = parser.GetFormattedText(
new FormattedTextOptions(FormattedTextMode.Html)))
{
// Output the formatted text from the document
// If formatted text extraction is not supported,
// the reader will be null
Console.WriteLine(reader == null ?
"Formatted text extraction isn't supported"
: reader.ReadToEnd());
Console.ReadLine();
}
}
}
}
}

Výše uvedený příklad kódu je kompatibilní s oblíbenými operačními systémy, jako jsou Windows, macOS a Linux, za předpokladu, že je nainstalováno .NET. Není potřeba žádná další instalace softwaru. Po konfiguraci doporučené knihovny a úpravě cest k souborům podle potřeby by integrace poskytnutého kódu do vašich projektů měla probíhat hladce a bez problémů. Závěrem lze říci, že C# čtení textu z XLSX je přímočarý a efektivní proces, který může výrazně zlepšit vaše možnosti zpracování dat a analýzy. Tato metoda poskytuje spolehlivé řešení pro integraci extrakce textu XLSX do vašich aplikací, což usnadňuje správu a analýzu tabulkových dat.

Dříve jsme poskytli podrobného průvodce extrahováním textu ze souborů DOCX pomocí C#. Chcete-li důkladněji porozumět, doporučujeme prozkoumat náš rozsáhlý návod, jak extrahovat text z DOCX pomocí C#.

 Čeština