Αυτό το άρθρο περιέχει όλες τις απαραίτητες πληροφορίες για την εξαγωγή κειμένου από έγγραφα χρησιμοποιώντας ένα από τα καλύτερα .NET API για την εξαγωγή δεδομένων εγγράφων και σας καθοδηγεί σχετικά με τον τρόπο εξαγωγής κειμένου από το έγγραφο Word χρησιμοποιώντας C#. Επιπλέον, παρέχει τις πληροφορίες για τη διαμόρφωση του απαιτούμενου πακέτου και ένα παράδειγμα εργασίας για την επίδειξη της υλοποίησης του κειμένου εξαγωγής C# από την εφαρμογή Word document. Ακολουθούν τα βασικά βήματα καθώς και δείγμα κώδικα για τη λήψη του κειμένου από έγγραφα του Word.
Βήματα για εξαγωγή κειμένου από έγγραφο του Word χρησιμοποιώντας C#
- Εγκαταστήστε το πακέτο GroupDocs.Parser for .NET από τον ιστότοπο NuGet στο έργο .NET για εξαγωγή κειμένου από έγγραφο του Word
- Προσθέστε μια αναφορά των απαραίτητων χώρων ονομάτων για την εξαγωγή του κειμένου από το αρχείο Word
- Δημιουργήστε ένα αντικείμενο της κλάσης Parser για τη φόρτωση του εγγράφου εισόδου DOCX
- Καλέστε τη μέθοδο GetText της κλάσης Parser και λάβετε ένα αντικείμενο TextReader
- Τέλος, χρησιμοποιήστε τη μέθοδο ReadToEnd για να διαβάσετε το κείμενο από το αντικείμενο ανάγνωσης
Τα παραπάνω σημεία σάς επιτρέπουν να δημιουργήσετε γρήγορα την εφαρμογή για εξαγωγή κειμένου από το έγγραφο του Word C#. Αυτά τα βήματα δεν εξαρτώνται από κανένα εργαλείο τρίτου κατασκευαστή για την εξαγωγή κειμένου από έγγραφα και μπορείτε να τα χρησιμοποιήσετε σε οποιαδήποτε πλατφόρμα όπως MS Windows, Linux και macOS που υποστηρίζουν περιβάλλον .NET. Επιπλέον, πρέπει να γράψετε μερικές γραμμές κώδικα που καταναλώνουν μερικές κλήσεις API της απαιτούμενης βιβλιοθήκης για τη λήψη του κειμένου από τα έγγραφα DOC ή DOCX.
Κώδικας για εξαγωγή κειμένου από έγγραφο του Word χρησιμοποιώντας C#
Η δυνατότητα read text from Word document C# αναπτύσσεται στο παραπάνω απόσπασμα κώδικα για να σας δείξει πώς να εξαγάγετε κείμενο από το έγγραφο DOCX. Ωστόσο, μπορείτε επίσης να χρησιμοποιήσετε έγγραφα μορφής DOC σε αυτό το δείγμα κώδικα για τη λήψη του κειμένου. Επιπλέον, αυτό το παράδειγμα μπορεί να προσαρμοστεί για την εξαγωγή κειμένου από μια ποικιλία άλλων μορφών εγγράφων, όπως DOT, RTF, XLSX, CSV, MHTML, EML, PPTX, ZIP, PDF και πολλά άλλα.
Συζητήσαμε τη διαδικασία εξαγωγής κειμένου από έγγραφα του Word σε C# και αναπτύξαμε ένα δείγμα κώδικα για αυτό σε αυτήν την ανάρτηση. Πρόσφατα, δημοσιεύσαμε ένα άρθρο για την εξαγωγή εικόνων από PDF σε C#, ρίξτε μια ματιά στον οδηγό πώς να εξάγετε εικόνες από PDF χρησιμοποιώντας C# για περισσότερες πληροφορίες.