Σε αυτόν τον οδηγό, θα συζητήσουμε τη διαδικασία βήμα προς βήμα για την εξαγωγή του Text από το έγγραφο Word σε Java. Επιπλέον, θα μάθετε πώς να ρυθμίζετε την απαιτούμενη βιβλιοθήκη από το αποθετήριο Maven και πώς να χρησιμοποιείτε αυτό το εγχειρίδιο για να δημιουργήσετε τη λειτουργία εξαγωγής κειμένου από το DOCX χρησιμοποιώντας Java. Εδώ είναι τα κύρια σημεία για την εξαγωγή κειμένου από έγγραφα μαζί με το δείγμα αποσπάσματος κώδικα.
Βήματα για την εξαγωγή κειμένου από το έγγραφο του Word σε Java
- Εγκαταστήστε το GroupDocs.Parser for Java από το αποθετήριο Maven στο έργο Java για εξαγωγή κειμένου από το έγγραφο του Word
- Εισαγάγετε βασικές τάξεις για την ανάπτυξη της λειτουργικότητας για την εξαγωγή κειμένου από ένα αρχείο Word
- Δημιουργήστε την κλάση Parser για τη φόρτωση του εγγράφου εισόδου του Word για εξαγωγή κειμένου από αυτό
- Επικαλέστε τη μέθοδο getText της κλάσης Parser και λάβετε αντικείμενο TextReader
- Τέλος, διαβάστε το κείμενο από τον αναγνώστη
Έχουμε παραθέσει όλα τα σημεία που είναι απαραίτητα για τη δημιουργία του αναγνωσμένου κειμένου από το έγγραφο του Word στην εφαρμογή Java. Αυτά τα βήματα είναι πολύ απλά για να ακολουθήσετε σε οποιοδήποτε από τα κοινά λειτουργικά συστήματα, συμπεριλαμβανομένων των Windows, macOS και Linux. Επιπλέον, μπορείτε εύκολα να καταναλώσετε το API για την εξαγωγή κειμένου από έγγραφα χωρίς να ρυθμίσετε κάποιο πρόσθετο λογισμικό.
Κώδικας για εξαγωγή κειμένου από έγγραφο του Word σε Java
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromWordDocumentInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from Word document in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.docx")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
Το παραπάνω απόσπασμα κώδικα δείχνει την υλοποίηση της δυνατότητας Εξαγωγή κειμένου Java από το Word. Όπως μπορείτε να παρατηρήσετε ότι η κλάση Parser χρησιμοποιείται για τη φόρτωση του εγγράφου εισόδου DOCX για ανάλυση μετά τη ρύθμιση της βιβλιοθήκης και την εισαγωγή της απαιτούμενης κλάσης. Μετά από αυτό, καταναλώσαμε τη μέθοδο getText για τη λήψη του αντικειμένου TextReader και, στη συνέχεια, διαβάσαμε το κείμενο από τον αναγνώστη.
Συζητήσαμε τη λεπτομερή διαδικασία εξαγωγής κειμένου από έγγραφο του Word χρησιμοποιώντας Java και δημιουργήσαμε ένα δείγμα κώδικα για αυτό. Πρόσφατα, δημοσιεύσαμε ένα άρθρο σχετικά με την εξαγωγή εικόνων από έγγραφο του Word σε Java, ρίξτε μια ματιά στον οδηγό πώς να εξάγετε εικόνες από το έγγραφο του Word χρησιμοποιώντας Java για περισσότερες πληροφορίες.