Այս ուղեցույցում մենք կքննարկենք քայլ առ քայլ ընթացակարգը՝ Java-ում Text-ը Word փաստաթղթից** հանելու համար: Ավելին, դուք կսովորեք, թե ինչպես ստեղծել անհրաժեշտ գրադարանը Maven պահոցից և ինչպես օգտագործել այս ձեռնարկը՝ Java-ի միջոցով DOCX-ից տեքստ հանելու գործառույթ ստեղծելու համար: Ահա փաստաթղթերից տեքստը օրինակելի հատվածի հետ միասին հանելու հիմնական կետերը:
Java-ում Word փաստաթղթից տեքստ հանելու քայլեր
- Տեղադրեք GroupDocs.Parser for Java-ը Maven պահոցից Java նախագծում՝ Word փաստաթղթից տեքստ հանելու համար
- Ներմուծեք հիմնական դասեր՝ Word ֆայլից տեքստ հանելու ֆունկցիոնալությունը զարգացնելու համար
- Ստեղծեք Parser դասը՝ մուտքագրված Word փաստաթուղթը բեռնելու համար՝ դրանից տեքստ հանելու համար։
- Կանչեք Parser դասի getText մեթոդը և ստացեք TextReader օբյեկտ
- Ի վերջո, կարդացեք տեքստը ընթերցողից
Մենք թվարկել ենք բոլոր այն կետերը, որոնք անհրաժեշտ են Java* հավելվածում Word փաստաթղթից *ընթերցված տեքստ ստեղծելու համար: Այս քայլերին շատ պարզ է հետևել սովորական օպերացիոն համակարգերից որևէ մեկում, ներառյալ Windows-ը, macOS-ը և Linux-ը: Ավելին, դուք կարող եք հեշտությամբ օգտագործել API-ն՝ փաստաթղթերից տեքստ հանելու համար՝ առանց որևէ լրացուցիչ ծրագրակազմ տեղադրելու:
Կոդ՝ Java-ում Word փաստաթղթից տեքստ հանելու համար
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.TextReader; | |
import java.io.IOException; | |
public class ExtractTextFromWordDocumentInJava { | |
public static void main(String[] args) throws IOException { // Main function to extract text from Word document in Java | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("sample.docx")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getText()) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" : reader.readToEnd()); | |
} | |
} | |
} | |
} |
Վերոնշյալ կոդի հատվածը ցույց է տալիս Java տեքստի արդյունահանող Word-ի հնարավորությունը: Ինչպես կարող եք նկատել, որ Parser դասը օգտագործվում է մուտքագրված DOCX փաստաթուղթը բեռնելու համար գրադարանը տեղադրելուց և անհրաժեշտ դասը ներմուծելուց հետո վերլուծելու համար: Դրանից հետո մենք սպառել ենք getText մեթոդը TextReader օբյեկտը ստանալու համար, այնուհետև կարդացել ենք տեքստը ընթերցողից։
Մենք քննարկել ենք Java-ի միջոցով Word փաստաթղթից տեքստ հանելու մանրամասն գործընթացը և դրա համար ստեղծել ենք օրինակելի կոդը: Վերջերս մենք հրապարակեցինք մի հոդված Java-ում Word փաստաթղթից պատկերներ հանելու մասին: Լրացուցիչ տեղեկությունների համար դիտեք ինչպես հանել պատկերները Word փաստաթղթից Java-ի միջոցով ուղեցույցը: