MHTML (MIME HTML) ֆայլերը, վեբ արխիվի ձևաչափը, թույլ է տալիս պահպանել վեբ էջի ամբողջ բովանդակությունը, ներառյալ տեքստը, պատկերները և հղումները մեկ ֆայլի մեջ: MHTML ֆայլերից տեքստ հանելը կարևոր է դառնում վեբ տվյալների հետ աշխատելիս այնպիսի խնդիրների համար, ինչպիսիք են վերլուծությունը, փաստաթղթերի մշակումը կամ ավտոմատացված հաշվետվություններ ստեղծելը: Այս հոդվածում մենք կանդրադառնանք, թե ինչպես արտահանել տեքստ MHTML-ից Java-ի միջոցով՝ առաջարկելով ծրագրավորողներին տարբեր օգտագործման համար այս ֆայլերից արժեքավոր տեղեկություններ ստանալու գործնական մեթոդ: Պատշաճ գործիքով և տեխնիկայով ** MHTML-ից Java-ում տեքստի դուրսբերումը պարզ գործընթաց է: Համոզվեք, որ ունեք Java Development Kit-ը (JDK), IDE, ինչպիսին է IntelliJ IDEA-ն կամ Eclipse-ը, և Parser գրադարանը՝ ձեր Java նախագծերում հաջող իրականացման համար:
Java-ի միջոցով MHTML-ից տեքստ հանելու քայլեր
- Կարգավորեք ձեր զարգացման միջավայրը՝ ինտեգրելով GroupDocs.Parser for Java գրադարանը, որը հնարավորություն է տալիս տեքստի անխափան արդյունահանումը MHTML ֆայլերից
- Ստուգեք Parser դասը` կոնստրուկտորում տրամադրելով ձեր MHTML ֆայլի ուղին
- Զանգահարեք getText մեթոդը Parser օրինակի վրա՝ ձեռք բերելու TextReader օբյեկտ, որը թույլ է տալիս մուտք գործել տեքստի բովանդակություն:
- Օգտագործեք readToEnd մեթոդը TextReader-ում MHTML ֆայլից ողջ տեքստը առբերելու և կարդալու համար
Երբ դուք կազմաձևեք ֆայլերի ուղիները, տրամադրված կոդի օրինակը ձեր նախագծերում ներառելը դառնում է պարզ խնդիր: Ձեր զարգացման միջավայրը կարգավորելուց հետո MHTML տեքստի արդյունահանումը Java-ում հեշտ և արդյունավետ գործընթաց է: Սկսեք ստեղծելով Parser օբյեկտ ձեր MHTML ֆայլի համար: Այնուհետև օգտագործեք getText մեթոդը՝ TextReader-ը ստանալու համար, որը թույլ է տալիս մուտք գործել ֆայլի տեքստային բովանդակություն: Ամբողջ տեքստը մեկ քայլով հանելու համար TextReader-ում զանգահարեք readToEnd մեթոդը: Այս մոտեցումը հատկապես օգտակար է մեծ քանակությամբ վեբ բովանդակության մշակման կամ վեբ արխիվների փոխարկումների ավտոմատացման համար:
Կոդ՝ MHTML-ից Java-ի միջոցով տեքստ հանելու համար
import com.groupdocs.parser.Parser; | |
import com.groupdocs.parser.data.TextReader; | |
import com.groupdocs.parser.licensing.License; | |
public class ExtractTextfromMHTMLusingJava { | |
public static void main(String[] args) throws Exception { | |
// Set License to avoid the limitations of Parser library | |
License license = new License(); | |
license.setLicense("GroupDocs.Parser.lic"); | |
// Create an instance of Parser class | |
try (Parser parser = new Parser("input.mhtml")) { | |
// Extract a text into the reader | |
try (TextReader reader = parser.getFormattedText( | |
new FormattedTextOptions(FormattedTextMode.Html))) { | |
// Print a text from the document | |
// If text extraction isn't supported, a reader is null | |
System.out.println(reader == null ? "Text extraction isn't supported" | |
: reader.readToEnd()); | |
} | |
} | |
} | |
} |
Դուք կարող եք արդյունավետ կերպով իրականացնել Java read տեքստը MHTML առաջադրանքից Windows, macOS և Linux համակարգերում: Դրան կարելի է հասնել առանց Java-ի տրամադրած լրացուցիչ ծրագրերի կարիքի: Տեքստի արդյունահանման գործընթացը կարևոր տեխնիկա է մշակողների համար, որոնք կենտրոնացած են վեբ բովանդակության կամ փաստաթղթերի ավտոմատացման լուծումներ ստեղծելու վրա: Անկախ նրանից, թե դուք ներգրավված եք տվյալների լայնածավալ հավաքման, բովանդակության վերլուծության կամ արխիվացման մեջ, MHTML ֆայլերից տեքստը ծրագրային կերպով հանելու հնարավորությունը կօպտիմալացնի ձեր աշխատանքային հոսքը և կբարելավի ձեր հավելվածի ֆունկցիոնալությունը:
Նախկինում մենք հրապարակել ենք ընդարձակ ուղեցույց TXT ֆայլերից Java-ով տեքստ հանելու վերաբերյալ: Ավելի խորը ուսումնասիրության համար ազատ զգալ այցելեք մեր ամբողջական ձեռնարկը, թե ինչպես կատարել հանել տեքստը TXT-ից Java-ի միջոցով: