java将html实体字符转换成正常字符

2022-10-10  本文已影响0人  10676

函数

StringEscapeUtils.unescapeHtml(); 

今天最羡慕。word转成html后编码格式是这样的:

<p style="text-indent:21.0pt;">&#25509;&#36710;&#21518;&#21457;&#29616;&#35813;&#36710;&#19981;&#22909;&#21551;&#21160;&#65292;&#21551;&#21160;&#26102;&#38388;&#36739;&#38271;&#65292;&#30528;&#36710;&#21518;&#21457;&#21160;&#26426;&#36731;&#24494;&#25238;&#21160;&#65292;&#22806;&#20986;&#35797;&#36710;&#21457;&#29616;&#36710;&#23376;&#26126;&#26174;&#21152;&#36895;&#26080;&#21147;&#12290;&#19982;&#23458;&#25143;&#27807;&#36890;&#24471;&#30693;&#65292;&#35813;&#36710;&#22312;&#20854;&#20182;&#20462;&#29702;&#21378;&#26816;&#26597;&#36807;&#65292;&#24182;&#20808;&#21518;&#26356;&#25442;&#36807;&#39640;&#21387;&#27833;&#27893;&#21644;&#21457;&#21160;&#26426;&#25511;&#21046;&#21333;&#20803;&#65292;&#27809;&#26377;&#35299;&#20915;&#38382;&#39064;&#12290;
恶心死了

中文全部被编码成了"来电"这种格式,后来在网上找了一会才知道这种字符被称为html entity character(实体字符)。java中好像是没有现成方法来解码的,找了半天才在一个国外网站上发现了一个一样的问题,方法就是通过apache commons包中的以下方法对字符串进行解码。
然后我就用这个方法将他转换成正常的字符串了


你看
上一篇 下一篇

猜你喜欢

热点阅读