jsoup解析中文乱码
2019-09-19 本文已影响0人
菜菜___
在使用jsoup爬取网页内容的时候发现获取到的中文有乱码问题,如下所示:
String getUrl = "http://xxxxx.html";
Document doc = Jsoup.connect(getUrl).get();
一般出现这个情况是由于url指向的页面,实际编码与html中描述的编码不符导致。如:开发时用的GBK编码编写,但html中却写UTF-8。典型的就是在中文Windows下用记事本,写一个UTF-8的html就会出现这个问题。
解决办法:设置编码格式
String getUrl = "http://xxxxx.html";
Document doc = Jsoup.parse(new URL(getUrl).openStream(), "GBK", getUrl);
原文作者技术博客:https://www.jianshu.com/u/ac4daaeecdfe