jsoup解析中文乱码

2019-09-19 本文已影响0人菜菜___

在使用jsoup爬取网页内容的时候发现获取到的中文有乱码问题，如下所示：

String getUrl = "http://xxxxx.html";
Document doc = Jsoup.connect(getUrl).get();

一般出现这个情况是由于url指向的页面，实际编码与html中描述的编码不符导致。如：开发时用的GBK编码编写，但html中却写UTF-8。典型的就是在中文Windows下用记事本，写一个UTF-8的html就会出现这个问题。

String getUrl = "http://xxxxx.html";
Document doc =  Jsoup.parse(new URL(getUrl).openStream(), "GBK", getUrl);