java学习笔记IT技术篇程序猿阵线联盟-汇总各类技术干货

jsoup解析中文乱码

2019-09-19  本文已影响0人  菜菜___

在使用jsoup爬取网页内容的时候发现获取到的中文有乱码问题,如下所示:

String getUrl = "http://xxxxx.html";
Document doc = Jsoup.connect(getUrl).get();

一般出现这个情况是由于url指向的页面,实际编码与html中描述的编码不符导致。如:开发时用的GBK编码编写,但html中却写UTF-8。典型的就是在中文Windows下用记事本,写一个UTF-8的html就会出现这个问题。

解决办法:设置编码格式
String getUrl = "http://xxxxx.html";
Document doc =  Jsoup.parse(new URL(getUrl).openStream(), "GBK", getUrl);

原文作者技术博客:https://www.jianshu.com/u/ac4daaeecdfe
上一篇下一篇

猜你喜欢

热点阅读