node.js cheerio爬虫乱码问题

2019-09-30  本文已影响0人  倔强的满腔热血

用cheerio爬取某小说网站数据时,出现中文乱码问题,这里记录一下解决方法.

1 查看网站编码

按f12查看网站源文件,然后搜索charset, 后面的内容就是该网站的编码,如下图, 可知该网站编码为'gbk'.


网站编码.png

2 使用如下两个库

(1) request 用于发起http请求

options = {
    url: 'https://m.biquge5200.cc/',
    encoding: null,
  }

(2) iconv 用于转码, 使用方法如下

const iconv = require('iconv-lite');
iconv.decode(
html, // request请求的返回值
'gbk' // 第一步查看到的网页编码
);

最终结果

转码前.png 转码后.png
上一篇 下一篇

猜你喜欢

热点阅读