「爬虫」06爬虫的浏览器伪装技术

2020-01-09 本文已影响0人林拂晓

1.浏览器伪装技术原理

在爬取某些网站时，会返回403（禁止访问），因为对方服务器会对爬虫进行屏蔽，此时，需要伪装成浏览器才能爬取，浏览器伪装一般通过报头进行。

2.确定浏览器的User-Agent信息（以谷歌浏览器为例）

打开浏览器，调出开发人员模式，刷新网页，在任意.js文件中查看相关信息。

谷歌浏览器开发人员模式界面

3.利用浏览器伪装技术爬取csdn首页信息

浏览器伪装技术爬取csdn首页信息代码

4.利用浏览器伪装技术爬取csdn首页所有文章

浏览器伪装技术爬取csdn首页文章代码