「爬虫」06爬虫的浏览器伪装技术

2020-01-09  本文已影响0人  林拂晓

1.浏览器伪装技术原理

    在爬取某些网站时,会返回403(禁止访问),因为对方服务器会对爬虫进行屏蔽,此时,需要伪装成浏览器才能爬取,浏览器伪装一般通过报头进行。

2.确定浏览器的User-Agent信息(以谷歌浏览器为例)

打开浏览器,调出开发人员模式,刷新网页,在任意.js文件中查看相关信息。

谷歌浏览器开发人员模式界面

3.利用浏览器伪装技术爬取csdn首页信息

浏览器伪装技术爬取csdn首页信息代码

4.利用浏览器伪装技术爬取csdn首页所有文章

浏览器伪装技术爬取csdn首页文章代码
上一篇 下一篇

猜你喜欢

热点阅读