「爬虫」06爬虫的浏览器伪装技术
2020-01-09 本文已影响0人
林拂晓
1.浏览器伪装技术原理
在爬取某些网站时,会返回403(禁止访问),因为对方服务器会对爬虫进行屏蔽,此时,需要伪装成浏览器才能爬取,浏览器伪装一般通过报头进行。
2.确定浏览器的User-Agent信息(以谷歌浏览器为例)
打开浏览器,调出开发人员模式,刷新网页,在任意.js文件中查看相关信息。
![](https://img.haomeiwen.com/i1969457/38855f60c90c1907.jpg)
3.利用浏览器伪装技术爬取csdn首页信息
![](https://img.haomeiwen.com/i1969457/3c078ef44c44048b.png)
4.利用浏览器伪装技术爬取csdn首页所有文章
![](https://img.haomeiwen.com/i1969457/25dca2da7760ceaa.png)
1.浏览器伪装技术原理
在爬取某些网站时,会返回403(禁止访问),因为对方服务器会对爬虫进行屏蔽,此时,需要伪装成浏览器才能爬取,浏览器伪装一般通过报头进行。
2.确定浏览器的User-Agent信息(以谷歌浏览器为例)
打开浏览器,调出开发人员模式,刷新网页,在任意.js文件中查看相关信息。
3.利用浏览器伪装技术爬取csdn首页信息
4.利用浏览器伪装技术爬取csdn首页所有文章