Python程序员联盟python爬虫入门看这个就够了python学习记录

Python爬虫:selenium的填坑心得

2017-12-16  本文已影响597人  Tony带不带水
永远是别人家的猫好看

在之前的文章中说过,模拟浏览器在现在的python库中有两个选择Mechanize与Selenium:然而Mechanize不支持JavaScript,Selenium是一套完整的Web应用程序测试系统。所以对于爬虫开发来说selenium就成了爬虫开发的核武器,可以有效的帮助我们(1.无脑的执行JavaScript渲染页面;2.规避反爬)。
在此之前实现的十几万网站的频道识别是绝对不能算是定点爬虫的了,所以只好祭出核武器。
网上关于selenium的教程有很多,这里细数selenium的注(yi)意(xie)事(shen)项(keng)

作者本人并不是特别建议在定点抓取类的爬虫中使用selenium,主要原因是因为,selenium为了达到跨平台跨浏览器的目的,采用了通过javascript来驱动浏览器动作的方法,而selenium为执行速度依赖于浏览器对js的解析执行速度,偏偏selenium无法很好的界定页面加载情况(是加载完成还是在继续执行某些操作),成也萧何败也萧何。
假如定点类抓取中想要执行JavaScript,我本人是用PyV8,是一个Python封装V8引擎的壳。能够利用python来构建出JavaScript的运行时环境。不如后面的文章找一篇说下PyV8好了,大家周末愉快。

上一篇 下一篇

猜你喜欢

热点阅读