利用Selenium工具爬虫
2018-11-20 本文已影响0人
Yilia_11d2
简介
Selenium是一款自动化测试工具,支持Chrome,Safari,Firefox 等主流界面式浏览器;支持多种语言开发,比如Java,C,Python等。
安装
pip install selenium
使用
这里测试的浏览器是chrome
首先要安装chromedriver,可以参考博客,注意安装跟本机chrome浏览器对应版本的chromedirver
安装好之后,在python项目中创建一个文件夹tools,存放出chromedriver和chromedriver.exe,文件夹的路径随意
1.png准备工作已经做好了,接下来就开始写代码啦
关键代码:
2.png运行代码,chromedriver会自动打开抓取的网页。
关键是怎么自动模拟点击网页呢?其实也很简单,两步搞定:
第一步:手动获取网页元素
把鼠标放到网页元素上(比如按钮,输入框,图标之类),右键鼠标,点击“检查”,就可以看到网页右侧出现了网页源代码,并且定位到了所点击的元素。
比如获取百度的输入框,可以得到输入框的class,type,name,id等等,这些就是定位元素的关键信息。
3.png第二步:写代码
利用图2.png中的browser,browser中有很多方法可以定位元素
4.png理论上采用其中一种方法就可以定位元素。
定位单个元素:
5.png定位元素组:
6.png别忘了关闭浏览器哦~
7.png踩坑记录
自动跳转页面之后,元素定位失败
7.png解决办法:对新弹出的页面进行重定位
8.png