python爬虫环境配置
2018-10-11 本文已影响0人
Hf1dw
0x01 requests
- 特点
优点:速度快
缺点:不直接加载在源码中的元素无法提取 - 方法
0x02 selenium
- 特点
优点:模拟人工操作浏览器,不用设置代理 ip 和 headers 去做反爬虫处理,可以直接提取页面元素里的信息。
缺点:速度慢 - 与浏览器交互的驱动程序下载地址
chrome:https://chromedriver.storage.googleapis.com/index.html
Edge:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver)
Firefox:https://github.com/mozilla/geckodriver/releases
Safari:https://webkit.org/blog/6900/webdriver-support-in-safari-10/
- 谷歌驱动程序版本选择对照表
- 下载的驱动程序放在相应的python文件夹下
其他常用的库:
- lxml:支持html与xml的解析
- bs4:解析和提取 HTML/XML 数据
lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器、lxml 的 XML解析器。