python爬虫环境配置

2018-10-11 本文已影响0人 Hf1dw

0x01 requests

特点
优点：速度快
缺点：不直接加载在源码中的元素无法提取
方法

0x02 selenium

特点
优点：模拟人工操作浏览器，不用设置代理 ip 和 headers 去做反爬虫处理，可以直接提取页面元素里的信息。
缺点：速度慢
与浏览器交互的驱动程序下载地址

chrome：https://chromedriver.storage.googleapis.com/index.html
Edge：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver) 
Firefox：https://github.com/mozilla/geckodriver/releases
Safari：https://webkit.org/blog/6900/webdriver-support-in-safari-10/

谷歌驱动程序版本选择对照表

下载的驱动程序放在相应的python文件夹下

其他常用的库：

lxml:支持html与xml的解析
bs4:解析和提取 HTML/XML 数据

lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器、lxml 的 XML解析器。

上一篇下一篇

猜你喜欢

热点阅读