Python requests+gevent+Beautiful

2016-09-01 本文已影响538人 Daemon1993

很久没有写新的内容了，看最近的一篇都有2/3个半年了最近又看了一些爬虫文章还是想深入研究下

目标就是能爬知乎,太可怕了

最近工作中有个需求是抓一些数据数据量上万讲真以前都是玩玩没实战所以来这个需求的时候我内心其实有点激动

装逼模式已开启

然后我开始装逼了用request + BeautifulSoup(html) 用这两货实现
requests请求网络数据加载
BeautifulSoup(html) 自在解析器解析网络获取数据
啪啦啪啦啪啦啪啦没几下代码撸完了顿时感觉登上人生巅峰
开始运动哦不对是运行结果这货第一页(20个详情)数据用了快4分钟
要不是中途有些log打印我都以为他死了

懵逼ing

我一想这么不行啊我特么600页的数据这能玩
然后我就想每次数据获取一整个套路下来
就是请求--->IO读取--->解析
能优化速度的地方就是 IO读取解析
有方向那就开始说说解析
本来用的BeautifulSoup 自带的解析器文档上说了速度慢
既然说了速度慢肯定有速度快的我就看了一下 lxml速度快需要安装C语言库
解析属于高度计算对于IO密集型与CPU密集来讲属于CPU密集型任务越底层的语言越有优势所以这里C语言会很快
然后就开始安装 lxml
果不其然报错了当时在公司做是Windows 说是缺少一个啥子具体不记得(反正是微软的 )
如果Windows安装出相关问题可以先用pip install wheel安装这个然后下载lxml相关的whl文件直接下载下来安装就行
这里要选择版本什么的
相关whl下载地址进去 ctrl+F搜索就行注意版本号和你Py版本 34 35 27 啥的
http://link.zhihu.com/?target=http%3A//www.lfd.uci.edu/~gohlke/pythonlibs/%23lxml
一顿折腾lxml终于安装OK
然后 requests+BeautifulSoup(lxml) 在运动一页50S
当时我就给吓尿了效率直接快10倍号码
真是 ‘搏一搏单车变摩托’

66666翻天

然后我又感觉我登上了人生巅峰电脑挂着下班回家
第二天一脸懵逼说好的数据呢中途不知道咋的卡着不动了一晚上没抓完本来以为一晚上10个小时差不多能抓完的结果来这么一出
然后想着我总不能又跑一次等10个小时吧没那闲功夫看着啊
然后想着能不能再IO等待那里做处理我想着请求过去了本地堵塞等着要是等待的时候干点别的比如开启另外的请求这样是不是效率很高很多
然后就查了一下多线程多进程
结果整出来gevent 异步框架里面用的协程(也是单线程不过可以跳度切换任务)
然后加上这个gevent之后
卧槽 ----直接每页变成 10S

喜极而泣

最后完成那600页数据的读取在这个基础还加上了进程池pool
200页一个进程反正最后 3 40分钟就拿到了12000条数据

夜深了就是容易说废话铺垫做完了现在来讲讲这些东西

requests 比起自带的urllib2啥的方便很多这个没啥说的可以自己去看看
gevent 异步框架今天也是刚用用法也简单等会看代码
BeautifulSoup 超级6 叼炸天去从网页数据中获取你要的数据前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客主要介绍的用糗事百科的数据来看看咋使用select 和 find
这里先贴两张图糗事百科数据获取的50页数据的情况 find VS select 貌似差不多没做详细对比不过我感觉还是find快些吧毕竟select返回list 大数据量下还是要测试一波两个都挺好用的看习惯

find方法
select方法
然后一看也有106秒左右为什么也不快因为没用代理IP(今天去相关网站找的一些用进去很慢而且很多不能用先放着) 然后如果访问太快直接返回我503 所以每请求一页 sleep(1) s 也就是说理论上如果不停这1S我50页应该是最多66秒左右能跑完也就是平均一页1S多一点
就算现在停了在异步和lxml的处理下大概也就2S一页其实算可以啦

再贴一记打印内容的

详细获取数据打印
分析图

全部代码图一点点 (后面放github后会更新文章)

  __author__ = 'Daemon1993'

  import gevent
  import requests
  import time
  from bs4 import BeautifulSoup
  from bs4 import SoupStrainer

  SP = 1
  Count=0

  def getHtmlByFind(baseurl, page):
      url = baseurl + str(page)
      r = requests.session()

      html = r.get(url, timeout=5)

#如果状态不正确 这里目的503 暂停时间增大一点
if (html.status_code != 200):
    global SP
    SP += 0.5
    return

#减少内存压力 取出我们需要的那块 不用全部
only_div_tag = SoupStrainer(id="content-left")

# 先拿到这一块
data = BeautifulSoup(html.text, "lxml",parse_only=only_div_tag)

for tag in data.find_all("div", class_="article block untagged mb15"):
    name=tag.find("img").get('alt')
    content=tag.find("div",class_="content").text.strip()
    global Count
    Count+=1
    pass
    # print("\\n 用户:{0} \\n {1}".format(name,content))

#每请求一次 睡眠一下
time.sleep(SP)

  def getHtmlBySelect(baseurl, page):
      url = baseurl + str(page)
      r = requests.session()

html = r.get(url, timeout=5)

if (html.status_code != 200):
    global SP
    SP += 0.5
    return

#减小内存压力
only_div_tag = SoupStrainer(id="content-left")

# 先拿到这一块
data = BeautifulSoup(html.text, "lxml",parse_only=only_div_tag)

for tag in data.select('div[class="article block untagged mb15"]'):
    name=tag.select('img')[0].attrs.get('alt')
    content=tag.select('div[class="content"]')[0].get_text().strip()
    global Count
    Count+=1
    print("\\n 用户:{0} \\n\\n {1}".format(name,content))

#每请求一次 睡眠一下
time.sleep(SP)

def useFind(baseurl):
    start=time.time()
    global  Count
    Count=0
tasks = [gevent.spawn(getHtmlByFind, baseurl, index) for index in range(1, 50)]
gevent.joinall(tasks)

elapsed=time.time()-start
print('getHtmlByFind time {0}  size{1}'.format(elapsed,Count))

def useSelect(baseurl):
start=time.time()
global  Count
Count=0
#gevent.spawn 加入任务方法
tasks = [gevent.spawn(getHtmlBySelect, baseurl, index) for index in range(1, 50)]
#全部加入队列开始 处理 
gevent.joinall(tasks)

elapsed=time.time()-start
print('getHtmlBySelect time {0}  size{1}'.format(elapsed,Count))

  if __name__ == '__main__':
      baseurl = "http://www.qiushibaike.com/8hr/page/"
      #useFind(baseurl)
      useSelect(baseurl)

主要看看 BeautifulSoup 的用法

先分析网页结构如何拿到我们想要的 1是每一个 2是有头像地址和名字 3是content内容
如下图取每个1的 2 3就行

find分析结构图

find实现

跟就结构分析大题思路
1处是一个列表 ---> find_all("div",class__="className")--List
然后对每个集合中取出 img 和 div[class="content"]的内容代码如下
for tag in data.find_all("div", class_="article block untagged mb15"):
name = tag.find("img").get('alt')
content = tag.find("div", class_="content").text.strip()

select实现

这里要先记住一点 select 每次返回都是list 在你能控制的住的情况下取[0]
同样分析你会发现其实差不多只是写法上有些不同可以仔细看看两者的写法
for tag in data.select('div[class="article block untagged mb15"]'):
name = tag.select('img')[0].attrs.get('alt')
content = tag.select('div[class="content"]')[0].get_text().strip()

文档很多但是下面这个我觉得看着最舒服BeautifulSoup 相关文档
下面图片所示的好像是正规文档
不知道为啥也许是配色看的我头晕
正规军团

大学友
童真年代
画画出我的梦
梦里的天空
总会有彩虹
画画一只蜜蜂
乘着晚风

Python requests+gevent+Beautiful

很久没有写新的内容了，看最近的一篇都有2/3个半年了最近又看了一些爬虫文章还是想深入研究下

夜深了就是容易说废话铺垫做完了现在来讲讲这些东西

requests 比起自带的urllib2啥的方便很多这个没啥说的可以自己去看看

gevent 异步框架今天也是刚用用法也简单等会看代码

BeautifulSoup 超级6 叼炸天去从网页数据中获取你要的数据前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客主要介绍的用糗事百科的数据来看看咋使用select 和 find

主要看看 BeautifulSoup 的用法

find实现

select实现

猜你喜欢

热点阅读

Python requests+gevent+Beautiful

很久没有写新的内容了，看最近的一篇 都有2/3个半年了 最近又看了一些爬虫文章 还是想深入研究下

夜深了 就是容易 说废话 铺垫做完了 现在 来讲讲这些东西

requests 比起自带的urllib2啥的 方便很多 这个没啥说的 可以自己去看看

gevent 异步框架 今天也是刚用 用法也简单 等会看代码

BeautifulSoup 超级6 叼炸天 去从网页数据中获取你要的数据 前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客 主要介绍的 用糗事百科 的数据 来看看咋使用select 和 find

主要看看 BeautifulSoup 的用法

find实现

select实现

猜你喜欢

热点阅读

很久没有写新的内容了，看最近的一篇都有2/3个半年了最近又看了一些爬虫文章还是想深入研究下

夜深了就是容易说废话铺垫做完了现在来讲讲这些东西

requests 比起自带的urllib2啥的方便很多这个没啥说的可以自己去看看

gevent 异步框架今天也是刚用用法也简单等会看代码

BeautifulSoup 超级6 叼炸天去从网页数据中获取你要的数据前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客主要介绍的用糗事百科的数据来看看咋使用select 和 find