个人专题随手记

分享爬取简书数据

2017-07-25  本文已影响296人  dalalaa

每个简书用户都有唯一的id号,除了部分种子用户id号是y3Dbcz这种形式,其他人都是32db699162d4这样一长串字符。通过id号可以得到该用户在简书的一切活动信息。

一、通过用户关注与粉丝关系爬取

思路是通过几个简书大号来抓取粉丝与关注列表,一层层嵌套抓取。这种方法用来抓微博用户关系挺好用的。
大致是这样的:

def get_user(url,i):
  #获取到粉丝url列表和关注url列表之后
  get_user(follower_url,i+1)
  get_user(following_url,i+1)
  if i == 5:#爬取深度设置为5
    return None

我原以为这样至少能抓到百万级的数据,最终随着我不断提高爬取深度一直到20,得到了34W的数据。

二、通过专题关注人数抓取

抓取到34w数据之后还来不及沾沾自喜就发现简书一个热门专题的关注人数都达到了100w这个数量级Σ(っ°Д°;)っ。可能是因为简书中存在大量只关注了一两个人或者谁都没关注的用户。
于是我选择了十个热门专题,抓去了关注列表,最终抓到了235w的用户ID数据。

我写这篇文章并不是为了讲我这个爬虫是怎么写的,而是因为工作太忙,我现在没时间将这个爬虫继续写下去了,所以我把现有的数据分享出来,看有没有人需要的,可以用来做爬虫练习和数据分析。

第二条思路的缺点是覆盖面不够广,缺少很多大V的数据,最好是能够将两种方式结合起来进行抓取。

最后放链接:
链接:http://pan.baidu.com/s/1c2aSOVm 密码:2dtt

上一篇下一篇

猜你喜欢

热点阅读