python爬取热门微博评论并对其进行数据可视化

2019-03-19 本文已影响51人 9ba4bd5525b9

在爬取数据的时候会面临几个问题：

1.存储选择

我这里选用了MongoDB作为数据存储，因为api通常返回的是json数据而json结构和MongoDB的存储方式可以结合的很默契，不需要经过任何处理可以直接的进行插入。

2.防爬虫

很多网站可能会做一些防爬虫的处理，面对同一个请求ip的短时间的高频率请求会进行服务隔断(直接告诉你服务不可用)，这个时候可以去网上找一些代理进行请求。

3.多线程的任务分配

采用多线程爬取你当然不能让多个线程去爬取同样的链接做别人已经做过的事情，那样多线程毫无意义。所以你需要制定一套规则，让不同线程爬取不同的链接。

运行脚本完毕，我的MongoDB得到了2万多条评论数据，接下来要做的事是对这部分数据进行提取、清洗、结构化等操作。这里顺便说明一下python 数据分析的大致基本流程。

1.与外界进行交互

这个过程包括数据的获取、读取。不管是从网络资源上爬取、还是从现有资源(各样的文件如文本、excel、数据库存储对象)

2.准备工作

对数据进行清洗(cleaning)、修整(munging)、整合(combining)、规范化(normalizing)、重塑(reshaping)、切片(slicing)和切块(dicing)

3.转换

对数据集做一些数学和统计运算产生新的数据集

4.建模和计算

将数据跟统计模型、机器学习算法或其他计算工具联系起来

5.展示

创建交互式的或静态的图片或文字摘要

下面我们来进行2、3及5的工作:

最后得到结果: