Python爬取《流浪地球》豆瓣影评与数据分析

2019-02-08 本文已影响0人学编程的金融客

大年初一《流浪地球》全国上映。在豆瓣评分上，首日开分站稳8分以上，延续了之前点映的高口碑。微博上跟着出现吴京客串31天与投资6000万的热搜。知乎上关于“如何评价刘慈欣小说改编的同名电影《流浪地球》”的回答引起了众多人关注，包括该片导演郭帆的最高赞回答。

本篇文章爬取了豆瓣网上《流浪地球》的部分影评，并进行数据分析及可视化处理。下面是爬取分析的整个过程，让我们愉快开始吧！

一、网页分析

豆瓣网从2017年10月开始全面禁止爬取数据。在非登录状态下仅仅可以爬取200条短评，登录状态下仅可以爬取500条数据。白天一分钟最多可爬40次，晚上60次，超过次数就会封IP地址。小本聪爬取数据获得400条时被封了IP，账号被强制下线封号，之后发短信账号恢复，因此不建议多次爬取（另外，有很多解决方法，请自行搜索）。

获取对象

评论用户

评论内容

评分

评论日期

用户所在城市

值得注意的是，在地址栏我们会发现电影名字的ID编号为26266893（其他电影只需更换ID即可），并且每页有20条短评，因此我爬取了20页。评论页面没有用户所在城市，需要进入用户页面获取信息。

二、数据获取与存储

1 获取cookies

小本聪用的是Chrome浏览器，Ctrl+F12进入开发者工具页面。F5刷新一下出现数据，找到cookies、headers。

2 加载headers、cookies，并用requests库获取信息

3 解析需求数据

此处运用xpath解析。发现有的用户虽然给了评论，但是没有给评分，所以score和date这两个的xpath位置是会变动的。因此需要加判断，如果发现score里面解析的是日期，证明该条评论没有给出评分。

foriinrange(1,21):# 每页20个评论用户

name = x.xpath('//*[@id="comments"]/div[{}]/div[2]/h3/span[2]/a/text()'.format(i))

# 下面是个大bug，如果有的人没有评分，但是评论了，那么score解析出来是日期，而日期所在位置spen[3]为空

4 获取电影名称

从url上只能获取电影的subject的8位ID数值，引起需要自行解析网页获取ID号对应的电影名称，该功能是后期改进添加的，因此为避免现有代码改动多(偷个懒)，采用了全局变量赋值给movie_name，需要注意全局变量调用时，要加global声明一下。

5 数据存储

由于数据不多，选择CSV存储即可。

三、数据分析与可视化

1 获取cookies

城市信息筛选中文字

匹配pyecharts支持的城市列表

2 基于snownlp的情感分析

snownlp主要可以进行中文分词（算法是Character-Based Generative Model）、词性标注（原理是TnT、3-gram 隐马）、情感分析（官网木有介绍原理，但是指明购物类的评论的准确率较高，其实是因为它的语料库主要是购物方面的，可以自己构建相关领域语料库，替换原来的，准确率也挺不错的）、文本分类（原理是朴素贝叶斯）、转换拼音、繁体转简体、提取文本关键词（原理是TextRank）、提取摘要（原理是TextRank）、分割句子、文本相似（原理是BM25）【摘自CSDN】。在看此之前，建议先看一下官网，里面有最基础的一些命令的介绍。官网链接：https://pypi.org/project/snownlp/

由于snownlp全部是unicode编码，所以要注意数据是否为unicode编码。因为是unicode编码，所以不需要去除中文文本里面含有的英文，因为都会被转码成统一的编码上面只是调用snownlp原生语料库对文本进行分析，snownlp重点针对购物评价领域，所以为了提高情感分析的准确度可以采取训练语料库的方法。