流浪地球豆瓣评分事件分析
2019-03-15 本文已影响0人
zzzzzzzeng
流浪地球在截至目前票房已达到46亿,成为中国电影史上票房第二高的电影。电影自春节上映开始,由流浪地球延申关于国产科幻电影等相关话题的热度一直很高。而2月20日左右社交媒体上开始有流浪地球在豆瓣被恶意一分的新闻出现,将流浪地球的讨论热度推向最高点。
本文尝试对流浪地球的在豆瓣的评分和评论等数据进行分析,以期得回答以下问题:
- 1.流浪地球在豆瓣的真实评分状况如何,是否被恶意评分。
- 2.豆瓣电影用户对于流浪地球的真实感受如何。
- 3.豆瓣电影的用户是否偏爱国外电影。
数据获取
1.爬取豆瓣电影的全部电影详情界面下的电影名称,制片地区,评价数量,评分分布等字段。
爬虫代码请见:[待插入github的豆瓣爬虫代码]
得到的数据如下:

数据清洗
得到的数据有以下问题
- 所有元素的格式都为str(s) of list,需要转换成相应的typ
- descriptions内包含部分需要提取的字段:语言,片长,上映日期等。
- 'type'等分类型数据需要根据需要进行one-hot转换。
数据清洗后的数据展示
-
爬取流浪地球可查看的全部热门评论。
豆瓣电影评论区.PNG