用Python分析豆瓣电影TOP250

2018-01-14 本文已影响419人弃用中

那么肯定就要把相关的数据采集下来，比如排名、电影名、导演、主演等信息。

那就肯定使用一下爬虫咯，如果还不会的话，欢迎看之前的文章：

当然，你也可以使用豆瓣提供的API接口:https://developers.douban.com/wiki/?title=movie_v2，提供的数据比较完整：

试了下，这应该是好久之前的信息了，现在调用API返回的数据有些已经没了，而且有调用次数限制，还是自己写爬虫采集信息吧，就当练练手！

若不想这么麻烦，也提供采集的数据：https://pan.baidu.com/s/1pMAUr6V

下面就开始进行小小的分析啦，

首先，导入要用到的包以及数据：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('douban.csv')

查看一下：

df.head()

df.tail()

说好的TOP250呢？这就要吐槽一下豆瓣电影TOP250了，有些链接已经没用了，竟然没有更新，比如说排名20的熔炉。

我们让其按豆瓣评分排序，并查看排名前五的电影：

df.sort_values('豆瓣评分',ascending=False).head()

而豆瓣评分超过9.5的，原来只有两部：

df[df['豆瓣评分']>9.5]

上榜次数最多的导演们：

df['导演'].value_counts()

机智如你，肯定做的比我更好！

小弟先行一步，补片去了……

以上。