啥游戏最赚钱?App store数据集分析

2019-03-29  本文已影响0人  坐下等雨

数据集来自DataFountain的AppleStore.csv:共7194行,16列,包含应用程序ID、名称、大小、价格、评分、内容评级、主要类型、支持设备类型数量等信息。

查看数据

df = pd.read_csv('AppleStore.csv', index_col=0)
df.head()
df.isnull().sum()

数据集中没有缺失值
将数据集中的字段改成中文,方便查看

df.columns = ['ID','名称', '大小','货币类型', '价格', '总评论数', '当前版本评论数', '总评分', '当前版本评分', '最新版本号', '内容评级', '类型', '支持设备数量', '截图数量', '支持的语言数', 'Vpp设备的许可']

价格分析

len(df[df['价格'] == 0.00])/len(df)
from pyecharts import Liquid
liquid = Liquid('免费应用占比')
liquid.use_theme('dark')
liquid.add('Liquid', [0.56], shape = 'circle')
liquid

苹果商店中一半多的APP都是可以免费下载的

no_free = df[df['价格'] != 0.00 ]['价格']
no_free = pd.cut(no_free, [0,5,10,300], labels=['低于5美元', '5-10美元', '10美元以上']).value_counts()
from pyecharts import Pie
attr = [x for x in no_free.index]
v = [x for x in no_free.values]
pie = Pie("价格分布")
pie.use_theme('dark')
pie.add("", attr, v, is_label_show=True)
pie

将收费应用分成三个区间,查看各区间占比情况,可以看到绝大多数应用处于5美元以下,只有少数敢卖到超过10元,看来开发商还是很注重像我这样的普通消费者的


from pyecharts import Scatter

v1 = [x for x in df['大小']]
v2 = [x for x in df['价格']]
scatter = Scatter("大小与价格关系")
scatter.use_theme('dark')
scatter.add("", v1, v2)
scatter

通过图片我们看到APP的大小与价格并没有相关性,大家还是比较注重APP的体验,并不会因为你做的APP大,就去买单。看来并不是什么,人们都喜欢大的,嘿嘿~

评论分析

由于数据集里面并没有提供下载量的指标,但是往往评论数越多的APP,下载量也会越大。所以这里就通过评论数量间接的分析下载量吧。

ga = df.groupby('类型')['总评论数'].mean()
from pyecharts import Bar
attr = [x for x in ga.index]
V = [x for x in ga.values]
bar = Bar('各类型评论数对比')
bar.use_theme('dark')
bar.add('', attr, V,xaxis_interval=0, xaxis_rotate=20, yaxis_rotate=0, bar_category_gap='35%')
bar

可以看到评论量大的是社交和音乐,可见这两块是个大蛋糕,用户需求量比较大。奈何无论各个国家,基本这两块基本都是一家独大,想从这里分一杯羹还是比较困难的,脑补一下老罗的子弹短信吧。


v1 = [x for x in df['支持的语言数']]
v2 = [x for x in df['总评论数']]
scatter = Scatter("支持语言数量和下载量关系")
scatter.use_theme('dark')
scatter.add("", v1, v2)
scatter

这里我想到一个有趣的问题,是不是一个APP支持的语言多,它的下载量就会比较大呢。也就是说,你照顾到很多国家人们的使用方便,被下载的机会也就大呢。



从散点图来看,语言和下载量没有相关关系,看来支持1到30种语言就基本够用了,支持多了受累未必会讨好。

什么游戏最赚钱

由于免费下载的APP无法统计赚钱多少,这里只统计付费下载的,并且没有下载量,我们只能通过评论数的价格来计算那个APP最赚钱了。当然,我相信那些免费下载的APP,有很多赚钱能力更强,比如王者农药,各种烧了几个亿的传奇手游。

money = df['价格'] * df['总评论数']
money.index = df['名称']
money.sort_values(ascending=False, inplace=True)
attr = [x for x in money.index[:10]]
V = [x for x in money.values[:10]]
bar = Bar("赚钱游戏排行")
bar.use_theme('dark')
bar.add("", attr[::-1], V[::-1], is_convert=True)
bar

由于我用的是pyecharts画图,这些图片其实都是可以划鼠标查看详情的,这里无法显示游戏的具体名称,名单我就手动贴出来吧,大家看看自己有没有贡献一份力量。

'Minecraft: Pocket Edition',
'Fruit Ninja Classic',
'Draw Something',
'SCRABBLE Premium',
'Call of Duty: Black Ops Zombies',
'TuneIn Radio Pro - MLB Audiobooks Podcasts Music',
'Clear Vision (17+)',
'Geometry Dash',
'Terraria',
'Plants vs. Zombies'

以我的英语水平,能认出来有‘我的世界’、‘水果忍者’、‘植物大战僵尸’,‘你猜我画?’,还有。。。没了~

level = df.groupby('内容评级')['总评论数'].mean()
attr = [x for x in level.index]
v = [x for x in level.values]
pie = Pie('各评级评论数占比', title_pos='center')
pie.use_theme('dark')
pie.add('', attr, v,radius=[40, 75], label_text_color=None, is_label_show=True,legend_orient="vertical",legend_pos="left")
pie

总结

上一篇下一篇

猜你喜欢

热点阅读