数据科学

TalkingData Mobile User Demograp

2016-11-03  本文已影响243人  y_felix

问题描述

基于用户app的下载和使用情况预测用户的人口属性(性别和年龄)。

数据说明

数据说明.png
  1. gender_age:训练和测试集
  2. events, app_events: 当用户使用TakingData SDK时,系统记录的日志。包括经纬度和对应app情况。
  3. phone_brand_device_mode:用户的手机属性

数据分析

基本数据

训练集.png

如上图所示,选手要做的不是直接预测用户的性别和年龄,而是把预测用户属于哪个性别/年里的分组。在这个比赛中,赛题举办方将用户分为12个组,例如M32-38,该用户为男性,年龄在32-38岁之间。选手给出预测结果,采用的评分机制是logloss。

年龄和性别分布

年龄和性别分布情况.png

基于手机类型的性别分布

可以猜想,用户的年龄和性别跟使用的手机型号和使用的app会有一定关系,直接用图标来说明问题。


性别分布

横坐标是不同的手机型号,纵坐标是性别的分布情况。整体上男性的比例大于女性(猜想这些sdk都是基于Android的,Android用户中,女性用户大于男性用户),在某些手机的型号中,男女比例是用显著不同的。

基于手机类型的年龄分布

年龄分布

大多数看起来都一样,没有明显区别。

解决方案

1、基于手机品牌,型号和安装app(brand,model,app)

2、深度学习方法

该方法主要基于方法1,在方法1的基础上增加了一些tf-idf的特征。由于处理好的特征和维度和一张图片的维度比较类似,所以有些选手分享了一些基于深度学习的方法,这些方法在这个问题中也取得了比较好的效果。

3、数据泄露

这是一个很有争议的比赛,因为在本次比赛中出现了严重的数据泄露,可以看到,在比赛的最后阶段,利用数据泄露的队伍成绩得到了大幅度提升。提升幅度约为0.06

排名情况

参考价值

参考链接

上一篇 下一篇

猜你喜欢

热点阅读