天池新闻推荐入门赛

2020-11-25 本文已影响0人戈季

数据集分析

用户user-id 20万条
文章click_article 36万条
测试集testA_click_log.csv51万条点击数据，训练集train_click_log.csv104万条点击数据
格式

image.png

通过这9维的数据对下一篇文章的点击概率预测，可以用LR解决，与此同时，分类问题也可以由Xgboost， GBDT解决。

Task 01—Baseline-协同过滤

主要分为两步：
使用Item-CF计算物品相似度
根据用户的协同过滤值 $w_(i,j)$ 进行文章推荐
$N_(i)$ 表示喜欢物品 $i$ 的用户数

image.png

Task 02—数据分析

文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。
尤其需要用直方图观察数据分布，同时可以利用PCA等主成分分析法做一些重要特征的选取（另，sklearn中对于xgboost和gbdt方法有可直接调用的重要特征分析包）。

天池新闻推荐入门赛

数据集分析

Task 01—Baseline-协同过滤

Task 02—数据分析

猜你喜欢

热点阅读