天池新闻推荐入门赛

2020-11-25  本文已影响0人  戈季

数据集分析

用户user-id 20万条
文章click_article 36万条
测试集testA_click_log.csv51万条点击数据,训练集train_click_log.csv104万条点击数据
格式

image.png

通过这9维的数据对下一篇文章的点击概率预测,可以用LR解决,与此同时,分类问题也可以由Xgboost, GBDT解决。

Task 01—Baseline-协同过滤

主要分为两步:
使用Item-CF计算物品相似度
根据用户的协同过滤值w_(i,j)进行文章推荐
N_(i)表示喜欢物品i的用户数

image.png

Task 02—数据分析

文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。
尤其需要用直方图观察数据分布,同时可以利用PCA等主成分分析法做一些重要特征的选取(另,sklearn中对于xgboost和gbdt方法有可直接调用的重要特征分析包)。

上一篇下一篇

猜你喜欢

热点阅读