零基础入门推荐系统 Task01:赛题理解+Baseline(3
2020-11-24 本文已影响0人
0error_
跟着跑了一下baseline,记录一下遇到的不熟的函数和问题:
- drop_duplicates :去除重复数据
drop_duplicates((['user_id', 'click_article_id', 'click_timestamp']))
- reset_index():重置索引
DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
- defaultdict(int)
defaultdict类返回一个类似于的字典对象,第一个参数给default_factory属性赋值,其它的参数都传递给dict构造器。通俗来说就是defaultdict类的初始化函数接收一个类型作为参数,当访问的键不存在,实例化一个值作为默认值。(https://blog.csdn.net/Alen_1996/article/details/87916039)如果是int,当key不存在时,对应0(https://www.jianshu.com/p/bbd258f99fd3)
有关itemCF部分补充这里的文档进行学习:https://github.com/datawhalechina/team-learning-rs/blob/master/RecommendationSystemFundamentals/02%20%E5%8D%8F%E5%90%8C%E8%BF%87%E6%BB%A4.md
需要后续再查的问题:逆用户频率(IUF, Inverse User Frequence)