2020RecSys-Are We Evaluating Rig

2020-10-22  本文已影响0人  andyham

作者以及单位

Zhu Sun (第一作者), Hui Fang (通讯作者)
澳洲麦考瑞大学,上海财经大学

解决问题

在推荐系统算指标的时候,应该用什么样的标准体现其公平性?(我觉得是一个非常好的问题,很多新的作者在测试state-of-the-arts算法都感觉没有论文现在的那么好,而且作者解释是超参不一样)
所以本文针对隐式反馈Top-N推荐问题提出一种benchmark,并总结出一些在对于模型评价具有重要影响的实验设置因素:数据处理,数据分割,超参数选择、负采样选择以及损失函数选择等。

研究对象

2017-2019 一共三年八个顶会:RecSys,KDD,SIGIR,WWW,IJCAI,AAAI,WSDM,CIKM.共24次会议(工作量很大)。
在这24个会议中搜索以下关键字:recommand,collaborative filtering,手工选择 ranking metrics指标,如precision和recall等。
最后定了85篇文章,并都提供了github的源代码以及数据。

3年的论文分类情况
果然数据是movielens是第一名。基本以后的推荐系统文章数据集来自以下内容
推荐系统用的数据
大家通常对比的论文是这些。看来贝叶斯性化排序 (BPRMF) ,render的因子分解机FM和何向南的NeuMF是大家的最爱。(第二名和第三名分别发论文质疑对方的效果。)
baseline
我觉得这个是最重要的,大家对比的metrics分别是什么。排序的ndcg果然是第一,接下来是召回recall和HR以及precision的准度。
指标

内含常用的基线和SOTA对比方法:(虽然我经常用state-of-the-art这个词,但是我一直不知道SOTA是它的缩写,本来以为是一个很厉害的模型,是指最先进的模型)即,如果要比,一般比这几个算法:


sota

论文地址:https://dl.acm.org/doi/pdf/10.1145/3383313.3412489
论文源码:https://github.com/AmazingDD/daisyRec

研究方法

第三章核心讨论了大家推荐结果不同的主要原因IMPACTS OF DIFFERENT FACTORS如下:
数据预处理Data Pre-processing
损失函数Objective Function
负样本Negative Sampling
分数据的方法Data Splitting Methods
评测指标Evaluation Metrics

可以看到例如数据划分的比例不一样,在NDCG表现的结果就不一样的。


数据划分

评测指标与时间划分的相关性(说实话,我没有看懂这个图的意思)


the correlations of evaluation metrics w.r.t. time-aware split-by-ratio

创新点

说了以上可能出现的问题,那么什么样的数据预处理,损失函数,负样本处理,划分和评测是好的呢?
作者提出benchmarks需要满足的一些条件,并基于此选择一些代表性的模型进行实验。除此之外,还发布了基于python的代码库。以下为该开源代码库的架构图,包括数据集的加载方式、预处理方式、对比方法选择等组件。


标准操作

结论

原文说的很清楚了:
1:以后的推荐系统最后就定了1数据处理,2数据分割,3超参数选择、4负采样选择以及5损失函数选择6评测指标,这6个。
2:在这6个指标上,作者提出了比较出名的数据集最好的参数(github有),大家以后就按这个参数设置。
3:如果还不会,给了python的工具包DaisyRec方便调用。

读完总体感觉,看起来比较简单创新不大,但是贡献很大,而且工作量不少!而且写法比较新颖,比较少见。
we summarize the essential factors related to evaluation, e.g., data splitting methods, evaluation metrics and hyper-parameter tuning strategies, etc. Through an extensive empirical study, the impacts of different factors on evaluation are then comprehensively analyzed.

we create benchmarks for rigorous evaluation by proposing standardized procedures and providing the performance of seven well-tuned state-of-the-art algorithms on six widely-used datasets across six metrics as a reference for later study.

Lastly, a user-friendly Python toolkit-DaisyRec has been released from the angle of achieving rigorous evaluation in recommendation.

上一篇下一篇

猜你喜欢

热点阅读