机器学习-算法理论

模型排序能力与用户相关性

2021-10-14  本文已影响0人  shudaxu

在推荐场景下,模型auc大于0.5,其排序能力一定高于随机吗?模型离线评估auc大于0.5,上线后发现与随机推荐没差别?排序的商品结果与用户没有相关性?

关于相关性与偏置信息

对于单目标的推荐排序来说,模型能起到的优化效果只跟相关性有关(即内容与用户的相关性本身),与用户之间的差异,位置偏置,时间等因素都是无关的。
比如,我们在模型中假设只使用这些偏置因素,而不加入相关性特征(譬如完全没有item特征),也可以获得不错的auc,模型能区分不同用户/位置/时间之间的点击率差异,但并不能区分每个人在特定的时间会喜欢怎样的item。所以,最终排序结果,和直接随机排序是没有差别的。
即:模型的排序能力体现在两方面,其一是对偏置信息的排序能力,其二是对用户相关性的排序能力。

Refer:
[1]OVB
见:https://en.wikipedia.org/wiki/Omitted-variable_bias

[2]OVB与confounding bias之间的差异:(mediator and confounder)
https://stats.stackexchange.com/questions/496328/difference-omitted-variable-bias-and-confounding
1、即当缺失的变量为mediator的时候,这时其实X \rightarrow Y的估计在total effect维度是无偏的,但是对于direct effect来说是有偏的。(即在prediction problem中是没问题的,但是在causal problem中是有偏的)
2、而当缺失变量为confounder的时候,其估计的参数,在total effect维度也是有偏的。当然,direct effect也是有偏的。(在causal和prediction中都是有问题的)
3、因此,通常,这个bias要视情况来分析。譬如在临床医疗等领域,当我们关注某变量对疾病的直接影响,那么需要在direct effect保持无偏,因此无论mediator抑或confounder都需要被重视。而互联网ctr预估等领域,当只关注最终的估计Y时,缺失mediator不会导致total effect的bias所以可以忽略。当然,这都是理论分析,实际上我们并无法准确分辨mediator和confounder。

[3]关于 Collider 变量对模型的影响:
https://stats.stackexchange.com/questions/399640/including-collider-variables-in-prediction
总结就是:
1、在prediction problem中,加入collider并不影响结果(不影响预估结果,但是模型系数失去了表达”causality的性质“)
2、在causal problem中,collider会带来bias。(系数无法表征causality)

上一篇下一篇

猜你喜欢

热点阅读