机器学习-算法理论

Q&A 第一期

2019-12-10  本文已影响0人  shudaxu

Q:loss不低,auc高可以算收敛吗?
当我们使用模型的排序能力时,auc高则已经满足排序能力的高。
但是当我们使用其绝对值的时候,如广告预估,其预估值需要对真实值有参考价值才行。

Q:train loss一直保持在较高水平
对不同问题,模型的拟合能力差距较大,比如,在图像识别中,可能一些任务很容易达到90%的准确率。其loss可能会很低。而像ctr预估这种模型,其auc可能经常会在0.7,0.8左右徘徊,数据稀疏性也比较强,在不overfitting的情况下(数据量大,很多只会训练 one epoch),loss很难降到很低。

Q:如何确定AUC值是高是低?
不同的场景,AUC值高低差异很大。有可能在某场景广告ctr预估0.8不算高,而在某推荐列表页cvr预估0.7已经很高了。auc的高低跟你所要预估的场景,你所掌握的特征,样本,以及你要预估的目标与其本身场景的特性有很大关系。AUC很高了还有优化空间吗,有!比如有的场景是否播放与用户是否在wifi下关系很大。在wifi下播放的概率非常高,不在wifi基本不会播放,那么模型只要学到这一点,auc可能就不低了。但是在你们的场景里,这个auc值其实是biased,因为用户本身网络环境在一次请求中是常量。所以,区分这些常量跟label的相关性对你要解决的排序问题没有本质帮助。(注意,这些“常量”与别的特征交叉还是有帮助的),所以例如计算GAUC一样,你也可以将wifi的数据单独拎出来计算AUC。

上一篇下一篇

猜你喜欢

热点阅读