大数据模型算法概览

2022-09-29  本文已影响0人  郭彦超

算法模型干货总结

假设我有5枚硬币,都是正反面不均匀的。我们玩一个游戏,每次你可以选择其中一枚硬币掷出,如果掷出正面,你将得到一百块奖励。掷硬币的次数有限(比如10000次),显然,如果要拿到最多的利益,你要做的就是尽快找出“正面概率最大”的硬币,然后就拿它赚钱了。
这个问题看起来很数学化,其实它在我们的生活中经常遇见。比如我们现在有很多在线场景,遇到一个相同的问题:一个平台这么多信息,该展示什么给用户,才能有最好的收益(比如点击率)?
Google作为最大的搜索广告公司,在用户搜索时该展示什么广告;抖音的Feed流推荐,如何从普通用户那里找到优质内容;淘宝有海量的商品池子,该如何捞取用户最容易剁手的商品展示出来?其背后必然有大量算法模型做支撑

模型分类

按照预测目标分: 有监督无监督
按照门类划分: 传统机器学习深度学习
按照场景划分:自然语言计算机视觉音频对话分类预测自动驾驶
按照用途划分: 搜索推荐召回&排序广告CTR预估风控监测流失预测抠图智能审核智能客服

常用模型介绍

当我们不能通过统计指标直观总结出已知事件的发展规律,或者需要对未知事件的发展规律进行预测时,就需要建模。本质上讲模型没有好坏,关键看是否能解决实际问题

DeepFM4Keras


大致过程:
1、构建用户特征矩阵,通过距离算法找到和当前用户相近的一批用户
2、这批用户看过,但当前用户没有看过的商品评分乘以这个用户与当 前用户的相似度分值,得到当前用户对新商品的预测分
3、将相同新商品预测分进行累加求均值
4、新商品列表按照预测分倒序排列,取Top推荐给当前用户

如果非要挑一个最好的,那么肯定是深度学习模型

常用公式介绍


ROC曲线

常见正则化函数L1、L2
L1是模型各个参数的绝对值之和,趋向于产生少量的特征,而其他的特征都是0。
L2是模型各个参数的平方和的开方值,会选择更多的特征,这些特征都会接近于0。



如图 学习 θ1 θ2 两个权重, 蓝色的圆心是误差最小的地方, 而每条蓝线上的误差都是一样的. 正则化的方程是在黄线上产生的额外误差(也能理解为惩罚度), 在黄圈上的额外误差也是一样. 所以在蓝线和黄线 交点上的点能让两个误差的和最小. 这就是 θ1 θ2 正则化后的解. 要提到另外一点是, 使用 L1 的方法, 我们很可能得到的结果是只有 θ1 的特征被保留, 所以很多人也用 l1 正则化来挑选对结果贡献最大的重要特征. 但是 l1 的结并不是稳定的. 比如用批数据训练, 每次批数据都会有稍稍不同的误差曲线,

机器学习建模过程

以LR为例:

LR可视为一个单隐藏层单节点的神经网络,优点是简单好理解,计算速度快,缺点是容易欠拟合不能处理非线性关系

模型优化的方向


项目案例

搜索引擎-语义召回模块

关于什么是向量检索可参考这篇文章

常见问题&QA

1、如何加速训练过程

2、如何解决过拟合问题

3、注意数据中的特征穿越
通俗讲训练数据里出现了标记之后的行为;例如,预测用户购买会员的概率,那么训练数据里的行为特征只能使用用户成为会员前的行为数据。如果训练集存在穿越的特征会导致模型在训练阶段和离线预测阶段表现好,线上预测差的现象。

4、如何标记正负样本
二分类里,正样本标记为1,负样本标记为0。

5、什么是梯度消失
当梯度消失后,模型w和b将无法完成更新,loss和metrics将不在变化。

6、模型不收敛
表现出来的现象是loss忽大忽小,不停地上线震荡,或者训练初期就处于一个比较大的值一直不收敛,通常有以下几种原因:

7、什么是网格搜索
Grid Search:模型训练过程中一种常用的调参手段;穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。(为什么叫网格搜索?以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,循环过程就像是在每个网格里遍历、搜索,所以叫grid search)

8、常用特征处理方法有哪些

。。。

总结

对于一个优秀的厨师来说,不管面对什么样的食材,都能给出有针对性的烹饪方法,做出美味的佳肴,一个优秀的算法工程师亦是如此,当面对不同的业务诉求和复查的业务数据时,能够给出相对科学的建模方案,实现业务效益最大化。

上一篇 下一篇

猜你喜欢

热点阅读