推荐系统
2019-10-27 本文已影响0人
上山走18398
https://cloud.tencent.com/developer/article/1342091
简介
数据采集系统 算法模型系统 算法策略 推荐引擎 搜索引擎 用户画像/标签(社交行为,用户群相似行为) 标的物相似关系(商品,广告)
==============
- 发展历程:
分类->搜索->推荐 主动行为->被动行为,可解释性行为(推荐解释)
==============
不同的环境下,不同 () 的用户或者 同类型相似()的用户,按照__()推荐其感兴趣的内容或者挖掘(长尾理论)其兴趣点,并按兴趣的排序,帮助他们找到感兴趣的东西(无明确目标的用户?激情消费(商品,内容,文图视音...)?)
环境+用户+内容 => 算法模型 => 算法策略 => xxxxx
=========- 存储栈:
es
redis
mongodb
hive
hbase
mysql- 常用推荐算法
基于内容/物品维度
基于行为特征
基于热度维度
基于指标维度
基于时间维度
基于地域维度
基于用户标签
....
协同过滤(userCF / itemCF)
二. 推荐算法:
2.1 协同过滤算法(user-based collaborative filterling) -
关系推荐,首先找到相似兴趣的其他用户
存在稀疏问题和可扩展问题
冷启动问题,缺少上下文
2.2 基于内容推荐
根据被推荐对象的属性和用户的资料来做匹配,进行推荐
用户的资料模型取决于所用学习方法,常用的有决策树,神经网络和基于向量的表示方法
用户标签
2.3 基于关联规则推荐
关联规则挖掘可以发现不同商品在销售中的相关性
2.4 基于图的推荐
热度模型
兜底模型
2.5 分类算法推荐
逻辑回归(logistic regression)
深度神经网络(deep Neural network)
分解机方法(Factorization Machine)
算法组合实验
GBDT模型
- 典型特征:
相关性特征
环境特征
热度特征
协同特征
上下文特征- 大规模推荐模型的在线训练
- 召回策略
筛选海量数据->样本数据-> 推荐模型
基于指标(多种召回策略)创建池子,进行召回
。。。。
===========- 推荐系统实验方法
1.离线实现,训练集和测试集
2.用户调查
3.ABTEST- 评测指标
定量计算 定性描述
1.用户满意度:购买率 点击率 停留时长 转换率
2.预测准确度:
2.1. 预测评分准确度
2.2. TopN推荐:准确率 召回率
2.3. 覆盖率:推荐系统推荐出来的物品占总物品的比例
2.4. 多样性
2.5. 惊奇性
2.6. 信任度
2.7. 实时性
2.8. 健壮性- 评测维度
问题
- 什么是好的推荐系统?
这个东西懂我。。。推荐 挖掘
用户视角:预期 惊喜
系统层面
完善优化更新
推荐理由
double win
商业视角:
- 推荐系统架构几何?
前台交互页面
后台日志系统 --- 数据层
推荐系统算法
用户行为特征与物品()匹配特征的过程
如何发现用户感兴趣的物品和如何确定物品之间的关系
1.数据采集
2.计算
离线计算+实时计算 = 推荐计算 数据存储
离线计算:用户行为特征 用户相似度 用户聚类分析 物品相关度 ctr预估.....
实时计算: 实时统计 实时训练
3.实时推荐引擎
接入层 -> 策略控制层 -> 逻辑处理层 -> 实时算法库
模型训练(算法策略+参数调优+模型训练) -> 策略控制层
- 如何更加精确的分类,推荐
长尾定律 二八定律
混合推荐
文本精准匹配:TF 频率 idf 次数
利用社交网络数据
时间特征
环境特征
- 为什么要做AB测试系统
缺乏一套定量的效果评估流程
切分不同比例的流量 -> 数据效果
- 什么是feed流
模块内容聚合容器,并持续不断获取内容的更新
无限下拉
- 什么BI
Business Intelligence 商业智能
数据 -> 数据价值 ->决策分析 -> 千人千面(如何保证千人千面的质量以及质量保证手段)
BI算法模型
||
sku,广告,品类,内容,视频,活动......
测试手段:
离线测试:数据集 测试集 验证集
在线测试:A/BTest 数据指标
用户评估
参考数据:
《推荐系统实践》