推荐系统

2019-10-27 本文已影响0人上山走18398

https://cloud.tencent.com/developer/article/1342091
简介

数据采集系统算法模型系统算法策略推荐引擎搜索引擎用户画像/标签(社交行为，用户群相似行为) 标的物相似关系(商品，广告)
==============

发展历程：
分类->搜索->推荐主动行为->被动行为，可解释性行为(推荐解释)
==============
不同的环境下，不同 () 的用户或者同类型相似()的用户，按照__（）推荐其感兴趣的内容或者挖掘(长尾理论)其兴趣点，并按兴趣的排序，帮助他们找到感兴趣的东西(无明确目标的用户？激情消费(商品，内容，文图视音...)？)
环境+用户+内容 => 算法模型 => 算法策略 => xxxxx
=========

存储栈：
es
redis
mongodb
hive
hbase
mysql

常用推荐算法
基于内容/物品维度
基于行为特征
基于热度维度
基于指标维度
基于时间维度
基于地域维度
基于用户标签
....
协同过滤(userCF / itemCF)

二. 推荐算法:

2.1 协同过滤算法(user-based collaborative filterling) -

关系推荐，首先找到相似兴趣的其他用户
存在稀疏问题和可扩展问题
冷启动问题，缺少上下文

2.2 基于内容推荐

根据被推荐对象的属性和用户的资料来做匹配，进行推荐
用户的资料模型取决于所用学习方法，常用的有决策树，神经网络和基于向量的表示方法
用户标签

2.3 基于关联规则推荐

关联规则挖掘可以发现不同商品在销售中的相关性

2.4 基于图的推荐

热度模型
兜底模型

2.5 分类算法推荐

逻辑回归(logistic regression)
深度神经网络(deep Neural network)
分解机方法(Factorization Machine)
算法组合实验
GBDT模型

典型特征：
相关性特征
环境特征
热度特征
协同特征
上下文特征

大规模推荐模型的在线训练

召回策略
筛选海量数据->样本数据-> 推荐模型
基于指标(多种召回策略)创建池子，进行召回
。。。。
===========

推荐系统实验方法
1.离线实现，训练集和测试集
2.用户调查
3.ABTEST

评测指标
定量计算定性描述
1.用户满意度:购买率点击率停留时长转换率
2.预测准确度:
2.1. 预测评分准确度
2.2. TopN推荐:准确率召回率
2.3. 覆盖率：推荐系统推荐出来的物品占总物品的比例
2.4. 多样性
2.5. 惊奇性
2.6. 信任度
2.7. 实时性
2.8. 健壮性

评测维度

问题

什么是好的推荐系统？
这个东西懂我。。。推荐挖掘
用户视角：预期惊喜
系统层面
完善优化更新
推荐理由
double win
商业视角:

推荐系统架构几何？
前台交互页面
后台日志系统 --- 数据层
推荐系统算法
用户行为特征与物品()匹配特征的过程
如何发现用户感兴趣的物品和如何确定物品之间的关系
1.数据采集
2.计算
离线计算+实时计算 = 推荐计算数据存储
离线计算：用户行为特征用户相似度用户聚类分析物品相关度 ctr预估.....

实时计算：实时统计实时训练
3.实时推荐引擎
接入层 -> 策略控制层 -> 逻辑处理层 -> 实时算法库
模型训练(算法策略+参数调优+模型训练) -> 策略控制层

如何更加精确的分类，推荐
长尾定律二八定律
混合推荐
文本精准匹配：TF 频率 idf 次数
利用社交网络数据
时间特征
环境特征

为什么要做AB测试系统
缺乏一套定量的效果评估流程
切分不同比例的流量 -> 数据效果

什么是feed流
模块内容聚合容器，并持续不断获取内容的更新
无限下拉

什么BI
Business Intelligence 商业智能
数据 -> 数据价值 ->决策分析 -> 千人千面(如何保证千人千面的质量以及质量保证手段)
BI算法模型
||
sku，广告，品类，内容，视频，活动......

测试手段：
离线测试：数据集测试集验证集
在线测试：A/BTest 数据指标
用户评估

参考数据：
《推荐系统实践》