推荐系统

2019-10-27  本文已影响0人  上山走18398

https://cloud.tencent.com/developer/article/1342091
简介

数据采集系统 算法模型系统 算法策略 推荐引擎 搜索引擎 用户画像/标签(社交行为,用户群相似行为) 标的物相似关系(商品,广告)
==============

  1. 发展历程:
    分类->搜索->推荐 主动行为->被动行为,可解释性行为(推荐解释)
    ==============
    不同的环境下,不同 () 的用户或者 同类型相似()的用户,按照__()推荐其感兴趣的内容或者挖掘(长尾理论)其兴趣点,并按兴趣的排序,帮助他们找到感兴趣的东西(无明确目标的用户?激情消费(商品,内容,文图视音...)?)
    环境+用户+内容 => 算法模型 => 算法策略 => xxxxx
    =========
  2. 存储栈:
    es
    redis
    mongodb
    hive
    hbase
    mysql
  3. 常用推荐算法
    基于内容/物品维度
    基于行为特征
    基于热度维度
    基于指标维度
    基于时间维度
    基于地域维度
    基于用户标签
    ....
    协同过滤(userCF / itemCF)

二. 推荐算法:

2.1 协同过滤算法(user-based collaborative filterling) -

关系推荐,首先找到相似兴趣的其他用户
存在稀疏问题和可扩展问题
冷启动问题,缺少上下文

2.2 基于内容推荐

根据被推荐对象的属性和用户的资料来做匹配,进行推荐
用户的资料模型取决于所用学习方法,常用的有决策树,神经网络和基于向量的表示方法
用户标签

2.3 基于关联规则推荐

关联规则挖掘可以发现不同商品在销售中的相关性

2.4 基于图的推荐

热度模型
兜底模型

2.5 分类算法推荐

逻辑回归(logistic regression)
深度神经网络(deep Neural network)
分解机方法(Factorization Machine)
算法组合实验
GBDT模型

  1. 典型特征:
    相关性特征
    环境特征
    热度特征
    协同特征
    上下文特征
  2. 大规模推荐模型的在线训练
  3. 召回策略
    筛选海量数据->样本数据-> 推荐模型
    基于指标(多种召回策略)创建池子,进行召回
    。。。。
    ===========
  4. 推荐系统实验方法
    1.离线实现,训练集和测试集
    2.用户调查
    3.ABTEST
  5. 评测指标
    定量计算 定性描述
    1.用户满意度:购买率 点击率 停留时长 转换率
    2.预测准确度:
    2.1. 预测评分准确度
    2.2. TopN推荐:准确率 召回率
    2.3. 覆盖率:推荐系统推荐出来的物品占总物品的比例
    2.4. 多样性
    2.5. 惊奇性
    2.6. 信任度
    2.7. 实时性
    2.8. 健壮性
  6. 评测维度

问题

  1. 什么是好的推荐系统?
    这个东西懂我。。。推荐 挖掘
    用户视角:预期 惊喜
    系统层面
    完善优化更新
    推荐理由
    double win
    商业视角:
  1. 推荐系统架构几何?
    前台交互页面
    后台日志系统 --- 数据层
    推荐系统算法
    用户行为特征与物品()匹配特征的过程
    如何发现用户感兴趣的物品和如何确定物品之间的关系
    1.数据采集
    2.计算
    离线计算+实时计算 = 推荐计算 数据存储
    离线计算:用户行为特征 用户相似度 用户聚类分析 物品相关度 ctr预估.....

实时计算: 实时统计 实时训练
3.实时推荐引擎
接入层 -> 策略控制层 -> 逻辑处理层 -> 实时算法库
模型训练(算法策略+参数调优+模型训练) -> 策略控制层

  1. 如何更加精确的分类,推荐
    长尾定律 二八定律
    混合推荐
    文本精准匹配:TF 频率 idf 次数
    利用社交网络数据
    时间特征
    环境特征
  1. 为什么要做AB测试系统
    缺乏一套定量的效果评估流程
    切分不同比例的流量 -> 数据效果
  1. 什么是feed流
    模块内容聚合容器,并持续不断获取内容的更新
    无限下拉
  1. 什么BI
    Business Intelligence 商业智能
    数据 -> 数据价值 ->决策分析 -> 千人千面(如何保证千人千面的质量以及质量保证手段)
    BI算法模型
    ||
    sku,广告,品类,内容,视频,活动......

测试手段:
离线测试:数据集 测试集 验证集
在线测试:A/BTest 数据指标
用户评估

参考数据:
《推荐系统实践》

上一篇下一篇

猜你喜欢

热点阅读