干货:互联网个性化推荐系统设计精髓
作者:刘永平 ,11年以上互联网电商、互联网金融项目实操经验,任职高级产品总监,产品咨询专家,曾亲自主导参与项目超过15个,10个以上从0到1实操经验。
之前在和几个朋友探讨供应链金融,我提出对供应链金融的看法和认识。这一篇就从互联网电商入手,虽然从市场用户调研到互联网电商平台产品设计,再到上线运营推广,覆盖的面很宽,但我仔细对整个互联网电商平台知识体系梳理了一遍,其中,最为关键和难度最高的就是个性化推荐系统、搜索和大数据系统,其实不难看出,个性化推荐系统和搜索底层都是基于大数据,所以最终各条产品线和技术都归集到大数据系统上,后续我会逐一对每个难点进行分析,本篇就针对用户个性化推荐系统设计进行分享。
通过对多个大型互联网电商平台的跟踪研究,个性化智能推荐系统设计建设由三步构成:第一建立平台用户行为的召回模型,维度基于用户历史行为数据召回、用户偏好召回和用户地域召回来实现,用户历史行为数据召回基于用户历史浏览、点击、购买、评论、分享、收藏、关注等触点,分类推荐在线相关、在线相似、离线相关、离线相似行为;基于用户偏好召回是基于用户归类画像与平台多屏互通融合;基于用户地域召回是基于用户地域的网格化来实现地域行为推荐算法;第二是召回模型匹配算法,利用高斯逻辑回归及多维算法来得出与用户召回行为的匹配商品及广告信息;第三是平台针对匹配模型推荐结果的排序算法,基于用户交互日志通过模型训练特征权重,采用排序算法来实现自动匹配个性化推荐。在系统实现技术架构上,为支撑个性化推荐系统平均至少每周进行算法迭代,采用HBase、Spark及MapReduce等系统架构,在个性化推荐系统优化升级中,与DNN融合的速度越来越快。
个性化智能推荐最终的目标就是让一个普通访问电商平台的用户,在进入平台页面时,系统能够根据用户日常的行为偏好和习惯,用户心理想要购买的商品,在还没有发生点击行为时,系统能自动推荐到用户访问的页面,提升平台用户下单转化率。即使在用户没有访问平台时,企业通过与用户日常浏览互联网行为轨迹的平台进行联盟合作,在联盟平台推送用户希望购买的商品广告和链接,刺激和引导用户点击购买。即使在用户没有打开电脑时,能够通过信息和邮件的方式,根据用户平常的购买频次和周期,在特定的时间推送到用户手机和电脑。
平台前端实现用户千人千面,而后端需要建立复杂的用户全网行为数据采集、存储加工、数据建模和用户画像过程,单纯采集互联网电商平台数据,仅能达到个性化推荐效果的40%左右,如果要提升个性化推荐的效果,就必须覆盖用户全网行为轨迹,甚至用户线下的行为轨迹,这就形成了以互联网电商平台为核心的生态系统,也能说明阿里、腾讯为什么要控股或收购各行业企业的原因。
1、用户行为数据采集
首先需要在采集的互联网平台进行埋点,在页面放置“蜘蛛”探针、采集业务系统所有访问和操作日志、从数据库中提取业务数据,采集回来存储在数据仓库,采集服务器组负责将采集到的日志信息生成文件,落地到存储设备;ETL服务器负责将日志文件和结构化数据导入Hadoop分析集群,并将分析结果导出到Oracle数据库;数据解析服务器负责连接Hadoop环境,完成数据分析各项计算;Hadoop和Hive提供数据分布式存储和计算的基础框架;调度实现以上数据导入、分析和结果导出的所有任务的统一调度;数据展示服务器负责数据分析结果的多种形式展现。
目前做大数据平台的公司,大多数采集的数据指标和输出的可视化报表,都存在几个关键问题:
1)采集的数据都是以渠道、日期、地区统计,无法定位到具体每个用户;
2)计算统计出的数据都是规模数据,针对规模数据进行挖掘分析,无法支持;
3)数据无法支撑系统做用户获客、留存、营销推送使用;
所以,要使系统采集的数据指标能够支持平台前端的个性化行为分析,必须围绕用户为主线来进行画像设计,在初期可视化报表成果基础上,将统计出来的不同规模数据,细分定位到每个用户,使每个数据都有一个用户归属。将分散无序的统计数据,在依据用户来衔接起来,在现有产品界面上,每个统计数据都增加一个标签,点击标签,可以展示对应每个用户的行为数据,同时可以链接到其他统计数据页面。由此可以推导出,以用户为主线来建立数据采集指标维度:用户身份信息、用户社会生活信息、用户资产信息、用户行为偏好信息、用户购物偏好、用户价值、用户反馈、用户忠诚度等多个维度,依据建立的采集数据维度,可以细分到数据指标或数据属性项。
①用户身份信息维度
性别,年龄,星座,居住城市,活跃区域,证件信息,学历,收入,健康等。
②用户社会生活信息维度
行业,职业,是否有孩子,孩子年龄,车辆,住房性质,通信情况,流量使用情况……
③用户行为偏好信息
是否有网购行为,风险敏感度,价格敏感度,品牌敏感度,收益敏感度,产品偏好,渠道偏好……
④用户购物偏好信息
品类偏好,产品偏好,购物频次,浏览偏好,营销广告喜好,购物时间偏好,单次购物最高金额……
⑤用户反馈信息维度
用户参与的活动,参与的讨论,收藏的产品,购买过的商品,推荐过的产品,评论过的产品……
通过建立的用户行为数据采集指标体系后,将其再细分到数据属性值,进入这个环节,就需要依赖各种建立的数据模型或函数算法,来对平台用户进行特征提取分析,计算出用户对应的画像数据值,这才是用户画像过程中最为关键的环节。举个例子:如果一个用户访问浏览一个电商平台,注册时没有填写性别,平台如何通过用户产生的访问浏览行为,来计算出用户的性别。绝大多数电商平台都是通过用户的浏览商品,为其推荐相同或相关的商品或相关商品类目商品,用户浏览了连衣裙,并不能说明用户就是女性,因此,要能够更加准确的向用户推荐个性化商品,就必须通过数据特征提取,函数算法来计算出用户的性别。
2、数据存储加工
用户行为数据采集后,需要存储在数据仓库,对采集的原始数据进行ETL加工处理,首先需要处理掉存储的无效重复数据,对于用户行为没有影响或重复数据,对非结构化数据和半结构化数据进行结构化处理,并对数据进行补缺、替换、数据合并、数据拆分、数据加载和异常处理。(这个环节更多是技术程序处理)
3、数据建模及用户特征提取、用户画像
对于加工处理后的用户行为数据,利用开源的机器学习分类器包,调用封装好的各种数据函数,神经网络、支持向量机、贝叶斯等对数据进行聚类、分类和预测,根据第一步设计的用户画像标签体系,对访问平台的用户计算行为特征值,用户特征提取并不是针对所有的标签维度,对于优先关键标签,如果从用户数据库查询不到特征值,就需要调用R函数对其进行计算,最终得出每个标签维度的特征值,依据特征属性值,就可以对用户进行画像处理。
按照用户属性和行为特征对全部用户进行聚类和精细化的客户群细分,将用户行为相同或相似的用户归类到一个子库,这样就可以将电商平台所有的用户划分为N个不同子库,每个子库用户拥有相同或相似的行为特征,到这一步,电商平台就可以按照不同子库行为对其进行个性化智能推荐。
目前国内主流电商平台,在进行个性化智能推荐系统升级过程,都在逐步向DNN渗透和扩展,也是未来个性化智能推荐必经之路。在现有用户画像、用户属性打标签、客户和营销规则配置推送、同类型用户特性归集分库模型基础上,未来将逐步扩展机器深度学习功能,通过系统自动搜集分析前端用户实时变化数据,依据建设的机器深度学习函数模型,自动计算匹配用户需求的函数参数和对应规则,推荐系统根据计算出的规则模型,实时自动推送高度匹配的营销活动和内容信息。
归根结底,无论是做个性化智能推荐还是大数据进行研究探索,最终都是要达到让系统更加智能的准确识别和推送用户心理想要的产品或内容,也就是互联网平台与用户前端交互的效果,使系统具有人类大脑的效果,更加智能、甚至学会思考。
免责声明:本文是作者通过多年项目实操,积累分享的干货,全部属于原创,如需转载分享,必须注明作者和出处,并关注微信公众号“互联网金融干货”,微信号:WYGH188,如没有注明作者和出处,会追究法律责任。