基于深度隐语义topic的用户聚合推荐--part2 推荐结果
开篇之前,我们首先回顾一下背景:part1 在19年已经写了,最近打开博客发现part2迟迟没有写,时隔这么久,临近十一终于有时间把第二部分完成了。
在得到item topic之后,我们如何给新用户或者低活用户推荐呢。首先第一步就是用户群体发掘。
用户群体怎么定义呢,这里的用户群体,需要结合多个静态特征去做聚合,比如年龄,性别,地域,机型,收入level等等,没有固定的群组,也没有好的或者坏的。可以选择其中一个或者多个静态特征组成有区分度的群组。比如 年龄_性别_机型 组成群组的区分性。 男性,【18-24】,华为 是一个群里, 女性,【25-30】,vivo 是另一个群组。这样的话用户群体就已经被定义了。
用户群体怎么挖掘topic呢。我们有的训练数据是什么呢?corpus是每一个用户点击的item序列,那么基于最原始的用户点击item序列,就会得到user group的item的点击序列,再经过topic mapping,我们就能够得到 user group 对topic的点击如下图。
用户群体兴趣挖掘用户group的兴趣挖掘基本的物料产出后,这里需要用一些learning Algo 去得到每个群组最感兴趣的topic 是那些,比如最简单的就基于统计 group1里面的hot,当然这样会缺乏个性化,不同群组之间会同时都会有那些热门的topic,所以我们会利用tf-idf 以及cf降权等统计方法短平快的拿到比较好的效果,当然这里给大家留一些空间,这里有没有模型化的方法。
这里给出一些用户群组的demo: 比如x手机 和y手机是两个手机品牌这里数据脱敏。
x手机 60岁+ 的男性喜欢的 topic是 国际新闻,军事,国际时政,历史
x手机 60岁+ 的女性喜欢的是 明星娱乐,央视主持人,国际体育,女排
y手机,60+ 的女性 喜欢的是明星娱乐,育儿,婆媳
好了这里就能明显的发现x手机的用户相对是关心 国家大事呀,虽然男女不同。明显的对比是y手机 60+的女性喜欢的更多的是生活方面的东西这个区分度是令人惊喜的。
这个上线后,对新用户各指标3-5个点提升, 低活用户1-3个点提升。还是很不错的。