浅谈推荐系统基础

2017-04-12 本文已影响3724人我偏笑_NSNirvana

这篇文章的技术难度会低一些，主要是对推荐系统所涉及到的各部分内容进行介绍，以及给出一些推荐系统的常用算法，比起技术，产品色彩会强不少。参考了《长尾理论》、《推荐系统实践》以及大量相关博客内容。

什么是推荐系统

我之前写过一篇《长尾理论》精读，里面有这样的观点：

推动市场由热门经济学向长尾经济学转变有三种力量：第一种是生产普及的力量（生产者），第二种是传播普及的力量（集合器），第三种是供需相连的力量（过滤器）。

生产普及的力量指，当下大众制作内容（图像、音视频、文字等）的门槛大大降低，人们有能力制作并有意愿分享自己产生的内容。使得可供展示的内容量大大增加。

传播普及的力量指，相当一部分内容由原子存在变为比特存在，不再需要占据物理世界中的『货架』，而是存储在硬盘之中，存储成本的降低使得大量非热门的长尾内容可以被摆上虚拟世界中的『货架』，真的有了对外展示的机会。

而供需相连的力量，就是指推荐系统。

既然存在大量的长尾内容，那如何供需相连？推荐系统要做的，就是联系用户和内容，一方面帮助用户发现对自己有价值的内容；另一方面让内容能够展现在对它感兴趣的用户面前，从而实现内容消费者和内容生产者的双赢。

为了联系用户和内容，其实过去也有很优秀的解决方案，有代表性的比如分类目录和搜索引擎。

随着互联网规模的不断扩大，分类目录网站也只能覆盖少量的热门网站，越来越不能满足用户的需求，因此搜索引擎诞生了。搜索引擎可以让用户搜索关键词来找到自己所需要的信息，但是，搜索的前提就是用户要主动提供准确的关键词，但是如果用户无法准确的描述自己需求的关键词时，搜索引擎就无能为力了。

而推荐系统不同，它不需要用户提供明确的需求，甚至连用户主动提出需求都不需要。推荐系统通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足它们兴趣和需求的内容。

什么是好的推荐系统？

先总体来说，一个完整的推荐系统一般存在三个参与方：用户、内容提供者和提供推荐系统的网站。

首先，推荐系统要满足用户的需求，给用户推荐那些让他们感兴趣的内容；其次，推荐系统要让内容提供者的内容都能被推荐给对其感兴趣的用户；最后，好的推荐系统设计，能够让推荐系统本身收集到高质量的用户反馈，不断提高推荐的质量，提高推荐系统的效益。

总结

在上面提到的指标里，预测准确度、覆盖率、多样性、新颖性是可以离线计算的。实际评测算法时，我们一般采用预测准确度的正确率和召回率，覆盖率，还有推荐商品的平均流行度。

综合一下上面的指标，我们前面说了三个目标，分别是让用户满意、让物品提供者满意、让推荐系统满意。用户满意度对应第一个目标，覆盖率对应第二个目标，商业目标对应第三个目标。因为用户满意度不容易获得，所以实际上预测准确度替代用户满意度成为了最重要的指标。然后我们回到推荐列表上，将其与物品类型结合，物品种类多就是多样性；将其与用户认知结合，用户没听过就是新颖性。惊喜度是新颖性的升级。然后是整个推荐系统，推荐系统需要实时性和健壮性，来稳定保证好的推荐结果。而且有的场景的推荐系统还要考虑到用户对推荐系统的信任度的问题。

这样就把这十个指标串起来了，也更方便记忆。

当然我们在采用以上指标进行评测时，也要考虑到评测的用户维度、物品维度、时间维度，也就是涉及评测的用户群，物品的种类属性和评测的季节、时间等。这可以让我们发现不同算法在不同场景下的优缺点。

利用用户行为数据

实现个性化推荐最理想的情况，是用户告诉我们他喜欢什么，但这种方法有三个缺点：

第一个是，现在的自然语言处理技术还很难理解用户用来描述兴趣的自然语言；
第二个是，用户的兴趣是不断变化的；
第三个是，用户也不知道自己喜欢什么，或者说，用户也很难用语言描述自己喜欢什么。

这里考虑代入HMM的思想，用户的需求会不断变化，就是状态序列。而且这个状态序列是隐藏的，也就是我们无法直接获知用户的兴趣，不管是因为用户自己没意识到还是无法表达。我们需要通过观察序列，也就是用户的行为数据去做推测，去根据EM算法估计这个HMM的参数，然后再用其来得到用户的需求序列，也就是隐状态序列。

基于用户行为分析的算法是个性化推荐系统的重要算法，学术界一般将这种算法称为协同过滤算法。

我们能拿到的用户行为一般分为两种，显性反馈行为和隐性反馈行为，显性反馈行为就是点击喜欢不喜欢，或者评5分1分。隐性反馈行为指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为，虽然不明确，但数据量更大。而且隐性反馈只有正反馈，没有负反馈。

即便是反馈也分为有无上下文，实际上就是是否记录了用户反馈行为的时间以及前后行为，这里先只考虑无上下文的隐性反馈数据集。

用户行为分析

用户活跃度和物品流行度的分布

互联网上的很多数据其实都满足长尾分布，也叫PowerLaw分布，我在《浅谈自然语言处理基础》中还提到过，就是讲平滑方法，古德图灵估计法那里。里面提到了Zipf定律，也即，如果将英文单词出现的频率按照由高到低排列，则每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比。也可以这么说，如果x1，x2，x3是三个热门排名相邻的三类单词，x1最靠前，那么出现的频率x2/x1 < x2/x3，也就是最开始下降的最快，然后下降速度越来越慢。

我们发现，用户活跃度和物品流行度都满足长尾分布。

用户活跃度和物品流行度的关系

我们认为，新用户倾向于浏览热门的物品，老用户会逐渐开始浏览冷门的物品。用户越活跃，越倾向于浏览冷门的物品。

仅仅基于用户数据设计的推荐算法一般称为协同过滤算法，协同过滤算法也分为不同种类，比如基于邻域的方法、隐语义模型、基于图的随机游走算法等。其中应用的最广的是基于邻域的方法，而基于邻域的方法主要包括以下两种：

基于用户的协同过滤算法：给用户推荐和他兴趣相似的用户喜欢的物品
基于物品的协同过滤算法：给用户推荐和他之前喜欢的物品相似的物品

简便起见，我们通常使用准确率、召回率、覆盖率和新颖度来对算法进行离线实验，覆盖率就用最简单的覆盖率定义，新颖度用推荐物品的平均流行度代替。

基于邻域的算法

基于用户的协同过滤算法

基于用户的协同过滤算法主要包括两个步骤：

找到和目标用户兴趣相似的用户集合
找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户

第一步的关键就是找到和目标用户兴趣相似的用户，我们可以用两个用户兴趣的交集比上兴趣的并集来求得相似度（Jaccard相似度），或者利用余弦相似度计算。

如果用余弦相似度：

分子是两个用户兴趣交集的模，分母是两个用户兴趣的模的乘积的平方根。

要注意的是，有很多用户之间根本就没有兴趣的交集，所以就不需要浪费时间在这种情况的计算上。

得到用户之间的兴趣相似度之后，UserCF算法会推荐给用户和他兴趣最相似的K个用户最喜欢的若干个物品。

判断该用户u对某一件物品i的感兴趣程度时的公式如下：

也即用K个和他兴趣最相似用户的平均兴趣代表这个用户的兴趣。w代表两个用户兴趣之间的相似程度，r指感兴趣程度的大小，这里统一为1。Σ下面的意思是，K个和u兴趣最相似的用户，而且同时要对物品i有过行为。可以这么理解，如果这K个用户都没有对某个物品有过行为，那基本就可以认为他们对该物品都不感兴趣，就不应该加到式子中。

换句话说，这K个用户，与用户u的相似度决定了他们的话语权，他们表决的方式就是自己是否对该物品有过正面行为。

最后我们只需要取感兴趣程度TopN的物品出来推荐给用户就好了，当然还要去掉该用户已经有过行为的物品。

K是UserCF算法的一个重要参数。K的选取会影响UserCF算法的结果。

一般进行算法评测时，我们会有两个标准算法，分别是MostPopular和Random算法，一个是按最高流行度来，一个是完全随机，都只是简单的去掉用户有过行为的物品。

UserCF算法的平均性能要远好于以上两个算法。

当然UserCF算法也有改进的空间，比如在计算用户相似度的时候，大家同样购买了热门物品其实没有什么说服力，并不能以此说明两个用户就相似了，所以我们需要对热门物品进行降权，如下式：

该公式与原公式相比，惩罚了用户u和用户v共同兴趣列表中热门物品对他们相似度的影响。这里先提一下TF-IDF，后面还要提，《浅谈机器学习基础》中讲K-means的时候就讲过TF-IDF，TF-IDF里的这个IDF，就是对出现在几乎所有文档中的热门词进行降权惩罚。

基于物品的协同过滤算法

基于物品的协同过滤算法是目前业界应用最多的算法。

如果网站的用户数目增加较快，计算用户兴趣的相似度矩阵就越来越难。而ItemCF算法不计算用户兴趣的相似度矩阵，而是计算物品之间的相似度。还有，我们前面说过基于邻域的这两个算法都是协同过滤算法，协同过滤算法的定义就是只使用用户行为数据，所以这里所定义的物品的相似度，不利用物品本身的内容信息去计算，而是主要通过分析用户的行为记录计算物品之间的相似度。

如果喜欢A的用户大多都喜欢B，那么A和B可以讲拥有一定的相似性。或者说，就算不相似，那我们把B推荐给喜欢A的用户也是没错的。

基于物品的协同过滤算法主要分为两步：

计算物品之间的相似度
根据物品的相似度和用户的历史行为给用户生成推荐列表

我们可以用下面的公式定义物品之间的相似度：

意思就是，买了i的用户有多少也买了j。如果两者的用户群重合比例越大，那么认为i和j就更相似。

但是还有个问题，就是如果按照上面的公式算，所有的物品都和热门商品相似，如果j是大热门商品的话，基本上喜欢i的全都喜欢j，这样就有问题，为了提高覆盖率，我们要对热门物品进行惩罚：

上面的式子就对热门物品的权重进行了惩罚。

得到物品的相似度之后，ItemCF通过如下公式计算用户u对物品i的兴趣：

与UserCF对比着来说，UserCF是用K个和用户u兴趣最相似用户的平均兴趣代表这个用户u的兴趣；ItemCF就是用K个和物品j最相似的物品来代表这个物品j。UserCF是，这K个用户，与用户u的相似度决定了他们的话语权，他们表决的方式就是自己是否对该物品有过正面行为；ItemCF是，这K个物品，与物品j的相似度决定了他们的话语权，他们表决的方式就是自己是否被该用户有过正面行为。

然后我们再回到物品相似度，虽然上面已经给热门物品降了权，但是我们还要考虑到热门用户的问题。我们认为，一个活跃用户可能会喜欢很多种类的物品，他对物品相似度的贡献应该小于不活跃的用户，因为不活跃的用户往往喜欢比较专一，在衡量物品相似度上更有价值，这叫IUF（Inverse User Frequence）。如下式：

又进一步对活跃用户进行了降权。

另外，在有物品分类的情况下，我们需要对类内物品相似度进行归一化，因为通常热门类别类内相似度也较高。如果一个用户同时喜欢了热门类别和非热门类别的物品，如果纯按照相似度推荐，那就会都推荐给用户热门类别中的物品，会降低覆盖度、多样性。所以我们利用类内最大的相似度，对类内所有的相似度进行归一化。

UserCF和ItemCF的综合比较

主要从两个方面来讲，第一个，UserCF的推荐结果着重于反应和用户兴趣相似的小群体的热点，着重于维系用户的历史兴趣，因为就是根据历史兴趣计算出来的相似用户，进而计算出来的推荐商品。而ItemCF的推荐更加个性化，反映用户自己的兴趣传承，因为一旦用户的兴趣有了更新，喜欢了新物品，那么与该物品相关的物品在参与ItemCF进行计算时，就会马上有权重提高，被推荐出来。

这么说，UserCF帮你找了一些用户来代表你，他们的兴趣是不可能统一的发生大幅改变的，所以你得到的推荐结果都是这一类的东西；而ItemCF，一旦你兴趣列表变了，那接着就认为你兴趣变了，喜欢你这个新兴趣的人喜欢的物品就会被推荐给你。

UserCF认为喜欢同样物品的人相似，ItemCF认为被同样人喜欢的物品相似。UserCF对用户聚类，整体对待他们的喜好，ItemCF对物品聚类，喜欢一个就是喜欢一堆。

对于UserCF和ItemCF，再举一下典型的例子，首先是新闻网站，新闻网站必然要用UserCF，相似用户的兴趣基本相同，没问题；如果用了ItemCF，难道要推荐和这篇新闻相似的旧新闻？当然这两种方法也不是一定要绝对分开。

比如音乐网站，网易云音乐的推荐算法，就更接近ItemCF，你喜欢了一种新风格，这一风格的歌就会被推荐给你，而不是认为你一辈子只喜欢听一种类型的音乐，把你和与过去的你相似的人绑在一起。

第二个是从技术角度想，物品和用户表，哪个稳定就用哪个建模。物品迅速增加那就建立用户相似度表，用户迅速增加就建立物品相似度表。

隐语义模型

隐语义模型（latent factor model，LFM）是最近几年推荐系统最为热门的研究话题，它的核心思想是通过隐含特征联系用户兴趣和物品。

前面已经详细的介绍了UserCF和ItemCF，这里说一下LFM的主要思想，首先回忆一下SVD，SVD将矩阵拆解为三部分的乘积。《浅谈机器学习基础》中这样讲过：

SVD的第二个用途是在自然语言处理中，我在《数学之美》这本书上读到。我们用A矩阵来描述成千上万篇文章和几十上百万个词的关联性，A里面每一列是一篇文章，每一行代表一个词，对应位置上是这个词的加权词频（比如TF-IDF值），然后我们对A进行奇异值分解，分成这样：A=XBY，这里和前面的：A=XY的关联性在于，两式的X相同，第二式的Y等于第一式中的BY，X是M*K，B是K*K，Y是K*N。

第一个矩阵X是对词分类的结果，它的每一行表示一个词，每一列表示一个同义词类，对应位置的值表示该词和该同义词类的相关性大小。

第三个矩阵Y是对文章分类的结果，它的每一列对应一篇文章，每一行表示一个主题，对应位置的值表示该文章和该主题的相关性大小。

第二个矩阵则展示了不同同义词类和不同文章主题的相关性大小。

推荐系统这里也是同理，如果将原数据按照SVD分解成三个矩阵的话，所得到的就是对用户兴趣的分类、对物品的分类以及用户兴趣类别与物品类别之间的关系。当然我们也知道SVD不仅能分解成三个矩阵的形式，也能分解为两矩阵的形式，意义是用户兴趣与某隐类的关系和该隐类与物品的关系。SVD的详细讲解可以参考前面的《浅谈机器学习基础》，其实下面要讲的LFM方法，也就是《浅谈机器学习基础》所讲的，SVD在推荐系统中的应用。

当然对用户兴趣和物品进行分类这件事情人工也是可以做的，但成本较大，而且效果也并不太好，所以这里就不详细说了。

隐含语义分析技术其实有很多著名的模型和方法，其中和该技术相关的有pLSA、LDA、隐含类别模型、隐含主题模型、矩阵分解等。这些方法在本质上是相通的。这里主要讲解LFM。

LFM通过如下公式计算用户u对物品i的兴趣：

累加式子中的p代表用户u的兴趣和第k个隐类之间的关系，q代表第k个隐类和物品i之间的关系。对所有隐类求和的结果就是总的兴趣程度。

这其实是种机器学习方法，模型就是这个模型，然后我们可以用平方误差来做损失函数，就是给定训练集下，度量用户感兴趣与否的实际情况与预测结果是否相符，再用梯度下降最小化损失函数，减小模型预测结果与实际情况的误差，最终收敛就可以了。我们还可以在损失函数中添加正则项来防止过拟合。这些都是《浅谈机器学习基础》里面反复讲过的东西。

而且为了应对隐性反馈数据集只有正样本的情况，我们倾向于从用户没有行为的热门物品中选取适量（与正样本数平衡）的负样本。适量就不用说了，选择热门物品的原因在于，物品热门而用户对其无正面反馈，比冷门物品更能说明用户对其不感兴趣，而不是因为也许根本就没有发现。

LFM还有个问题，就是它很难实现实时的推荐，因为经典的LFM模型每次训练时都要扫描所有的用户行为记录，不是分分钟就能训练好就能更新用户隐类向量p和物品隐类向量q的。如果要将LFM应用在新闻网站这种内容实时更新的系统中，那是肯定无法满足需求的。

雅虎为了解决传统LFM不能实时化的问题，提出了一个解决方案，公式如下：

后面那部分就是原先的用户隐类向量和物品隐类向量，几个小时更新一次。实时性体现在前面的式子上，x是根据用户历史行为特别训练的用户向量，y是根据物品的内容（关键词、属性、种类）去生成的物品内容特征向量。这样两者的乘积就能实时的估计出用户对该物品的兴趣，几小时后，通过传统的LFM就能得到更精确的数据。

就像上面说的，LFM与基于邻域的这两种方法UserCF和ItemCF相比，LFM不能在线实时推荐，需要提前训练好模型，而ItemCF可以，至于UserCF，只要和他相似的用户喜欢了新的物品，也可以做到实时推荐。

基于图的方法较麻烦，而且效果也比不上LFM，这里就不详细说了。

推荐系统冷启动问题

前面我们讲过如何使用用户行为数据去设计一个推荐系统，但是推荐系统该如何完成冷启动？

冷启动问题主要分为三种，一种是用户冷启动，对于一个新用户，我们没有他的历史行为数据，该怎么为其做个性化推荐；第二种是物品冷启动，就是如何将新的物品推荐给可能对它感兴趣的人；第三种是系统冷启动，也就是整个系统没有用户，只有一些物品的信息，该怎么办。

利用专家做初始标注

我们可以利用专家在若干个维度上对物品完成初始标记，后面再利用机器学习算法去计算相似度。这里不详细说了。

利用用户注册信息

比如我们可以利用用户的人口统计学信息、用户兴趣描述（很少）、从其他网站导入的用户站外行为数据。

我们可以计算拥有每种特征的人对各个物品的喜好程度，比如可以简单的定义为喜欢某种物品的人在拥有这种特征的人中所占的比例，而且我们还要注意要对热门物品降权，免得给所有特征的人都推荐热门物品。

选择合适的物品启动用户的兴趣

比如我们可以在用户注册后给用户提供一些物品，让用户反馈他们对这些物品的兴趣。

那启动物品集合该怎么选？该怎么设置题目给新用户做才最有效果？

回想一下《浅谈机器学习基础》里讲的决策树算法，这也就是一个对用户的分类问题，决策树算法里面，我们的思想是依次选择让整个数据集熵减小最大的特征对用户进行划分。如果我们已经拥有对用户兴趣的划分，也即可以方便的计算熵，那直接用决策树算法是最好的，但是如果我们没有，那也可以选择一种近似的决策树算法。

不过与决策树的思想相同，仍然要去选择区分度最大的物品对用户进行分类，我们可以用用户对物品评分的方差来度量，方差越大说明意见分歧越大，越有区分度。我们先选择最有区分度的物品对用户分类，然后再对不同类别的用户选择对该类别下的用户最有区分度的物品进行分类，不断迭代。在决策树算法中，我们用熵减，或者叫信息增益定义物品的区分度，而这里我们用的是评分方差。

利用社交网络

我们可以导入用户在其他系统中的社会化关系，然后按照UserCF算法的思想，把与用户有好友关系的用户临时当做相似用户，熟悉度替代相似度来使用UserCF算法进行推荐。

如果推荐系统是直接用来起到推荐好友的作用，那要考虑到网站的类型，如果用户的目的是为了获取内容，那尽量为其推荐与他爱好相似的用户；如果用户的目的是认识熟人，那根据社交关系链推荐会更有效果，比如推荐给他朋友的朋友，利用手机通讯录也是很好的选择。

还有一种是信息流推荐，这里也一并讲了，Facebook的EdgeRank是很流行的信息流推荐算法，该算法综合考虑了每个会话的时间、长度和与用户兴趣的相似度。

比如这样定义一条对话的权重：

u指产生行为的用户和当前用户的熟悉度，熟悉度可以用共同好友数量来衡量；w指行为的权重，比如原创、评论、点赞、转发等，不同的行为应该有不同的权重；d指时间权重，越早的行为权重越低。

除了上面这些社会化因素之外，我们还可以进一步考虑用户本身对会话内容的偏好，比如会话的长度、会话话题与用户兴趣之间的相关性，这样再结合前面的社会化属性，就会比较全面了。

利用物品的内容信息

其实UserCF算法对物品冷启动并不敏感，新加入的物品，如果有推荐系统之外的方式能让用户看到，只要一个用户群中有一个人喜欢了，那这个物品就会扩散开来，然后又带动了进一步扩散。离线训练的用户相似度表是不需要动的。

但是ItemCF算法就不行了，对于新的物品，我们根本不知道它跟哪些物品相似，推荐系统就推荐不出来它，这涉及到物品相似度表，解决方案只能是频繁的更新相关表了，比如半小时更新一次。

我们还可以利用物品的内容信息来解决基于ItemCF的推荐系统的冷启动问题，我们可以将物品通过向量空间模型表示，维度可以是一些导演、演员之类的实体，如果内容是文本的，可以利用NLP技术抽取一些关键词，也就是《浅谈自然语言处理基础》里面提过的命名实体识别。

这样我们就得到了物品的一个关键词向量，里面的维度是较能够体现物品特征的关键词，然后再回想一下TF-IDF算法，我们就把一个个物品当成一篇篇文章，一个个关键词当做文章里的词。如果物品真的是文本，那就可以直接用TF-IDF算法，把每个维度替换成相应的TF-IDF值；如果不是文本，可以根据知识，人工的赋予TF权重，当然还可以计算出相应的IDF值来使模型更为精确。

然后我们的关键词向量就可以利用余弦相似度去参与计算物品的内容相似度了。对物品归类的话，可以直接用KNN，这样就得到了内容过滤算法ContentItemKNN。

内容过滤算法忽视了用户行为，从而也忽视了物品的流行度以及用户行为中所包含的规律，所以它的精度比较低，但新颖度却比较高。

为了优化内容过滤算法，这里提出主题模型LDA（Latent Dirichlet Allocation），先说一下LDA和LFM的关系，它们最相似的部分都是发现内容背后的隐含主题，但其它的关系真是不大，有人讲它们是雷锋和雷峰塔，Java和Javasript的关系。

LFM用的是矩阵分解的思想，然后梯度下降去学习，与SVD的思想相似。

而LDA由pLSA、LSA这两种主题模型演化而来，这里详细讲解一下，参考了主题模型-LDA浅析，不过我觉得我讲的好理解得多_(:з」∠)_

LDA模型对的基本思想是，一篇文章的每个词都是通过以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语来得到的。

我们先引入一个问题，如何生成M篇文章，每篇文章包含N个单词。

先说第一种最简单的方法：

我们先搞一批训练语料，学出单词w的概率分布p(w)，然后把这个分布用N次，得到一篇N个单词的文章，然后把这个方法用M次，得到M篇N个单词的文章。实际上也就是连着用p(w)这个分布M*N次。

这个方法的缺点就是单词没有主题，没有联系，乱七八糟。

然后是第二种方法：

这种方法增加了主题z，主题z也有主题的分布p(z)。

先只看图，这个z在方框N外面，说明一篇N个词的文章只有一个主题；其次，这个z在方框M里面，M篇不同的文章有不同的主题z。

这样，这M篇文章，我们为每一篇文章都先根据p(z)生成一个z，然后在这篇文章内，再使用N次条件概率p(w|z)生成N个单词，由此得到M篇N个单词的文章。一个任务里面有M篇不同主题的文章，每篇文章的单词都是根据自己的主题生成的。

这个方法的缺点在于，每篇文章里只能有一个主题。

然后就是LDA方法了：

LDA一下子多了三个参数α、β和θ，我们先只看图，我们发现主题z放在了方框N里面，说明N个词，每个词都有自己的主题了，一个词的分布就成了p(w|z)*p(z)。然后我们看到θ，θ是一个主题向量，决定了p(z)，θ在方框N外面，说明每篇文章的N个词都有一个相同的θ，用于决定这篇文章内所有N个词的p(z)。θ在方框M里面，说明M篇文章，每篇文章都有一个不同的θ，而p(θ)也就被需要了，p(θ)是θ的分布，具体为Dirichlet分布，决定每篇文章的所有N个词都对应哪一个θ。然后再外面是α，α在方框M外面，也就说对于一个任务的这M篇文章，都是同一个α，而这个α决定了p(θ)。此外还有一个β，这个β是希望，词的分布概率不只被z决定，也即词的分布不是p(w|z)*p(z)而是p(w|z,β)*p(z)。

上面扯了这么多，都是为了方便理解，实际上就是这个公式：

LDA联合概率分布

这么说，对于一个任务，我们先给定α、β（一个任务一个α、β），这个α决定了M篇文章都分别对应哪个主题向量θ（一篇文章一个θ），然后每篇文章的主题向量θ决定了这篇文章的主题分布p(z)，也就是这篇文章每个词都分别对应哪个主题z（一个词一个z）。然后每个词是由这个词的z和β共同决定的。

再精简一点，一个任务一个α、β，一篇文章一个主题向量θ，一个词一个主题z，α决定主题向量θ，主题向量θ决定主题z，主题z和β一块决定词w。

传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，而LDA是主题模型，可以通过隐含主题发现没有重复单词的文档的相似性。LDA在个性化推荐、社交网络、广告预测等各个领域的应用都非常广泛。

然后LDA的训练与HMM相似，采用的也是EM算法，最后会收敛到一个合理的分布上去。

我再尝试回答几个更本质的问题。

为什么一个重复单词都没有，还能判定文章相似？
用的单词虽然不重复，但都语义上相似。

怎么判断单词语义上相似？
出现在了相似文章中。

那这不是个鸡生蛋蛋生鸡的问题吗？
EM算法就是解决这种鸡蛋问题的，回忆《浅谈自然语言处理》里面对EM算法的讲解即可。

LDA可以合理的将单词归类到不同的隐含主题之中。而且如果文档的主题向量θ，也即主题z的分布较为相似，那我们就可以认为两篇文档具有较高的相似度，计算分布的相似度可以用KL散度，也就是相对熵。

与上下文信息结合

之前提到的推荐算法主要研究了如何联系用户兴趣和物品，将最符合用户兴趣的物品推荐给用户，但却都没有考虑到上下文。

比如举几个例子，不能因为用户在夏天喜欢过某件T恤，就在冬天也给该用户推荐类似的T恤；用户在中关村打开一个美食推荐系统时，不能给他推荐河北省的餐馆；用户在上班时和下班后的兴趣会有区别，在平时和周末的兴趣会有区别，甚至上厕所时和在办公桌旁阅读的喜好也是不同的。

时间上下文信息

一般认为，时间对用户兴趣的影响表现在用户的兴趣是变化的、物品也是有生命周期的、季节\节日效应。

推荐系统需要拥有实时性来满足用户变化的兴趣，比如用户一旦产生了新的行为，推荐系统就应该有恰当的反应。而且还有一点需要注意的是，推荐系统需要有时间多样性，也就是，即便是用户实际上没有进行任何操作，但我们也不应该每天给用户推荐相同的内容。

比如我们可以在生成推荐结果时加入一定的随机性，或者记录用户每天看到的推荐结果，对这些推荐结果进行适当的降权，又或者每天给用户使用不同的推荐算法。

这里我们主要考虑，时间上下文信息对我们经典的基于邻域的两个算法ItemCF和UserCF能够起到什么优化作用。

对于ItemCF，考虑第一点，用户在相隔很短的时间内喜欢的物品具有更高的相似度；然后是第二点，用户近期行为比用户很久之前的行为，更能体现用户现在的兴趣。

对于UserCF，考虑第一点，如果两个用户同时喜欢相同的物品，那么这两个用户应该有更大的兴趣相似度；然后是第二点，与当前用户最相似的这一组用户最近的兴趣，应该比这组用户很久之前的兴趣更加接近当前用户今天的兴趣。

毕竟ItemCF和UserCF都各有两个过程，只要将两个过程分别与时间结合起来，很容易就能知道该往哪个方向优化。

地点上下文信息

地点上下文与用户兴趣也有一定的关系，比如不同城市/国家的人的兴趣爱好会有不同，这叫兴趣本地化，还有用户往往在附近地区活动，一般不会因为要吃个饭坐高铁去别的地方，这叫活动本地化。

所以我们在分析用户行为数据时，可以考虑到用户位置和物品位置，当然这是一些实体化的服务提供者需要考虑的问题，如果讲网购，用户和物品位置对喜好的影响就小多了，但也并不是完全消失。