为何要根据损失函数推导公式以及关于推导的方式

2019-11-03 本文已影响0人 hwang_zhic

为何要根据损失函数推导公式以及关于推导的方式

目录：

原因：解释了为何要推导这些公式的原因

举例说明：根据文章来说明这个推导的必要性

分析如何推导添加用户相似度的公式

1. 原因

首先来先说一下原因，接着举例分析这个原因，最后再来分析一下到底要如何推导加了用户相似度的两个矩阵的计算方式。

那么先说原因：

ALS 模型不是输入一条损失函数的公式，然后输入数据就能直接跑起来模型的。
模型的更新是要根据损失函数推导出来的公式来设定的。
众所周知，ALS 是一个交替最小二乘法，意思是先固定用户矩阵或者项目矩阵中的其中 1 个，然后计算另一个矩阵的，最终得到两个最优解矩阵。而如何计算另一个矩阵办法或者公式我们是未知的。
因此，我们要根据损失函数来推导出这两个矩阵（用户矩阵和项目矩阵）的是怎么在固定一个矩阵的情况下来计算更新另一个矩阵的。
总结，以上就是我们需要从损失函数推导公式的原因。

那么接下来就按照知乎文章中的损失函数推导公式过程以及代码来举例说明整个过程

2. 举例说明

接下来就举例说明一下文章中的 ALS 算法的推导过程，以及解说一下配套代码的含义

2.1 文章中的 ALS 损失函数

首先是损失函数，下面是知乎文章中的 ALS 模型的损失函数:

文章链接： https://zhuanlan.zhihu.com/p/47584486?utm_source=wechat_session&utm_medium=social&utm_oi=896399378548404224

$L=-\frac{1}{2} \sum_{i=0}^{n}\left(R_{a i}-U^{T} a * I i\right)^{2}$

这个是损失函数。

2.2 推导的过程

由于 ALS 算法的流程是先固定 1 个矩阵，然后求另一个矩阵的。然而现在不知道是如何计算另一个矩阵的，也就是不知道另一个矩阵的计算公式。因此我们需要来推导这个另一个矩阵的计算公式。

由损失函数推导出用户矩阵 $U_a$ 和项目矩阵 $I_b$ 的计算公式，那么推导的过程主要分 3 步：

对损失函数求 $U_a$ 的一阶偏导数，得到结果如下：

$\begin{aligned} \frac{d L}{d U_{a}} &=\left(R_{a}-U^{T} a * I\right) * I^{T} \\ \frac{d L}{d U a} &=I *\left(R^{T} a-I_{T} * U_{a}\right) \end{aligned}$

然后再令一阶偏导数等于0 ，即等式左边项为 0 ，得到了用户矩阵 $U_a$ ，结果如下：

$\begin{array}{l}{I * R^{T} a=I * I^{T} * U a} \\ {U a=\left(I * I^{T}\right)^{-1} * I * R_{a}^{T}}\end{array}$

同理，可证得项目矩阵 $I_b$ 的计算公式

$I_{b}=\left(U * U^{T}\right)^{-1} * U * R_{b}$

2.3 推导的公式在代码上的应用

下面截取了 ALS 算法的代码中核心部分

含义
- 这段代码的内容是按照上面推导出来的、用来计算两个矩阵 U 和 I 的公式设计出来的。
作用
- 输入数据后通过调用该方法，最终计算得到 U 和 I 的两个矩阵。

for i in range(max_iter):
    if i % 2:
      # U = (I * I_transpose) ^ (-1) * I * R_transpose
      items = self.item_matrix
      self.user_matrix = self._items_mul_ratings(
        items.mat_mul(items.transpose).inverse.mat_mul(items),
        ratings
      )
    else:
      # I = (U * U_transpose) ^ (-1) * U * R
      users = self.user_matrix
      self.item_matrix = self._users_mul_ratings(
      users.mat_mul(users.transpose).inverse.mat_mul(users),
      ratings_T
        )

3. 如何处理加了相似度的损失函数

3.1 加了相似度的损失函数

首先需要先了解加了用户相似度的损失函数是怎样的。

加了相似度的损失函数如下，这是在论文中截取到的：

$\begin{aligned} L=& \min _{U, V} \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{n} I_{i j}\left(r_{i j}-\mathbf{u}_{i}^{T} \mathbf{v}_{j}\right)^{2} \\ &+\frac{\alpha}{2} \sum_{i=1}^{m} \sum_{f \in \mathcal{F}+(i)} s_{i f}\left\|\mathbf{u}_{i}-\mathbf{u}_{f}\right\|_{F}^{2} \\ &+\frac{\lambda_{1}}{2}\|U\|_{F}^{2}+\frac{\lambda_{2}}{2}\|V\|_{F}^{2} \end{aligned}$