范数
向量范数:
向量范数定义了向量的距离,而距离满足正定,齐次,三角不等式。范数的使用可以帮助特征选择,使得模型更具解释性。
向量的范数一般有L0, L1, L2与L_infinity范数,
L0范数:
定义:
L0范数表示非0元素的个数。利用该特性,我们可以用来规则化机器学习中的参数w,可以使得w大部分元素为零,寻找最少最优的稀疏特征。但是,L0范数的最小化问题是NP难问题,而L1范数是L0范数的最优凸近似,L1范数比L0范数更容易求解。所以实际中会用L1范数来代替L0范数求解。
L1范数:
定义:
L1范数表示向量中各个元素绝对值的和,也被称作"Lasso regularization"(稀疏规则算子)。在机器学习中,稀疏规则化能够实现特征的自动选择,将无用的特征权重置为0来剔除。
L2范数:
定义:
L2范数中的一个代表是欧式距离。L2范数被广泛应用在解决机器学习里面的过拟合问题,L2范数不会像L1范数那样将不重要的特征置为0,而是将所有参数最小化,只是接近于0。所以,L2范数下的特征重要性更均匀,但是不像L1范数突出显示最重要的特征。
矩阵范数:
矩阵范数又名为相容范数,除了要满足向量范数中的要求外,在矩阵为n阶方正的情况下,需要满足相容性,即
矩阵范数一般有1-, 2-, infinity-, F-范数。
1-范数:
定义:
1-范数又名为列和范数,即所有矩阵列向量绝对值之和的最大值。
2-范数:
定义:
其中为
的最大特征值。又名为谱范数,表示
矩阵最大特征值的平方根。
infinity-范数:
定义:
-范数又名为行和范数,即所有矩阵行向量绝对值之和的最大值。
以上范数都是诱导范数,由向量Lp范数诱导得到。非诱导范数常见的为F-范数,即Frobenius范数以及核范数。
F-范数:
定义:
Frobenius范数,即矩阵元素绝对值的平方和再开平方。
核范数:
定义:
为矩阵A的奇异。秩可以度量矩阵中数据的相关性,如果相关性很强,表示数据中含有冗余信息,则表示该数据矩阵可以降维,也可以利用冗余信息对缺失值进行填充。由于求解矩阵的秩很难,所以寻找了它的近似凸函数即核范数来求解。