机器学习分类任务的本质

2021-11-27 本文已影响0人 ADO_AI

今天在阅读有关SVM内容的过程中，再联想到既往所学的Logistic等等。认识到机器学习分类任务的本质是对样本特征矩阵(n*m,n个样本，m个特征)所张成空间的切分。

以往的理解是去寻找最优的划分线/平面；譬如SVM是找到最优的平面能够更好地对样本进行分类；其实质，更为深入地应理解为是对样本空间的一种划分方式；最优的平面代表对样本空间最优的一种切分方法。

当我们理解到“切分空间”这一步的时候，可以进一步地想象，对空间的切分，并不仅仅局限于只依靠某一个平面。只要能对空间进行切分，我可以用任意的算法，将空间切分成我想要的样子。那我究竟想要将空间切分成什么样子？？依据就是训练数据的特征空间分布。

总结起来，机器学习的本质是对样本向量所张成的空间进行合理划分，进而在面对新的样本时，将其准确划入既定的样本空间中。而机器学习所面临的最大障碍，即机器学习模型的泛化性能，源自于两点：

1. 训练阶段对样本空间划分不够合理，导致无法准确纳入新样本。通过模型选择和参数调整，即样本空间划分方法的调整，可以解决
1. 训练集的样本空间不够“大”，不足以涵盖样本全貌，面对“未知”的新样本而无法准确纳入。因先天缺陷，解决起来更为棘手，不过总结起来无外乎扩大样本空间，扩展其外延：扩大样本量、图形数据增强都是扩大样本空间的方法，迁移学习是利用非目标样本的空间来扩大了目标样本空间的外延，强化学习则像是一个“开疆拓土”的先行者，从没有空间自己去探索出一个空间

上一篇下一篇

猜你喜欢

热点阅读