机器学习一:绪论
1.1 引言:
如果说计算机科学是一门研究关于算法的学问,那么机器学习可以说是一门研究关于“学习算法”的学问,机器学习正是这么一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。它研究的主要内容是关于在计算机中,从数据中产生“模型的算法”。我的理解是它是一门研究可以为了目标不断通过数据自我优化的算法的学科。
1.2基本术语:
①
示例(instance/sample):不带label的
数据集(data set):一堆instance组成的集合
属性或者特征(attribute/feature)
属性值(attribute value)
属性空间(attribute space):属性张成的空间
样本空间(sample space)
特征向量(feature vector):样本空间中一个点或者说一个示例对应一个特征向量
维数(dimensionality):样本属性的个数
学习或者训练:从数据中学得模型
训练数据(training data):训练过程中使用的数据
训练样本(training sample):训练数据中的每个样本成为一个训练样本
训练集(training set):训练样本组成的集合
假设(hypothesis):学得的模型对应训练数据中某种潜在的规律,也成为假设
真相或真实(ground-truth):真正的规律
标记(label):示例结果的信息
样例(example):拥有了标记结果的信息
标记空间 (label space):y轴是示例x轴的标记,由这样的x,y轴构成的空间
②机器学习的大致分类见图
1.3假设空间
假设空间是由所有假设构成的空间,我们把学习的过程看成是一个在所有假设组成的空间中进行搜索的过程。搜索的过程是要找到与训练集匹配的假设。假设一旦确地,假设空间的大小和规模也就确定了。五要注意的是,现实问题中,我们面临很大的假设空间。但学习过程是基于有限样本训练集进行的。因此存在多个假设与训练集一致。所以存在着一个与训练集一致的“假设集合”,我们称之为版本空间。
1.4归纳偏好
每一个有效的机器学习算法,必有其归纳偏好,否则就会被版本空间上的各种假设所迷惑。这里,我们一般用奥卡姆剃刀原则(Occam's razor),即“若有多个假设与观察一致,我们选择最简单的那个”。
实际上,对于所有的算法,无论他多么笨拙或者巧妙,他们的期望性能是相同的,只不过对于不同的目标,他们的作用不一样,但是对于解决所有目标,他们的期望是相同的。这就是,没有免费的午餐定理(no free lunch theorem)。所以要衡量算法的优劣,一定要针对具体的问题。
证明如下:
所以说,没有万能的机器学习算法,都是根据具体问题设计具体算法。