《西瓜书》小记(一) 绪论

2017-09-28  本文已影响0人  mulanfly

简介

此章节以西瓜为主题介绍了一下机器学习的基本概念,如数据集样本空间特征向量等等,顺带介绍了一些机器学习的发展过程。

概念

假设空间(hypothesis space):所有假设组成的空间,即对样本所有特征的所有假设构成的空间。如:一个苹果有两个特征,①大小,②甜度。其中大小分为两类,甜度分为不甜两类,那么苹果的可能的种数为 2 x 2 = 4 种。但是,我们还需要考虑到根本不存在大小这个特征,或者根本不存在甜度这个特征,以及连苹果这个东西都不存在,所以所有可能的假设有 (2 + 1) x (2 + 1) + 1 = 10 种,这10种假设组成的空间就是关于该苹果问题的假设空间

版本空间(version space):在假设空间中与训练集一致的假设集合,我们称之为版本空间。也就是说,如果版本空间中存在某个假设,那么一定有相对应的样本符合这个假设。

归纳偏好(inductive bias):机器学习算法再学习过程中对某种类型假设的偏好,称为归纳偏好。如下图,这种偏好可以体现为想要算法更加追求对样本数据的接近度——黑线,还是想要更加追求对数据分布的预测度——红线

图1 偏好平滑与偏好崎岖的曲线对比

奥卡姆剃刀(Occam's razor):一种最基本的归纳偏好,即 “若有多个假设与观察一致,则选最简单那个”。

没有免费的午餐定理(No Free Lunch Theorem, 简称 NFL 定理):算法在训练集之外的所有样本上的误差为:

对于所有可能的 f 按均匀分布求和,则有:

最终得出结论:总误差与学习算法无关!也就是说,无论学习算法好坏与否,它们的期望性能都相同!但是我们需要知道上述定理论述过程中假设了 f 的均匀分布,而实际情况可能并非如此。实际运用中,某些假设可能是不符合实际甚至根本不存在的。所以,NFL 定理并非是要让我们认为机器学习算法没有用处,而是要让我们认识到讨论算法结合实际才有意义,脱离实际谈论什么算法更好毫无意义可言。

发展历程

连接主义学习(二十世纪五十年代初) :

符号主义学习(六七十年代):

从样例中学习(二十世纪八十年代):

统计学习(二十世纪九十年代中期):

连接主义学习复兴——深度学习(二十一世纪初):

应用现状

研究领域

应用领域

阅读材料

重要国际学术会议

重要区域性会议

重要国际学术期刊

人工智能领域

数据挖掘领域

计算机视觉与模式识别

神经网络领域

统计学领域

国内机器学习领域

小结

第一章绪论讲述的东西并不多,只是初步介绍了一下机器学习的基本知识以及机器学习领域的重要会议和重要期刊。我觉得重要会议和重要期刊应当着重记一下,以后必然要用到。就算不查文献、不查资料,多读读专家们的论文、了解下现今技术的发展也是应该的吧。即使读到了一篇水文,那也是一篇顶会的水文,也不必说浪费了时间。

上一篇 下一篇

猜你喜欢

热点阅读