Day 1-- 绪论

2018-01-12  本文已影响0人  O_V_E_R

第一章 绪论

1.1 引言

日常生活中,我们人类依据经验,对未知的事物进行预测。

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有了学习算法,我们把经验数据提供给他,它就能基于这些经验数据产生模型,在面对新的情况的时候,模型会给我们提供相应的判断。

1.2 基本术语

数据集(data set)

示例(instance) 或 样本(sample) 或 特征向量(feature vector)

属性(attribute) 或 特征(feature)

属性值(attribute Value)

属性空间(attribute space)  由属性张成

样本的维数(dimensionality)

样例(example)   由 示例 ——> 标记

1.3 假设空间

归纳(induction)和演绎(deduction)是 科学推理的两大基本手段,

前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实到一般性规律;

后者是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况;

我们把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的结果判断正确的假设。

假设的表示一旦确定下来,假设的空间及其规模大小就确定了。

产生模型的过程就是在假设空间中不断删除与正例不一致 或 与假例一直的假设,最终得到与训练集一直的假设。但很多时候最终得到的假设不止一个,而是一个假设集合,我们称这个假设集合为“版本空间”(version space)

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias)

任何一个有效的机器学习算法必有其归纳偏好

“奥卡姆剃刀”(Accam's razor)是一种常用的、自然科学研究中最基本的原则,即“若多个假设与观察一致,则选择最简单的那个”

算法的归纳偏是否与问题本身匹配,大多数时候将直接影响算法能够取得好的性能

1.5 发展历程

1.6应用现状

上一篇下一篇

猜你喜欢

热点阅读