Day 1-- 绪论

2018-01-12 本文已影响0人 O_V_E_R

第一章绪论

日常生活中，我们人类依据经验，对未知的事物进行预测。

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习的主要内容是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）。有了学习算法，我们把经验数据提供给他，它就能基于这些经验数据产生模型，在面对新的情况的时候，模型会给我们提供相应的判断。

数据集（data set）

示例（instance）或样本（sample）或特征向量（feature vector）

属性（attribute）或特征（feature）

属性值（attribute Value）

属性空间（attribute space）由属性张成

样本的维数（dimensionality）

样例（example）由示例 ——> 标记

归纳（induction）和演绎（deduction）是科学推理的两大基本手段，

前者是从特殊到一般的“泛化”（generalization）过程，即从具体的事实到一般性规律；

后者是从一般到特殊的“特化”（specialization）过程，即从基础原理推演出具体状况；

我们把学习过程看作一个在所有假设（hypothesis）组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”（fit）的假设，即能够将训练集中的结果判断正确的假设。

假设的表示一旦确定下来，假设的空间及其规模大小就确定了。

产生模型的过程就是在假设空间中不断删除与正例不一致或与假例一直的假设，最终得到与训练集一直的假设。但很多时候最终得到的假设不止一个，而是一个假设集合，我们称这个假设集合为“版本空间”（version space）

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”（inductive bias）

任何一个有效的机器学习算法必有其归纳偏好

“奥卡姆剃刀”（Accam's razor）是一种常用的、自然科学研究中最基本的原则，即“若多个假设与观察一致，则选择最简单的那个”

算法的归纳偏是否与问题本身匹配，大多数时候将直接影响算法能够取得好的性能