第1章 绪论

2018-06-19  本文已影响7人  日月一人

2018-07-17

1、对特征的特征(经验)的掌握从而才能到生活中应用、决策。

(1)天气→温度适宜、不下雨→空气湿度、云

(2)买瓜→脆、甜、口感好→敲声、品种(颜色、根蒂……)

(3)学习→会做对考题→概念掌握、足够的训练(时间、作业……)


计算机使用的经验就是模型,该模型应用大量数据进行足够次数(时间)的训练能够很好地拟合真实的判断情况。

计算机从数据中产生模型的算法,这个模型不断学习且只针对于该数据,但是学习(训练)算法是能够套用的。

(即学习算法能够通过数据训练产生模型,从而能够对该问题进行判断)


2、基本术语

从数据中学得模型(学习器)的过程称为学习或训练。目的是为了假设逼近真实。

示例训练后,拥有标记信息的示例即样例进行训练。学得模型后,使用其进行预测的过程即测试。

监督分类

分类:预测离散值。分类的类别:二分类和多分类。

回归:预测连续值。

非监督分类

聚类:不拥有标记信息的样本自动划分成簇,其可能对应一些潜在的概念。


机器学习的目的是为了使学得的模型能够很好地适用于新样本。即不仅适用于训练样本数据,也适用于非训练样本数据。

学得模型适用于新样本的能力,称为泛化能力。训练集仅为样本数据的一小部分,且所有样本独立同分布。


3、假设空间

归纳与演绎是科学推理的两大基本手段。

归纳是从特殊到一般的泛化,即从具体事实中归结出一般性规律。==个例到范例。

演绎是从一般到特殊的特化,即从基本原理推演出具体状况。==范例到个例。

从样例中学习是一个归纳的过程,也被称为归纳学习。

广义的归纳学习是从样例中学习,狭义的归纳学习是从训练数据中学得概念(概念学习或概念形成)。

概念学习较少,但是其中最基本的就是布尔概念学习。

(如果只是记住训练样本,那则是机械学习(或死记硬背式学习))

西瓜问题的假设空间=4*4*4+1=65

西瓜问题的假设空间

有限个样本训练集可能训练出的多个假设与训练集一致,多个假设构成一个假设集合(即 版本空间)。

4、归纳偏好

训练出的模型只能对应一个假设,此时归纳偏好(偏好 即机器学习算法在学习过程中对某种类型假设的偏好)。

尽可能特殊(适用情形尽可能少)VS尽可能一般(适用情形尽可能多)

看起来是属性选择,亦称“特征选择”。

没有归纳偏好,模型则会对相同实验有不确定的结果。可以作为一种价值观,如“奥卡姆剃刀”选取最简单的一个。


没有免费的午餐定理,总误差和学习算法无关。但是具体问题具体对待,NFL定理想说明脱离具体问题,空谈“什么学习算法更好”没有意义。

若考虑所有潜在问题,则所有学习算法都一样。所以谈论算法优劣需针对具体学习问题,学习算法的自身偏好与问题是否相配起决定性作用。

5、发展历程

         推理期          →           知识期         →            机器学习

机器逻辑推理能力 → 机器拥有知识能力 →机械学习(学习存储与检索)、示教学习、类比学习(从指令中学习、通过观察和发现学习)、归纳学习(从样例中学习,包括监督学习、非监督学习)。


从样例中学习两大主流

1、符号主义学习:决策树+基于逻辑的学习。

2、基于神经网络的连接主义学习:BP→SVM→Deep Learning

上一篇下一篇

猜你喜欢

热点阅读