机器学习

深度学习引言+机器学习基础

2018-11-25  本文已影响5人  是黄小胖呀

0、引言

1)深度学习定义

层次化的概念让计算机构建比较简单的概念来学习复杂概念。

2)AI系统不同部分的相关关系

经典机器学习:输入--特征--从特征映射--输出;

深度学习:输入--简单特征--更抽象特征的额外层--从特征映射--输出。

3)深度学习历史趋势

简单线性模型,感知机,随机剃度下降,无法学习异或函数;

联结主义,分布式表示,反相传播算法普及

深度信念网络的神经网络可以使用一种称为贪婪逐层预训练的策略来有效地训练,目前更多的兴趣点仍是监督学习算法和深度模型充分利用大型标注数据集的能力。

第1部分 应用数学与机器学习基础

1、线性代数

1)标量、向量、矩阵、张量

2)线性相关和生成子空间

3)范数

L1范数:元素绝对值之和,当机器学习问题在零和非零值之间的差异非常重要时;

L2范数:元素平方之和开平方,对每个元素的导数和整个向量相关;

4)特征分解

实对称矩阵都可以分解成实特征向量和实特征值;

5)奇异值分解

实数矩阵都可以

6)Moore-Penrose伪逆

A^+  =VD^+U^T

对角矩阵D的伪逆矩阵是其非零元素取倒数之后再转置得到的

7)迹运算

迹运算返回的是矩阵对角元素之和

8)行列式

将方阵映射到实数的函数

--2018.11.25

2、概率与信息论

1)概率

处理不确定性的逻辑扩展

2)随机变量

随机地取不通值的变量

3)概率分布

离散型变量的概率质量函数

连续行变量的概率密度函数

4)边缘概率

已知一组变量的联合概率分布,求其中一个子集的概率分布

5)条件概率

某个事件在给定其他事件发生事时出现的概率

6)贝叶斯准则

P(x\vert y)=\frac{P(x)P(y\vert x)}{P(x)}

7)自信息,香农熵

8)KL散度

对于同一个随机变量X有两个单独的概率分布P(x),Q(x),用KL散度来衡量这两个分布的差异:

D_{KL} (P\vert Q)=E_{x-P[log\frac{P(x)}{Q(x)} ]}

KL散度非负,当KL散度为0,当且仅当P和Q在离散型变量的情况下是相同分布的或者在连续型变量的情况下是几乎处处相同的,因此KL散度非负并且衡量的是两个分布之间的差异,经常被用作分布之间的距离。

9)结构化概率模型

有向/无向结构化概率模型或者图模型

3、数值计算

1)上溢(无穷)下溢(零)

2)病态条件

条件数:函数相对于输入的微小变化而变化的快慢程度。

3)基于剃度的优化方法

最速下降法或梯度下降法

梯度之上:Hessian矩阵,二阶导数矩阵

牛顿法:基于一个二阶泰勒展开来近似x0附近的f(x)

总结;仅使用梯度信息的优化算法:一阶优化算法,如梯度下降;

使用Hessian矩阵的优化算法:一阶最优化算法,如牛顿法

4)约束优化

KKT方法

4、机器学习基础

1)学习算法

经验、任务、度量

2)容量 过拟合 欠拟合

正则化

3)超参数 验证集

用于挑选超参数的数据子集被称为验证集

4)估计 偏差 方差

5)最大似然估计???

6)贝叶斯估计???

7)监督学习算法

逻辑回归、支持向量机、决策树

8)无监督学习算法

主成分分析、k-均值聚类

9)随机梯度下降

10)构造机器学习算法

数据集、代价函数、优化算法、模型

11)促使深度学习发展的挑战???

维数灾难、局部不变性和平滑正则化、流形学习

--2018.12.2

参考资料:《深度学习》美 伊恩.古德费洛等著 赵申剑 等 审校

上一篇 下一篇

猜你喜欢

热点阅读