deep learning

2019-12-25 本文已影响0人邓泽军_3679

1.向量默认的是列向量。
2. $L^2$ 范数也叫欧几里范数， $L^\infty$ 范数也叫最大范数。 $||x||_\infty = max|x_i|$ 。
3.特征值都是正数的正定，都是非负数的半正定。
4.容量：模型拟合各种函数的能力。

6.VC维：分类器能够分类的训练样本的最大数目。

7.非参数模型：KNN。

8.权重衰减： $L^2$ 正则化项， $\lambda w^Tw$ 中， $\lambda$ 是正则化系数，越大，偏好越小的权重。

9. $k$ ~折交叉验证，将数据集分为k割不重叠的子集。测试误差为k次计算后的平均测试误差。在第i次测试时，数据的第i割子集用于测试集，其余的用于训练。

10.反向传播（backprop）允许代价函数的信息通过网络向后流动，以便计算梯度。

11.计算图：计算形式化为图形的方法。

12.操作（operation）：一个变量或者多个变量的简单函数。

13.正则化：1）参数范数惩罚（ $L_2$ 和 $L_1$ ）；2）数据集增强。3）噪声鲁棒性。4）半监督学习；5）多任务学习；6）提前终止。7）参数绑定和参数共享。8）稀疏表示。稀疏化激活单元。9）bagging和其他集成方法。（模型平均）10）dropout（相当于一个种集成方法。单个步骤训练一小部分的子网络。）11）对抗训练。（在扰动的训练集上训练网络。）

14小批量的大小：

更大的批量会计算更精确的梯度估计，但回报却是小于线性的。
极小批量通常难以充分利用多核架构。这促使我们使用一些绝对最小批批量，低于这个最小批量不会减少计算时间。
如果批量处理中的所有样本可以并行计算，那么内存消耗和批量大小成正比。对于很多硬件设施，这是批量大小的限制因素。
在使用GPU的时候一般选择2的幂数作为批量大小，可以减少运行时间，一般32~256，16在大模型的时候使用。
可能是小批量在学习过程中加入了噪声，会用一定正则化的效果。

$\color{#00F}{text}$

上一篇下一篇

猜你喜欢

热点阅读