2020-02-15

2020-02-16 本文已影响0人是新垣结衣

一、模型选择、过拟合和欠拟合

权重衰减、重置⻔有助于捕捉时间序列⾥短期的依赖关系；权重衰减等价于 L2。L2 范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。

二、梯度消失和梯度爆炸

深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。

当神经网络的层数较多时，模型的数值稳定性容易变差。

三、更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

载入数据集、初始化参数

四、LSTM：长短期记忆long short-term memory :

遗忘门:控制上一时间步的记忆细胞

输入门:控制当前时间步的输入

输出门:控制从记忆细胞到隐藏状态

记忆细胞：⼀种特殊的隐藏状态的信息的流动