DeepLearning
-
梯度检验 爆炸-》裁剪
-
权重初始化
-
指数加权平均(对于时间序列数据)减少噪音
-
偏差修正(避免前期数值太小)
-
momentum
对dW,db进行指数加权平均(也可以加上偏差修正,但一般不用)防止dW大幅度浮动
β一般取值>0.9(可以视为对1/(1-β)个数据进行加权平均)
-
RMSprop
对dW,db进行缩放 -
Adam
综合momentum与RMSprop
-
学习速率递减
多种多样的方法,一般以一个epoch为单位进行递减 -
高维度 几乎不可能被困在局部最优,但平稳点是一个问题
-
超参数选取
- random values,不要用grid间隔选取
-
粗糙到细致
- 指数级上取值
- babysitting 与 多模型平行运行
-
batch归一化
对前一层经过激活前的数据进行归一normalize,不需要再设置参数b
改变分布,减少covariate shift
添加噪音,轻微正则化
预测时,对样本进行缩放采用训练时的缩放参数(指数加权平均活动缩放参数) -
softmax层
loss function
机器学习工程
- 调整模型时 确保正交化,不会牵一发动全身
- 确定评价指标
- train dev test (dev test 独立同分布)
- 部署后效果不好,改变评价指标/改变dev test
- 贝叶斯误差
-
根据可避免误差,确定是改善方差还是偏差
方差训练集与测试集,偏差训练集与贝叶斯误差
-
误差分析
-
为了确定验证集与训练集的误差差如何改善,设置training-dev set与train set同分布但不训练
从而确定是方差问题、偏差问题、还是数据不匹配问题
- 数据不匹配 对训练集进行处理(图像、声音)人工合成数据,使其尽量与应用场景相接近
- 迁移学习
- 多任务学习(视觉下,各个任务数据互助,比单个任务效果更好)
- 端到端
CV
-
LeNet-5 AlexNet VGG-16
-
残差网络 ResNet
-
1x1 卷积
-
inception
-
计算成本 用1x1卷积作为瓶颈层,可大大减少计算量
-
迁移学习
-
数据增强
-
物体检测
- 特定 x,y,w,d
-
滑动窗口
第一个全连接
第二种方法卷积
本质一样 5x5x16x400
但第二种方法可以应用于不同大小的图。
计算一个方框内是某物体的可能性时,第二种方法计算量增加很少(但边框不精确)
-
YOLO
改变标签,图像分割成多个小格子(推荐19x19),标签数据也随时改变。
(个人设想延伸,一个大样本分割成19x19个小样本,训练小样本。预测时也把图片分割成小样本,依次预测 效果可能不如直接YOLO好)
- IoU交并比 >0.5
-
non-max suppression 对于不同的识别类别,独立进行非最大抑制
-
archor box 根据IoU确定在哪个anchor box中
-
整合之前的内容
- RPN
-
人脸识别
siamese network
triplet 损失——训练siamese网络的方法一
有点对抗网络的思想
二分类——训练siamese网络的方法二
-
神经风格迁移
选择已经训练好的模型
内容代价函数:参考两个图跑模型时其中间第l层(不要太浅也不要太深)的激活值,L2
风格损失函数:计算同层不同channel的相关度,比较两个图相关度的差值。有权累加不同层的值。
根据损失函数+BP 修改G图,不修改模型
- 3D 1D卷积
RNN
-
GRU
-
LSTM
-
BRNN
-
DEEP RNN
词语表示
-
词嵌入 word embedding
embedding matrix
距离用余弦
生成embedding matrix
-
根据周围多个,预测中间一个
-
skip-gram模型 选择nearby的一个,预测周围范围内某个词出现的概率
-
word2vec算法
-
负采样
-
GloVe词向量
-
词向量应用
-
偏见消除
-
定向搜索
-
bleu得分
-
注意力模型
-
语音识别