李宏毅老师2017上课摘要笔记

2019-04-24  本文已影响0人  音符纸飞机

其他人的笔记一

Regression:系统的输出是一个标量
Classification:在输出中多选一

Transfer Learning:训练过的系统可以分类大象、猴子。那么它对识别猫狗有什么帮助

Unsupervised Learning:Machine Drawing

Structured Learning:

Reinforcement Learning:从评价中去学习,没有数据去做supervised learning的时候做

Regression

天气预测,股价预测,自动驾驶等等

bias 偏差 模型对于数据的拟合度 欠拟合的模型 高偏差
variance 方差 对于数据改变的敏感性 过拟合的模型 高方差

bias vs. variance

AdaGrad自适应学习率的梯度下降
核心思想:每个参数第t次的学习率都会除以之前所有微分的均方根

Stochastic Gradient Descent 随机梯度下降

半监督学习

概念:部分数据没有label

自学习

训练的时候,先用有label的数据进行模型训练,然后将模型用于没有label的测试数据。然后将部分训练数据放回训练集重新训练模型(放回的规则自定义)
这种方法不适用于回归问题,原因是哪些放进训练集的数据对模型不会有任何影响。(是不是显而易见)


hard label vs soft label, NN中用hard label

没有label的数据,用作熵正则项,对模型进行训练


loss function
Smoothness Assumption
x2,x3虽然比较近,但是x1,x2之间有high density path

方法:cluster and then label (聚类)
对于图像,先用deep autoencoder抽取特征,再做聚类


定义相似度函数 e-neighborhood表示达到相似度阈值了才能算是邻居
如何计算平滑度
平滑度数学表达
如果xi,xj距离很近,我们希望他们的label yi, yj距离也很近

非监督学习

PCA
W的2norm等于1,则点积的值就是投影
w的个数是要降到的维数吗,求解W用
数学推演,w1是x的协方差矩阵最大特征值所对应的的特征向量

PCA可以用奇异值分解SVD来求解

LLE
xi是多个邻接点xj的线性组合
xi降维到zi,xj降维到zj,保持wij不变
对zi的限制

上面这些算法的问题是没有定义如果xi,xj距离很远,zi,zj应该是什么关系

t-SNE
P和Q相当于把相似度做了归一化,tSNE的想法就是降维前后的相似度分布元接近越好

常用于高维数据在低维空间的可视化

AutoEncoder

降维
PCA的神经网络版本

image.png 关键是code有多好,能不能进行区分,上面是PCA,下面是auto encoder 为了encode更好,可以在数据上加一些噪声 unpooling
deconvolution
图像生成

Pixel RNN

VAE
VAE可以控制输出,学习出来的code中,每一项都在图中都有实际意义,比如头发长度,眼睛大小等等。


最小化输入输出差异的同时,还需要最小化下面这一项,为了限制训练出来的方差不能太小,否则都是0了 VAE与高斯混合模型的关系

VAE的局限:始终没有学着生成新的图片

GAN generative adversarial network

generator(decoder in VAE)
discriminator

调参很困难 没有明确的信号告诉你目前的generator是不是足够好

Transfer Learning

target data (与Task相关的数据)
source data (与Task没有直接关系的数据)
one shot learning (target data很少)


transfer learning 分类
fine tune
Multitask Learning
Multitask
Domain-adversarial training (GAN的一种)
task description
如果用传统的神经网络,source和targetd的feature分布可能是完全不相干的,如图中的蓝色和红色,我们希望有一种办法,让两者的分布尽量相同 引入domain classifier feature extractor 要对抗domain classifier, 尽量让domain classifier分不清输入的图像是来自哪个domain 核心优化算法
Zero shot learning
task description 一种思想:找到比分类本身更小的元素(特征) image.png

SVM

SVM=hinge loss + kernel method


delta不可微分,所以不能GD ideal loss是不可微分的,hinge loss (60分就好, 超过margin1 就好)
Linear SVM
SVM可以用GD的 训练出来的模型参数W其实就是所有训练数据的线性组合。由于hingeloss的特性,alfa是一个稀疏矩阵(不是所有的xn都会加到w里去),不为0的那些训练数据就是支持向量 kernel function K相似度函数,不同的kernel,即不同的相似度函数,x_test与每一个x_train计算相似度 rbf kernel

Regression:
SVR: 在某个距离范围内loss就是0

Structured Learning

例子:目标检测的bounding box


image.png 举个栗子

RNN

RNN结构 举个栗子
xt做线性变换成z 每个z都是Vector,z的每个维度操控LSTM每个cell的输入 image.png
Attention based model
image.png image.png Speech Question Answering
上一篇 下一篇

猜你喜欢

热点阅读