第十五天

2025-01-02 本文已影响0人邦_

前馈 = 正向上一层的输出作为下一层的输入并且相邻层之间全连接（全连接=矩阵相乘）

浅胖

微软验证深瘦学习效果好

image.png

权重矩阵相乘 a的行 b的列

image.png

全连接一般不超过7层
（上一层输入个数 * 神经元的个数）= 权重的shape
（1,2）（2,3）（1,3）
（1,3）（3,2） (1,2）
(1,2) (2,2) (1,2)

激活函数：ReLU x>0 x
x<=0 0
线性转非线性输出增加表征能力
如果一个网络的激活函数为连续函数的话叫神经网络
否则为“多层感知机“
阶跃函数：

image.png

逻辑函数：sigmoid 映射到 0-1 做二分类
优点：平滑容易求导
缺点：求导很容易出现梯度消失无法完成深层网络的训练

tanh

image.png

leakyrelu 小于0的时候会有一个很小的值避免梯度消失

image.png

分类模型中，有几个类别输出层就有几个神经元
中间层是relu 通过softmax输出转为相对概率每一层的激活函数一样

image.png

在分类模型最后的输出层激活函数一般都为softmax
交叉熵是评估概率之间的差异的
独热编码将真实值转换成概率

计算梯度需要反向传播算法
mse ：均方误差

image.png