57.超参数概念-2

2023-05-15  本文已影响0人  大勇任卷舒

57.1 批样本数量,动量优化器的动量参数β

57.2 Adam优化器的超参数、权重衰减系数、丢弃法比率和网络参数

57.3 部分超参数如何影响模型性能

超参数 如何影响模型容量 原因 注意事项
学习率 调至最优,提升有效容量 过高或者过低的学习率,都会由于优化失败而导致降低模型有效容限 学习率最优点,在训练的不同时间点都可能变化,所以需要一套有效的学习率衰减策略
损失函数部分超参数 调至最优,提升有效容量 损失函数超参数大部分情况都会可能影响优化,不合适的超参数会使即便是对目标优化非常合适的损失函数同样难以优化模型,降低模型有效容限。 对于部分损失函数超参数其变化会对结果十分敏感,而有些则并不会太影响。在调整时,建议参考论文的推荐值,并在该推荐值数量级上进行最大最小值调试该参数对结果的影响。
批样本数量 过大过小,容易降低有效容量 大部分情况下,选择适合自身硬件容量的批样本数量,并不会对模型容限造成。 在一些特殊的目标函数的设计中,如何选择样本是很可能影响到模型的有效容限的,例如度量学习(metric learning)中的N-pair loss。这类损失因为需要样本的多样性,可能会依赖于批样本数量。
丢弃法 比率降低会提升模型的容量 较少的丢弃参数意味着模型参数量的提升,参数间适应性提升,模型容量提升,但不一定能提升模型有效容限
权重衰减系数 调至最优,提升有效容量 权重衰减可以有效的起到限制参数变化的幅度,起到一定的正则作用
优化器动量 调至最优,可能提升有效容量 动量参数通常用来加快训练,同时更容易跳出极值点,避免陷入局部最优解。
模型深度 同条件下,深度增加,模型容量提升 同条件,下增加深度意味着模型具有更多的参数,更强的拟合能力。 同条件下,深度越深意味着参数越多,需要的时间和硬件资源也越高。
卷积核尺寸 尺寸增加,模型容量提升 增加卷积核尺寸意味着参数量的增加,同条件下,模型参数也相应的增加。

57.4 部分超参数合适的范围

超参数 建议范围 注意事项
初始学习率 SGD: [1e-2, 1e-1]momentum: [1e-3, 1e-2]Adagrad: [1e-3, 1e-2]Adadelta: [1e-2, 1e-1]RMSprop: [1e-3, 1e-2]Adam: [1e-3, 1e-2]Adamax: [1e-3, 1e-2]Nadam: [1e-3, 1e-2] 这些范围通常是指从头开始训练的情况。若是微调,初始学习率可在降低一到两个数量级。
损失函数部分超参数 多个损失函数之间,损失值之间尽量相近,不建议超过或者低于两个数量级 这是指多个损失组合的情况,不一定完全正确。单个损失超参数需结合实际情况。
批样本数量 [1:1024] 当批样本数量过大(大于6000)或者等于1时,需要注意学习策略或者内部归一化方式的调整。
丢弃法比率 [0, 0.5]
权重衰减系数 [0, 1e-4]
卷积核尺寸 [7x7],[5x5],[3x3],[1x1], [7x1,1x7]

大数据视频推荐:
网易云课堂
CSDN
人工智能算法竞赛实战
AIops智能运维机器学习算法实战
ELK7 stack开发运维实战
PySpark机器学习从入门到精通
AIOps智能运维实战
腾讯课堂
大数据语音推荐:
ELK7 stack开发运维
企业级大数据技术应用
大数据机器学习案例之推荐系统
自然语言处理
大数据基础
人工智能:深度学习入门到精通

上一篇 下一篇

猜你喜欢

热点阅读