多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为
“There were many at Bell Labs and MIT who compared Shannon’s insight to Einstein’s. Others found that comparison unfair—unfair to Shannon.”
“贝尔实验室和MIT有很多人将香农和爱因斯坦相提并论,而其他人则认为这种对比是不公平的——对香农不公平。”
前言
将熵这个概念用于信息是一位天才的杰作,作为信息论的创始人,大概是因为他掌控了信息传播所以他的成就才不为一般公众所知吧[1]。知乎有专栏介绍了香农的工作[2],他的硕士论文《A Symbolic Analysis of Relay and Switching Circuits》(继电器与开关电路的符号分析),被评“这可能是本世纪最重要、最著名的一篇硕士论文。”,大概天才都是年轻的时候就光芒万丈吧。
在分类任务中,使用交叉熵作为损失函数就与信息熵有关[3][4]。
交叉熵
附录
多层神经网络,从零开始——(一)、Fortran读取MNIST数据集
多层神经网络,从零开始——(二)、Fortran随机生成“双月”分类问题数据
多层神经网络,从零开始——(三)、BP神经网络公式的详细推导
多层神经网络,从零开始——(四)、多层BP神经网络的矩阵形式
多层神经网络,从零开始——(五)、定义数据结构
多层神经网络,从零开始——(六)、激活函数
多层神经网络,从零开始——(七)、损失函数
多层神经网络,从零开始——(八)、分类问题中为什么使用交叉熵作为损失函数
多层神经网络,从零开始——(九)、优化函数
多层神经网络,从零开始——(十)、参数初始化
多层神经网络,从零开始——(十一)、实现训练类
多层神经网络,从零开始——(十二)、实现算例类
多层神经网络,从零开始——(十三)、关于并行计算的简单探讨