直观理解为什么分类问题用交叉熵损失而不用均方误差损失?

上传人:小** 文档编号:109110643 上传时间:2022-06-16 格式:DOC 页数:3 大小:111.50KB
返回 下载 相关 举报
直观理解为什么分类问题用交叉熵损失而不用均方误差损失?_第1页
第1页 / 共3页
直观理解为什么分类问题用交叉熵损失而不用均方误差损失?_第2页
第2页 / 共3页
直观理解为什么分类问题用交叉熵损失而不用均方误差损失?_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述
bluer,irit胡wi1程0忒-忖共有类,令网络的输出为人,巴K,对应屋个类,,ypjyp+v,y均为0。对这个样本,交叉熵(crossentropy)损失为.,y。对某个属于p类的样本,其labeI中yp=1,直观理解为什么分类问题用交叉熵损失而不用均方误差损失?目录博客:|交叉熵损失与均方误差损失常规分类网络最后的softmax层如下图所示,传统机器学习方法以此类比,+y2)=-(yJogY+ylogy=-yplogyp=-|ogyp均方误差损失(meansquarederror,MSE)为=(y1-y1)2+(y_y)2=(1-y)2+(y2+y2+y2p1p_1p+1则m个样本的损失为丄工=m=1对比交叉熵损失与均方误差员失,只看单个样本的损失即可,下面从两个角度进行分析。损失函数弟度损失函数是网络学习的指挥棒,它引导着网络学习的方一一能让损失函数变小的参数就是好参数。所以,损失函数的选择和设计要能表达你希望模型具有的性质与倾向。对比交叉熵和均方误差损失,可以发现,两者均在y=y=1时取得最小值0,但在实践中yp只会趋近于1而不是恰好等于1,在yp1的情况下,交叉熵只与labeI类别有关,冷越趋近于1越好1_y入入入入入P均方误差不仅与yp有关,还与其他项有关,它希望丫,,yp_1,yp+1,y越平均越好,即在_1时取得最小值分类问题中,对于类别之间的相关性,我们缺乏先验。虽然我们知道,与“狗”相比,“猫”和“老虎”之间的相似度更高,但是这种关系在样本标记之初是难以量化的,所以abel都是onehot。在这个前提下,均方误差损失可能会给出错误的指示,比如猫、老虎、狗的3分类问题,label为1,0,0,在均方误差看来,预测为0.8,0.1,0.1要比0.8,0.15,0.05要好,即认为平均总比有倾向性要好,但这有悖我们的常识。而对交叉熵损失,既然类别间复杂的相似度矩阵是难以量化的,索性只能关注样本所属的类别,只要越接近于1就好,这显示是更合理的。softmax反向传播角度softmax的作用是将(-8,+8)的几个实数映射到(0,1)之间且之和为1,以获得某种概率解释。令softmax函数的输入为,输出为y对结点有,=1e不仅与有关,还与|H有关,这里仅看,则有为正确分类的概率,为0时表示分类完全错误,越接近于1表示越正确。根据链式法则,按理来讲,对与相连的权重,损失函数的偏导会含有(1-)这一因子项,=0时分类错误,但偏导为0,权重不会更新,这显然不对一一分类越错误越需要对权重进行更新。对交叉熵损失,d1d则有dddddd-=1恰好将(1)中的消掉,避免了上述情形的发生,且越接近于1,偏导越接近于0,即分类越正确越不需要更新权重,这与我们的期望相符。而对均方误差损失,ddp=2(1p)=2(p1)则有,ddddddo=-=2(1)2显然,仍会发生上面所说的情况一一=0,分类错误,但不更新权重。交叉熵都比均方误差要好。参考分类问题而言,无论从损失函数角度还是softmax反向传播角度,Processingmath:100%
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!