资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,神经网络简介,(2),多层网络,input layer,hidden,layer(s,),output layer,多层前馈网络的决策区域,如图可见,多层网络能够表示高度非线性决策面,比之前的单个单元的线性决策面表征能力更强。,问题:使用什么类型的的 单元来构建多层网络的基础?如果使用之前介绍的线性单元,多个线性单元的连接仍然是线性单元,而我们更希望表征非线性函数的网络。,Sigmoid,单元,x,1,x,2,x,n,.,.,.,w,1,w,2,w,n,w,0,x,0=1,z=,i=0,n,w,i,x,i,o,o=,(z)=1/(1+e,-z,),(z)=1/(1+e,-z,),sigmoid function.,Sigmoid,函数(,logistic,函数),(z)=1/(1+e,-z),d,(z)/dz,=,(z)(1-,(z),梯度下降规则,:,线性单元,E/,w,i,=-,d,(t,d,-o,d,),o,d,(1-o,d,)x,i,多层网络,:,反向传播算法,反向传播算法,多层网络的学习算法。,反向传播的含义是通过对误差在神经网络中的反向传播,调整各个节点的权重,使得误差局部最小,反向传播算法(随机梯度下降),步骤:,初始化权重为小的随机数。,对于训练集中的每一个样本:,1.,计算此样本在神经网络中的输出,2.,对于每一个输出节点,k,,计算:,3.,对于每一个隐藏节点,h,,计算:,4.,更新权重:,其中:,反向传播算法的推导,梯度下降的权值修改法则,求导的链式法则,反向传播算法(输出节点),反向传播算法(输出节点),反向传播算法(隐藏节点),反向传播算法(内部节点),收敛性与局部最小值,对于多层网络,误差曲面可能含有多个不同的局部极小值,梯度下降可能陷入这些局部极小值的任何一个。因此,对于多层网络,反向传播算法仅能保证收敛到误差,E,的某个局部极小值,不一定收敛到全局最小误差。,缓解局部极小值问题一些常见的启发规则,为梯度更新法则加一个冲量项。冲量有时可以带动梯度下降过程冲过狭窄的局部极小值或滚过误差曲面上的平坦区域,使用随机的梯度下降而不是真正的梯度下降。不同误差曲面通常会有不同的局部极小值,这使得下降过程不太可能陷入任意一个局部极小值,使用多个同样的数据训练多个网络,但用不同的随机权值初始化每个网络。如果不同的训练产生不同的局部极小值,那么对分离的验证集合性能最好的那个网络被选中。或者保留所有的网络,并且把它们当作一个网络“委员会”,它们的输出是每个网络输出的平均值。,前馈网络的表征能力,布尔函数:任何布尔函数可以被具有两层单元的网络准确表示。,连续函数:每个有界的连续函数可以由一个两层的网络以任意小的误差逼近,任意函数:任意函数可以被一个有三层单元的网络已任意精度逼近,
展开阅读全文