第3章神经元感知器和BP网络课件

资源描述

课程名：智能控制技术课程名：智能控制技术第三章第三章神经网络控制神经网络控制神经网络是在生物功能启示下建立起来的一种数据处理神经网络是在生物功能启示下建立起来的一种数据处理技术。它是由大量简单神经元互连而构成的一种计算结构，技术。它是由大量简单神经元互连而构成的一种计算结构，在某种程度上模拟生物神经系统的工作过程，从而具备解决在某种程度上模拟生物神经系统的工作过程，从而具备解决实际问题的能力。实际问题的能力。特点特点:（1）非线性映射逼近能力。非线性映射逼近能力。任意的连续非线性函数映射关系任意的连续非线性函数映射关系可由多层神经网络以任意精度加以逼近。可由多层神经网络以任意精度加以逼近。1第三章神经网络控制神经网络是在生物功能启示下建立起来课程名：智能控制技术课程名：智能控制技术（2）自适应性和自组织性自适应性和自组织性。神经元之间的连接具有多样性，各神神经元之间的连接具有多样性，各神经元之间的连接强度具有可塑性，网络可以通过学习与训练进行自经元之间的连接强度具有可塑性，网络可以通过学习与训练进行自组织，以适应不同信息处理的要求。组织，以适应不同信息处理的要求。（3）并行处理性。并行处理性。网络各单元可同时进行类似的处理，整个网络网络各单元可同时进行类似的处理，整个网络的信息处理方式是大规模并行的，可以大大加快对信息处理的速度。的信息处理方式是大规模并行的，可以大大加快对信息处理的速度。（4）分布存储和容错性。分布存储和容错性。信息在神经网络内的存储按内容分布于信息在神经网络内的存储按内容分布于许多神经元中，而且每个神经元存储多种信息的部分内容。网络的许多神经元中，而且每个神经元存储多种信息的部分内容。网络的每部分对信息的存储具有等势作用，部分的信息丢失仍可以使完整每部分对信息的存储具有等势作用，部分的信息丢失仍可以使完整的信息得到恢复，因而使网络具有容错性和联想记忆功能。的信息得到恢复，因而使网络具有容错性和联想记忆功能。（5）便于集成实现和计算模拟。便于集成实现和计算模拟。神经网络在结构上是相同神经元神经网络在结构上是相同神经元的大规模组合，特别适合于用大规模集成电路实现。的大规模组合，特别适合于用大规模集成电路实现。2（2）自适应性和自组织性。神经元之间的连接具有多样性，各神经课程名：智能控制技术课程名：智能控制技术3-1 神经网络的基本概念神经网络的基本概念一一.生物神经元模型生物神经元模型3.1.1 神经元模型神经元模型脑神经元由细胞体、树突和轴突构脑神经元由细胞体、树突和轴突构成。细胞体是神经元的中心，它一般又成。细胞体是神经元的中心，它一般又由细胞核、细胞膜等组成。树突是神经由细胞核、细胞膜等组成。树突是神经元的主要接受器，它主要用来接受信息。元的主要接受器，它主要用来接受信息。轴突的作用主要是传导信息，它将信息轴突的作用主要是传导信息，它将信息从轴突起点传到轴突末梢。从轴突起点传到轴突末梢。1 1、组成、组成轴突末梢与另一个神经元的树突或轴突末梢与另一个神经元的树突或胞体构成一种突触的机构。通过突触实胞体构成一种突触的机构。通过突触实现神经元之间的信息传递。现神经元之间的信息传递。33-1 神经网络的基本概念一.生物神经元模型3.1.1 课程名：智能控制技术课程名：智能控制技术具有两种常规具有两种常规工作状态工作状态：兴奋与抑制。：兴奋与抑制。当传入的神经冲动使细胞膜电位升高超过阈值时，细胞进入兴奋状态，当传入的神经冲动使细胞膜电位升高超过阈值时，细胞进入兴奋状态，产生神经冲动并由轴突输出；产生神经冲动并由轴突输出；当传入的神经冲动使膜电位下降低于阈值时，细胞进入抑制状态，没当传入的神经冲动使膜电位下降低于阈值时，细胞进入抑制状态，没有神经冲动输出。有神经冲动输出。2.生物神经元生物神经元工作状态工作状态4 具有两种常规工作状态：兴奋与抑制。2.生物课程名：智能控制技术课程名：智能控制技术二二.人工神经元模型人工神经元模型人工神经网络是利用物理器件来模拟生物神经网络的人工神经网络是利用物理器件来模拟生物神经网络的某些结构和功能。某些结构和功能。1.人工神经元的人工神经元的输入输出变换关系为输入输出变换关系为:其中其中:称称为阈值称称为连接接权系数系数称称为输出出变换函数函数。5二.人工神经元模型人工神经网络是利用物理器课程名：智能控制技术课程名：智能控制技术2.常用的输入输出变换函数常用的输入输出变换函数神经元模型的输出函数，它是一个非动态的非线性函数，用神经元模型的输出函数，它是一个非动态的非线性函数，用以模拟神经细胞的兴奋、抑制以及阈值等非线性特性。以模拟神经细胞的兴奋、抑制以及阈值等非线性特性。这些非线性函数具有两个这些非线性函数具有两个显著的特征，一是它的突变性，显著的特征，一是它的突变性，二是它的饱和性，这正是为了二是它的饱和性，这正是为了模拟神经细胞兴奋过程中所产模拟神经细胞兴奋过程中所产生的神经冲动以及疲劳等特性。生的神经冲动以及疲劳等特性。62.常用的输入输出变换函数神经元模型的输出课程名：智能控制技术课程名：智能控制技术某两某两输入、入、单输出的出的单节点感知器点感知器的的连接接权值样本本，为一一类（感知器（感知器输出出为1），），为另一另一类（感知器（感知器输出出为-1），），样本本试求求阀值T。（。（T为绝对值最小的整数，最小的整数，转移函数采用符号函数移函数采用符号函数）课堂练习课堂练习7某两输入、单输出的单节点感知器的连接权值样本，为一类（感知器课程名：智能控制技术课程名：智能控制技术解：单节点两输入感知器的输出为：解：单节点两输入感知器的输出为：根据题意：根据题意：时：得得时：时：得得时：时：得得为将将样本按要求分两本按要求分两类，根据，根据题意意选8解：单节点两输入感知器的输出为：根据题意：时：得时：得课程名：智能控制技术课程名：智能控制技术3.1.2 人工神经元网络人工神经元网络人工神经网络是一个并行和分布式的信息处理网络结构，该网络结人工神经网络是一个并行和分布式的信息处理网络结构，该网络结构一般由许多个神经元组成，每个神经元有一个单一的输出，它可以连构一般由许多个神经元组成，每个神经元有一个单一的输出，它可以连接到很多其它的神经元，其输入有多个连接通路，每个连接通路对应一接到很多其它的神经元，其输入有多个连接通路，每个连接通路对应一个连接权系数。个连接权系数。1.1.对于每个于每个结点有一个状点有一个状态变量量一一.人工神经元网络的组成原理人工神经元网络的组成原理 2.结点点 i 到到结点点j有一个有一个连接接权系数系数 3.对于每个于每个结点有一个点有一个阈值 4.对于每个于每个结点定点定义一个一个变换函数函数严格说来，神经网络是一个具有如下性质的有向图。严格说来，神经网络是一个具有如下性质的有向图。其中：其中：93.1.2 人工神经元网络人工神经网络是一个课程名：智能控制技术课程名：智能控制技术二二.典型的神经网络结构：典型的神经网络结构：根据神经元之间连接的拓扑结构上的不同，可将神经网络结构分根据神经元之间连接的拓扑结构上的不同，可将神经网络结构分为两大类：层状结构和网络结构。层状结构的神经网络是由若干层组为两大类：层状结构和网络结构。层状结构的神经网络是由若干层组成，每层中有一定数量的神经元，相邻层中神经元单向联接，一般同成，每层中有一定数量的神经元，相邻层中神经元单向联接，一般同层内的神经元不能联接。层内的神经元不能联接。1、前向网络（前馈网络）前向网络（前馈网络）下面介绍几种常见的网络结构下面介绍几种常见的网络结构:2、反馈网络、反馈网络 10二.典型的神经网络结构：根据神经元之间连接的拓扑结课程名：智能控制技术课程名：智能控制技术即网状结构，在这种神经即网状结构，在这种神经网络结构中，任何两个神经网络结构中，任何两个神经元之间都可能双向联接。元之间都可能双向联接。4.4.混合型网络混合型网络在前向网络基础上，在同层、在前向网络基础上，在同层、部分神经元之间也可双向联接。部分神经元之间也可双向联接。3.3.相互结合型网络相互结合型网络11 即网状结构，在这种神经网络结构中，任何两个神经元之间都课程名：智能控制技术课程名：智能控制技术3-2 监督学习及前馈神经网络监督学习及前馈神经网络具有分层的结构。最前面一层是输入层，中间是具有分层的结构。最前面一层是输入层，中间是隐层，最后一层是输出层。其信息从输入层依次向上隐层，最后一层是输出层。其信息从输入层依次向上传递，直至输出层。这样的结构称为前馈网络。传递，直至输出层。这样的结构称为前馈网络。3.2.1 感知器网络感知器网络感知器感知器(perceptron)是最简单的前馈网络，也是最简单的前馈网络，也是是早期仿生学的研究成果，早期仿生学的研究成果，主要功能是用于对不同的输主要功能是用于对不同的输入模式进行分类。入模式进行分类。123-2 监督学习及前馈神经网络具有分层的课程名：智能控制技术课程名：智能控制技术一、单层感知器网络一、单层感知器网络也就是按照不同特征的分类结果。也就是按照不同特征的分类结果。是具有单层神经元、采用线性阈值函数的前馈网络。是具有单层神经元、采用线性阈值函数的前馈网络。通过对权值的训练，可使感知器对一组线性可分的输入模通过对权值的训练，可使感知器对一组线性可分的输入模式（矢量）进行有效的分类。式（矢量）进行有效的分类。是是输入特征向量，入特征向量，图中图中是是到到的的连接接权，(j=1,2,m)是输出量是输出量。1.1.单层感知器的基本结构单层感知器的基本结构13一、单层感知器网络也就是按照不同特征的分类结果。是具课程名：智能控制技术课程名：智能控制技术2.2.单层感知器的输入输出变换关系单层感知器的输入输出变换关系由于按不同特征的分类是互相独立的，因而可以由于按不同特征的分类是互相独立的，因而可以取出其中的一个神经元来讨论。取出其中的一个神经元来讨论。其输入到输出的变换关系为：其输入到输出的变换关系为：该感知器的感知器的输出将出将输入模式分成了两入模式分成了两类。它。它们分属于分属于n 维空空间的两个不同的部分。的两个不同的部分。若有若有P P个个输入入样本本(p=1,2,P)。142.单层感知器的输入输出变换关系由于按不同特课程名：智能控制技术课程名：智能控制技术*以二维空间为例以二维空间为例分界分界线的方程的方程为:*值得注意的是：值得注意的是：只有那些线性可分模式类才能用感知器来加以区分。只有那些线性可分模式类才能用感知器来加以区分。线性不可分问题：线性不可分问题：典型的例子是异或关系。典型的例子是异或关系。15*以二维空间为例分界线的方程为:*值得注意的是：只有那课程名：智能控制技术课程名：智能控制技术对于输入矢量对于输入矢量 x，输出矢量，输出矢量 y，目标矢量，目标矢量d，根据以下输，根据以下输出矢量可能出现的情况进行调整：出矢量可能出现的情况进行调整：3.感知器网络的学习规则感知器网络的学习规则 16 对于输入矢量 x，输出矢量 y，目标矢量d，根据以下课程名：智能控制技术课程名：智能控制技术采用有教师的学习方法进行训练：采用有教师的学习方法进行训练：1)确定输入矢量确定输入矢量x，目标矢量，目标矢量d，各矢量的维数、神经元数和样本数目：，各矢量的维数、神经元数和样本数目：n，m，P；2)参数初始化：参数初始化：a)输入输入xn p，dm p；b)设置设置(-1,1)随机非零权矢量随机非零权矢量wm n；c)给出最大循环次数给出最大循环次数max_epoch；3)计算神经网络的实际输出：计算神经网络的实际输出：4.感知器网络的学习算法感知器网络的学习算法 17采用有教师的学习方法进行训练：4.感知器网络的学习算法课程名：智能控制技术课程名：智能控制技术 4)检查输出检查输出y与目标与目标d是否相同，若是，或已达到最大循环次数，训是否相同，若是，或已达到最大循环次数，训练结束，否则继续；练结束，否则继续；6)转到转到3)。权矢量的修正量与输入模式权矢量的修正量与输入模式xk成正比。若成正比。若的取值太大，算法可能出现的取值太大，算法可能出现振荡。振荡。取值太小，收敛速度会很慢。取值太小，收敛速度会很慢。单层感知器的局限性：单层感知器的局限性：只能解决简单的分类问题，也就是只有在输入只能解决简单的分类问题，也就是只有在输入矢量是线性可分时，单层感知器才对输入模式进行有效的分类有效。矢量是线性可分时，单层感知器才对输入模式进行有效的分类有效。线性线性不可分不可分问题只能用多层感知器来解决。问题只能用多层感知器来解决。18 4)检查输出y与目标d是否相同，若是，或已达到最大循环课程名：智能控制技术课程名：智能控制技术二、多层感知器网络二、多层感知器网络 1.多层感知器的基本结构多层感知器的基本结构如下如下图多多层感知器网感知器网络：其中：其中：第第0 0 层为输入层，层为输入层，有有个神经元，个神经元，中间层为隐层。中间层为隐层。第第Q Q 层为输出层，层为输出层，有有个神经元，个神经元，这时每一层相当于一个单层感知器网络。这时每一层相当于一个单层感知器网络。19二、多层感知器网络 1.多层感知器的基本结构如下图多层感知器课程名：智能控制技术课程名：智能控制技术2、多层感知器的输入输出变换关系、多层感知器的输入输出变换关系对于第于第q 层，它形成一个，它形成一个维的超平面，它对于该层的输入模维的超平面，它对于该层的输入模式进行线性分类。式进行线性分类。由于多由于多层的的组合，最合，最终可可实现对输入模式的入模式的较复复杂的分的分类。202、多层感知器的输入输出变换关系对于第q 层，它形成课程名：智能控制技术课程名：智能控制技术3.2.2.BP网络网络反向传播反向传播(Back-Propagation)网络，简称网络，简称BP网络，是采网络，是采用广义用广义d 学习规则，对非线性可微分函数进行权值训练的多学习规则，对非线性可微分函数进行权值训练的多层（三层或三层以上）前馈网络。层（三层或三层以上）前馈网络。前、后层之间各神前、后层之间各神经元实现全联接；经元实现全联接；每层各神经元之间每层各神经元之间无联接。无联接。x1x2xnwij输入层输出层隐含层jik+-wki信息流误差反向传播(学习算法)MqL BP网络主要用于函网络主要用于函数逼近、模式识别、分数逼近、模式识别、分类、数据压缩。类、数据压缩。一一.BP网络的基本结构及原理网络的基本结构及原理213.2.2.BP网络反向传播(Back-Propag课程名：智能控制技术课程名：智能控制技术x1x2xnwij输入层输出层隐含层jik+-wki信息流误差反向传播(学习算法)MqL 设输入层设输入层 j 有有M个节点，节点的输出等于其输入。隐含层个节点，节点的输出等于其输入。隐含层 i 有有q个节点，激活函数为个节点，激活函数为f1，wij是是j层和层和i层节点之间的联接权值。输出层节点之间的联接权值。输出层层k有有L个节点，激活函数为个节点，激活函数为f2，wki是是i层和层和k层节点之间的联接权层节点之间的联接权值。隐含层和输出层节点的输入是前一层节点的输出的加权和。值。隐含层和输出层节点的输入是前一层节点的输出的加权和。22x1x2xnwij输入层输出层隐含层jik+-wki信息流误课程名：智能控制技术课程名：智能控制技术属于属于d 算法。基本思想是最小二乘算法：对于算法。基本思想是最小二乘算法：对于P个个输入学习样本输入学习样本x1,x2,xP，已知对应的输出样本为，已知对应的输出样本为d1,d2,dP。学习的目的是用网络的实际输出。学习的目的是用网络的实际输出y1,y2,yP与目标矢量与目标矢量d1,d2,dP之间的误差来修正之间的误差来修正其权值，使网络输出层的误差平方和达到最小。其权值，使网络输出层的误差平方和达到最小。二二.BP网络的基本学习规则网络的基本学习规则学习过程由学习过程由正向递推正向递推计算实现函数映射和计算实现函数映射和反向传播反向传播计算训练权值两步来完成。计算训练权值两步来完成。23 属于d 算法。基本思想是最小二乘算法：对于P个输入课程名：智能控制技术课程名：智能控制技术三三.BPBP网络的输入输出变换关系网络的输入输出变换关系在在BP网络中，神经元网络中，神经元的变换函数通常采用的变换函数通常采用 S 型函数，因此输出量型函数，因此输出量是是0到到1之间的连续量，它可实现从输入到输出的任意的非线性映射。之间的连续量，它可实现从输入到输出的任意的非线性映射。具有偏置和调节的具有偏置和调节的Sigmoid激发函数激发函数 S 型激活函数连续可微。算型激活函数连续可微。算法上可严格利用梯度法进行推算，法上可严格利用梯度法进行推算，权值修正的解析式明确。权值修正的解析式明确。1.BP1.BP网络中神经元的激活函数网络中神经元的激活函数24三.BP网络的输入输出变换关系在BP网络中，神经元课程名：智能控制技术课程名：智能控制技术2.BP网络的前馈计算网络的前馈计算（BPBP网络输入到输出的映射计算）网络输入到输出的映射计算）即根据神经元所确定的输入输出即根据神经元所确定的输入输出变换函数，由输入层向输出层执行递变换函数，由输入层向输出层执行递推计算。一旦权值满足训练要求，前推计算。一旦权值满足训练要求，前馈计算结束，能使馈计算结束，能使BP网络实现期望的网络实现期望的输入输出变换关系。输入输出变换关系。BP网络的前馈递推算式网络的前馈递推算式：252.BP网络的前馈计算（BP网络输入到输出的映射计算）课程名：智能控制技术课程名：智能控制技术四四.BPBP网络权值的训练及学习功能的实现网络权值的训练及学习功能的实现1.1.训练样本训练样本 BP网络属于监督学习网络，网络属于监督学习网络，BP网络是通过在教师信号（样本）网络是通过在教师信号（样本）的监督下对连接权值进行适当的训练从而实现学习功能的。的监督下对连接权值进行适当的训练从而实现学习功能的。（1 1）训练样本训练样本 -理想输入输出对的集合，样本来自客观对理想输入输出对的集合，样本来自客观对象，信息集中包含着系统内在的输入输出特性。象，信息集中包含着系统内在的输入输出特性。（2 2）样本特性样本特性 -理想的样本应具有真实性和完整性。理想的样本应具有真实性和完整性。设有实际应用中的设有实际应用中的 P 组样本，其中第组样本，其中第 p 组样本对形式如下：组样本对形式如下：输入样本：输入样本：输出样本：输出样本：26四.BP网络权值的训练及学习功能的实现1.训练样本课程名：智能控制技术课程名：智能控制技术2.2.定义误差函数定义误差函数连接权值的训练过程，就是连接权值的训练过程，就是BP网络网络拟合未知函数得拟合未知函数得优化计算过程。为了保证拟合精度，取如下算式作为拟优化计算过程。为了保证拟合精度，取如下算式作为拟合误差函数：合误差函数：总误差函数：总误差函数：一次样本误差函数：一次样本误差函数：其中：其中：是期望输出值与网络实际输出之间的差值。是期望输出值与网络实际输出之间的差值。272.定义误差函数连接权值的训练过程，就是BP网络拟合课程名：智能控制技术课程名：智能控制技术3.3.权值的训练及反向传播计算过程权值的训练及反向传播计算过程x1x2xnwij输入层输出层隐含层jik+-wki信息流误差反向传播(学习算法)MqL 调整连接权值，以便使误差函数调整连接权值，以便使误差函数E最小，优化计算常采最小，优化计算常采用一阶梯度来实现。该方法的关键是计算优化目标函数（即用一阶梯度来实现。该方法的关键是计算优化目标函数（即误差函数）误差函数）E对寻优参数（即连接权值）的一阶倒数。即：对寻优参数（即连接权值）的一阶倒数。即：调整连接权值按调整连接权值按照反向传播的原则，照反向传播的原则，从输出层开始向前逐从输出层开始向前逐一推算。一推算。283.权值的训练及反向传播计算过程x1x2xnwij输入层输出课程名：智能控制技术课程名：智能控制技术（1）首先计算第）首先计算第 Q 层（即输出层）层（即输出层）其中：其中：()()29（1）首先计算第 Q 层（即输出层）其中：()29课程名：智能控制技术课程名：智能控制技术（2）再计算第）再计算第 Q-1 层（即次输出层）层（即次输出层）其中：其中：()见上页见上页()()式：式：30（2）再计算第 Q-1 层（即次输出层）其中：()见上页(课程名：智能控制技术课程名：智能控制技术（3）第）第 q 层的反向递推计算层的反向递推计算根据（根据（）,（）两式可获得反向递推算式：）两式可获得反向递推算式：这里的这里的 q 层是指由层是指由Q-1向前递推的任意网络层次向前递推的任意网络层次（其中：（其中：q=Q-2，Q-3，,1)首首先先计计算算31（3）第 q 层的反向递推计算根据（）,（）两式可获得反课程名：智能控制技术课程名：智能控制技术在每一层的反向递推计算在每一层的反向递推计算需要说明的是：需要说明的是：中都出现导数项中都出现导数项。该项的计算，与所取的激活函数直接相关。比如：该项的计算，与所取的激活函数直接相关。比如：取变换函数取变换函数为为S型函数，那么其导数项可计算如下：型函数，那么其导数项可计算如下：由于：由于：所以：所以：32在每一层的反向递推计算需要说明的是：中都出现导数项。该项的计课程名：智能控制技术课程名：智能控制技术最后可归纳出最后可归纳出BPBP网络的学习算法如下：网络的学习算法如下：第第q层：层：输出层：输出层：33最后可归纳出BP网络的学习算法如下：第q层：输出层：33课程名：智能控制技术课程名：智能控制技术五五.BP网络的特点和优点、局限性及其改进网络的特点和优点、局限性及其改进特点：特点：（1 1）是一种多层网络，）是一种多层网络，包括输入层、隐含层和输出层；包括输入层、隐含层和输出层；（2）层层与与层层之之间间采采用用全全互互连连方方式式，同同一一层层神神经经元元之之间间不不连接；连接；（3）权值通过）权值通过学习算法进行调节；学习算法进行调节；（4）神经元激发函数为）神经元激发函数为S函数；函数；（5）学习算法由正向传播和反向传播组成；学习算法由正向传播和反向传播组成；（6）层与层的连接是单向的，信息的传播是双向的。）层与层的连接是单向的，信息的传播是双向的。34五.BP网络的特点和优点、局限性及其改进特点课程名：智能控制技术课程名：智能控制技术优点：优点：（1）隐隐层层的的作作用用是是使使问问题题的的可可调调参参数数增增加加，使使解解更更加加准准确确。只只要要有有足足够够多多的的隐隐层层和和隐隐层层节节点点，BP网网络络可可以以逼近任意的非线性映射关系。逼近任意的非线性映射关系。（2）由由所所取取的的作作用用函函数数知知，BP网网络络的的学学习习算算法法属属于于全全局逼近算法，具有较强的泛化能力。局逼近算法，具有较强的泛化能力。泛泛化化能能力力用用较较少少的的样样本本进进行行训训练练，使使网网络络能能对对未未经经训训练练的的输输入入也也能能给给出出合合适适的的输输出出。从从函函数数拟拟合合的的观观点点，这表明这表明BPBP网络具有插值计算的能力。网络具有插值计算的能力。没有泛化能力的神经网络无任何使用价值。没有泛化能力的神经网络无任何使用价值。35 优点：35课程名：智能控制技术课程名：智能控制技术（3）BP网网络络输输入入、输输出出之之间间的的关关联联信信息息分分布布地地存存储储在在网网络络的的连连接接权权中中，个个别别神神经经元元的的损损坏坏只只对对输输入入输输出出关关系系有较小的影响，因而有较小的影响，因而BP网络具有较好的容错性。网络具有较好的容错性。36（3）BP网络输入、输出之间的关联信息分布地存储在网络的连接课程名：智能控制技术课程名：智能控制技术局限性局限性：目目标标函函数数存存在在多多个个极极值值点点，按按梯梯度度下下降降法法进进行行学学习习，很容易陷入局部极小值；很容易陷入局部极小值；学学习习算算法法的的收收敛敛速速度度慢慢，且且收收敛敛速速度度与与初初始始权权的的选选择择有关，难以适应实时控制的要求；有关，难以适应实时控制的要求；难难以以确确定定隐隐层层及及其其节节点点的的数数目目。目目前前，确确定定具具体体的的网网络结构尚无好方法，仍根据经验试凑。络结构尚无好方法，仍根据经验试凑。训练时学习新样本有遗忘旧样本的趋势。训练时学习新样本有遗忘旧样本的趋势。针对上述问题，提出针对上述问题，提出3种较常用的改进算法。种较常用的改进算法。37局限性：目标函数存在多个极值点，按梯度下降法进行学习，很容课程名：智能控制技术课程名：智能控制技术1、引入动量项引入动量项增加动量项从前一次权值调整量中取出一部分叠增加动量项从前一次权值调整量中取出一部分叠加到本次权值调整量中。动量项反映以前积累的调整加到本次权值调整量中。动量项反映以前积累的调整经验，经验，对对t时刻调整起时刻调整起阻尼作用。阻尼作用。减小学习过程的振荡减小学习过程的振荡趋势，是目前应用较广泛的一种改进算法。趋势，是目前应用较广泛的一种改进算法。其中，其中，为，为k时刻的负梯度。时刻的负梯度。为学习率，为学习率，0 。为动量项因子，为动量项因子，。根据经验数据根据经验数据动量项因子取动量项因子取0.95比较适比较适合。合。引入前：引入前：引入后：引入后：381、引入动量项增加动量项从前一次权值调整量中取出一部课程名：智能控制技术课程名：智能控制技术2 2、自适应调节学习率、自适应调节学习率设一初始学习率，若经过一批次权值调整后使设一初始学习率，若经过一批次权值调整后使总误差总误差，则本次调整无效，且，则本次调整无效，且降低降低；若若经过一批次权值调整后使总误差经过一批次权值调整后使总误差，则本次，则本次调整有效，且调整有效，且增大增大。标准标准BP算法问题：算法问题：学习率学习率为一常数，很难确定一为一常数，很难确定一个从始到终都合适的最佳个从始到终都合适的最佳学习率。如误差曲面平坦区学习率。如误差曲面平坦区太小会使训练次数增加；而太小会使训练次数增加；而误差变化剧烈的区域误差变化剧烈的区域太大太大会使训练出现振荡。解决方法如下：会使训练出现振荡。解决方法如下：392、自适应调节学习率设一初始学习率，若经过一课程名：智能控制技术课程名：智能控制技术3 3、引入陡度因子、引入陡度因子标准标准BP算法问题：算法问题：误差曲面存在平坦误差曲面存在平坦区，其原因是神经元输区，其原因是神经元输出进入了转移函数的饱出进入了转移函数的饱和区。和区。解决思路：解决思路：压缩神经元净输入，压缩神经元净输入，使其输出退出饱和区。使其输出退出饱和区。403、引入陡度因子标准BP算法问题：40课程名：智能控制技术课程名：智能控制技术实现这一思路的具体实现这一思路的具体作法是，在原转移函数中作法是，在原转移函数中引入一个陡度因子引入一个陡度因子当发现当发现E接近零而接近零而目标与实际输出仍较大时，目标与实际输出仍较大时，可判断已进入平坦区，此可判断已进入平坦区，此时令时令1；退出平坦区后，；退出平坦区后，再令再令=1。11：转移转移函数曲线敏函数曲线敏感区变长；感区变长；=1=1：转移函转移函数恢复原状。数恢复原状。41 实现这一思路的具体作法是，在原转移函数中引入课程名：智能控制技术课程名：智能控制技术4 4、误差函数的改进、误差函数的改进 424、误差函数的改进 42课程名：智能控制技术课程名：智能控制技术(1)产生数据样本集产生数据样本集(2)确定网络的类型和结构确定网络的类型和结构(3)训练和测试训练和测试 3.2.3 神经网络的训练神经网络的训练43(1)产生数据样本集 3.2.3 神经网络的训练43课程名：智能控制技术课程名：智能控制技术(1)产生数据样本集产生数据样本集这里包括原始数据的收集、数据分析、变量选择以这里包括原始数据的收集、数据分析、变量选择以及数据的预处理。及数据的预处理。首先要在大量的原始测量数据中确定出最主要的输首先要在大量的原始测量数据中确定出最主要的输入模式。这就需要对原始数据进行统计分析，检验它们入模式。这就需要对原始数据进行统计分析，检验它们之间的相关性。找出其中最主要的量作为输入。之间的相关性。找出其中最主要的量作为输入。44(1)产生数据样本集这里包括原始数据的收集、数据课程名：智能控制技术课程名：智能控制技术在确定了最重要的输入量后，需进行在确定了最重要的输入量后，需进行尺度变换尺度变换和预和预处理。尺度变换常常将它们变换到处理。尺度变换常常将它们变换到-1,1或或0,1 的范围。的范围。在进行尺度变换前必须先检查是否存在异常点（或称在进行尺度变换前必须先检查是否存在异常点（或称野野点点），这些点必须剔除。），这些点必须剔除。对于一个复杂问题应该对于一个复杂问题应该选择多少数据选择多少数据，这也是一个，这也是一个很关键的问题。系统的输入输出关系就包含在这些数据很关键的问题。系统的输入输出关系就包含在这些数据样本中。所以一般说来，取的数据越多，学习和训练的样本中。所以一般说来，取的数据越多，学习和训练的结果便越能正确反映输入输出关系。结果便越能正确反映输入输出关系。45 在确定了最重要的输入量后，需进行尺度变换和预45课程名：智能控制技术课程名：智能控制技术但是但是选太多选太多的数据将增加收集、分析数据以及网络训的数据将增加收集、分析数据以及网络训练的所付的代价。练的所付的代价。选太少选太少的数据则可能得不到正确的结果。的数据则可能得不到正确的结果。事实上数据的多少取决于许多因素，如网络的大小、事实上数据的多少取决于许多因素，如网络的大小、网络测试的需要以及输入输出的分布等。其中网络大小最网络测试的需要以及输入输出的分布等。其中网络大小最关键。通常较大的网络需要较多的训练数据。关键。通常较大的网络需要较多的训练数据。一个经验规则是：训练模式应是连接权总数的一个经验规则是：训练模式应是连接权总数的5至至10倍。倍。46 但是选太多的数据将增加收集、分析数据以及网络训练的所课程名：智能控制技术课程名：智能控制技术在神经网络训练完成后，需要有另外的测试数据来对在神经网络训练完成后，需要有另外的测试数据来对网络加以检验，测试数据应是独立的数据集合。网络加以检验，测试数据应是独立的数据集合。最简单的方法是：最简单的方法是：将收集到的可用数据随机地分成两将收集到的可用数据随机地分成两部分，譬如说其中三分之二用于网络的训练，另外三分之部分，譬如说其中三分之二用于网络的训练，另外三分之一用于将来的测试，随机选取的目的是为了尽量减小这两一用于将来的测试，随机选取的目的是为了尽量减小这两部分数据的相关性。部分数据的相关性。影响数据大小的另一个因素影响数据大小的另一个因素是输入模式和输出结果的是输入模式和输出结果的分布，对数据预先加以分类可以减少所需的数据量。相反，分布，对数据预先加以分类可以减少所需的数据量。相反，数据稀薄不匀甚至互相覆盖则势必要增加数据量。数据稀薄不匀甚至互相覆盖则势必要增加数据量。47 在神经网络训练完成后，需要有另外的测试数据来对网络加课程名：智能控制技术课程名：智能控制技术(2)确定网络的类型和结构确定网络的类型和结构在训练神经网络之前，首先要确定所选的网络类型。在训练神经网络之前，首先要确定所选的网络类型。若主要用于模式分类，尤其是线性可分的情况，则可若主要用于模式分类，尤其是线性可分的情况，则可采用较为简单的感知器网络；采用较为简单的感知器网络；若主要用于函数估计，则可应用若主要用于函数估计，则可应用BP网络。网络。实际上，神经网络的类型很多，需根据问题的性质和实际上，神经网络的类型很多，需根据问题的性质和任务的要求来合适地选择网络类型。一般是从已有的网络任务的要求来合适地选择网络类型。一般是从已有的网络类型中选用一种比较简单而又能满足要求的网络。类型中选用一种比较简单而又能满足要求的网络。48(2)确定网络的类型和结构在训练神经网课程名：智能控制技术课程名：智能控制技术在网络的类型确定后，剩下的问题是选择网络的在网络的类型确定后，剩下的问题是选择网络的结构和参数。结构和参数。以以BP网络为例，需选择网络的层数、每层的节网络为例，需选择网络的层数、每层的节点数、初始权值、阈值、学习算法、节点变换函数及点数、初始权值、阈值、学习算法、节点变换函数及参数、学习率及动量项因子等参数。这里有些项的选参数、学习率及动量项因子等参数。这里有些项的选择择有一些指导原则，但更多的是靠经验和试凑。有一些指导原则，但更多的是靠经验和试凑。49 在网络的类型确定后，剩下的问题是选择网络的结构和参数课程名：智能控制技术课程名：智能控制技术具体选择有如下具体选择有如下两种方法：两种方法：a.先先设置置较少少节点节点，对网网络进行行训练，并，并测试网网络的的逼近逼近误差，然后逐差，然后逐渐增加增加节点节点数，直到数，直到测试的的误差不再差不再有明有明显减小减小为止。止。对于具体问题若确定了输入和输出变量后，网络输对于具体问题若确定了输入和输出变量后，网络输入层和输出层的节点个数也便随之确定了。对于入层和输出层的节点个数也便随之确定了。对于隐层隐层的的层数可首先考虑只选择一个隐层。剩下的问题是如何选层数可首先考虑只选择一个隐层。剩下的问题是如何选择隐层的节点数。择隐层的节点数。其选择原则是：其选择原则是：在能正确反映输入输在能正确反映输入输出关系的基础上，尽量选取较少的隐层节点数，而使网出关系的基础上，尽量选取较少的隐层节点数，而使网络尽量简单。络尽量简单。50 具体选择有如下两种方法：对于具体问题若确定了课程名：智能控制技术课程名：智能控制技术 b.先设置较多的节点，在对网络进行训练时，采用先设置较多的节点，在对网络进行训练时，采用如下的误差代价函数如下的误差代价函数引入第二项的作用相当于引入一个引入第二项的作用相当于引入一个“遗忘遗忘”项，项，其目的是为了其目的是为了使训练后的连接权系数尽量小使训练后的连接权系数尽量小，可求得，可求得这时这时对对的梯度为的梯度为51 b.先设置较多的节点，在对网络进行训练时，采用如下的误课程名：智能控制技术课程名：智能控制技术利用利用该梯度可以求得相梯度可以求得相应的学的学习算法。利用算法。利用该学学习算法，在算法，在训练过程中只有那些程中只有那些确确实必要的必要的连接接权才才予以保留予以保留，而那些，而那些不很必要的不很必要的连接将逐接将逐渐衰减衰减为零零。最后可去掉那些影响不大的最后可去掉那些影响不大的连接接权和相和相应的的节点节点，从，从而得到一个适当而得到一个适当规模的网模的网络结构。构。若采用上述任一方法选择得到的隐层节点数太多。若采用上述任一方法选择得到的隐层节点数太多。这时这时可考虑采用二个隐层可考虑采用二个隐层。为了达到相同的映射关系，。为了达到相同的映射关系，采用二个隐层的节点总数常常可比只用一个隐层时少采用二个隐层的节点总数常常可比只用一个隐层时少。52 利用该梯度可以求得相应的学习算法。利用该学习算法，课程名：智能控制技术课程名：智能控制技术 (3)(3)训练和测试训练和测试在训练过程中对训练样本数据需要反复地使用。在训练过程中对训练样本数据需要反复地使用。对所有样本数据正向运行一次并反传修改连接权一次称对所有样本数据正向运行一次并反传修改连接权一次称为为一次训练一次训练(或一次学习或一次学习)，这样的训练需要反复地进行，这样的训练需要反复地进行下去直至获得合适的映射结果。通常训练一个网络需要下去直至获得合适的映射结果。通常训练一个网络需要成百上千次。成百上千次。应该注意，并非训练的次数越多越好。应该注意，并非训练的次数越多越好。53(3)训练和测试在训练过程中对训练样本数据课程名：智能控制技术课程名：智能控制技术训练网络的目训练网络的目的的在于找出蕴含在样本数据中的输入在于找出蕴含在样本数据中的输入和输出之间的本质联系，从而对于未经训练的输入也能和输出之间的本质联系，从而对于未经训练的输入也能给出合适的输出，即给出合适的输出，即具备泛化功能具备泛化功能。由于所收集的数据都是包含噪声的，训练的次数过由于所收集的数据都是包含噪声的，训练的次数过多，网络将包含噪声的数据都记录了下来，但是对于新多，网络将包含噪声的数据都记录了下来，但是对于新的输入数据却不能给出合适的输出，也即并不具备很好的输入数据却不能给出合适的输出，也即并不具备很好的泛化功能。的泛化功能。54 训练网络的目的在于找出蕴含在样本数据中的输入和输课程名：智能控制技术课程名：智能控制技术从从如下如下误差曲差曲线可以看可以看出，在用出，在用测试数据数据检验时，均方均方误差开始逐差开始逐渐减小，当减小，当训练次数再增加次数再增加时，测试检验误差反而增加。差反而增加。误差曲差曲线上极小点所上极小点所对应的即的即为恰当恰当的的训练次数，若再次数，若再训练即即为“过度度训练”了。了。55 从如下误差曲线可以看出，在用测试数据检验时，均方误差

展开阅读全文

第3章神经元感知器和BP网络课件

最新文档