学习问题的表示课件

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计学习理论,Chapt,1:,学习问题的表示,Outline,函数估计模型,风险最小化问题,三种主要的学习问题,学习问题的一般表示,经验风险最小化归纳原则,学习理论的四个部分,非正式推导和评述,1,outline,函数估计模型,样本学习的一般模型,产生器,G,F(x,),训练器,S,F(y,x,),学习机器,LM,函数集,f(x,a,),学习问题的目的,从给定的函数集,f,中选出能够最好地逼近训练器响应的函数；,训练集,F(x,y,)=,F(x,),F(y,x,),由（,x,1,y,1,），,（,x,m,y,m,）组成,outline,风险最小化问题,损失函数,风险泛函,目的：使得风险泛函最小的函数,outline,三种主要的学习问题,模式识别,训练器的输出为,0/1,f(x,),为指示函数集,损失函数,分类错误,学习问题：在概率测度,F(x,y,),未知，但是训练数据已知情况下，寻找使分类错误的概率最小的函数,三种主要的学习问题,回归估计,训练器的输出实数值,f(x,),为实数函数,回归函数,损失函数,学习问题：在概率测度,F(x,y,),未知，但是训练数据已知情况下，对采用平方误差损失函数的风险泛函最小化,三种主要的学习问题,密度估计,密度函数集,(x,),损失函数,学习问题：在相应的概率测度,F(x,y,),未知，但是给出了独立同分布数据,x,1,x,l,的情况下，使风险泛函最小化,outline,学习问题的一般表示,定义在空间,Z,上的概率测度,F(z,),函数的集合,Q(z,),独立同分布样本,z,1,z,l,风险泛函,outline,经验风险最小化归纳原则,ERM,归纳原则,经验风险泛函,用使得经验风险最小的函数,Q(z,l,),来逼近使风险泛函最小的函数,Q(z,0,),经验风险最小化归纳原则,ERM,原则的体现,最小二乘方法,最大似然方法（等价）,outline,学习理论的四个部分,研究的四个问题,一个基于,ERM,原则的学习过程具有一致性的条件（充分必要条件）是什么？,这个学习过程收敛的速度有多快？,如何控制这个学习过程的收敛速度（推广能力）？,怎样构造能够控制推广能力的算法？,学习理论的四个部分,四个理论,学习过程一致性理论,学习过程收敛速度的非渐近理论,控制学习过程的推广能力的理论,构造学习算法的理论,outline,非正式推导和评述,1,解决学习问题的传统模式,密度估计的非参数方法,用有限数量信息解决问题的基本原则,基于经验数据的风险最小化模型,随机逼近推理,outline,非正式推导和评述,1,第一章中给出的学习问题的表示反映了两个主要的要求：,(1),从一个宽的函数集合中估计待求的函数；,(2),在有限数量的例子的基础上估计待求的函数。,在,(,创建于,20,年代和,30,年代的,),传统理论体系中发展起来的方法没有考虑到这些要求。,因此，在,60,年代，人们在两个方向上进行了很大的努力，一是把传统的结果推广到范围更宽的函数集合，二是针对小样本数目改进已有技术。,下面我们将对其中的一些研究进行订论。,密度估计,问题（,最大似然方法,）,在传统理论体系的框架中，函数估计的所有模型都是基于最大似然方法的。它成了传统体系下的一个归纳引擎。,密度估计,问题（,最大似然方法,）,问题的描述设,p(x,), ,是一个函数密度集合，设未知的密度,p(x,0,),属于这个函数集合,独立同分布数据：,x,1,x,l,最大似然方法,在,20,年代，,Fisher(1952),研究出了估计密度函,数的未知参数的最大似然方法，提出用使泛函,最大的参数取值来逼近未知的参数,。,模式识别（判别分析）问题,Fisher,的模型,-,存在两类数据,两个不同的密度,p,1,(x,*,),，,p,2,(x,*,),设第一类数据出现的概率为,q,1,第二类出现的概率为,1-q,1,决策规则,:,使错误的概率最小,模式识别（判别分析）问题,Fisher,的模型,-,存在两类数据,两个不同的密度,p,1,(x,*,),，,p,2,(x,*,),设第一类数据出现的概率为,q,1,第二类出现的概率为,1-q,1,决策规则,:,使错误的概率最小,模式识别（判别分析）问题,决策规则,:,使错误的概率最小,如果知道这两个统计规律和概率,q,1,的值，可以立即构造出这样一个规则：若向量,x,属于第一类的概率不小于它属于第二类的概率，决策规则就认为这个向量属于第一类。,这个决策规则可以取得最小的错误率。所谓,x,属于第一类的概率不小于它属于第二类的概率、就是下面的不等式成立：,模式识别（判别分析）问题,这一决策规则可以表示成下面的等价形式：,称作判别函数,(,判别规则,),，它把第一类的样本赋值为,1,，而把第二类样本赋值为,-1,；,为了得到这一判别函数，必须估计两个概率密度：,p,1,(x,*,),和,p,2,(x,*,),；,在传统的体系中，人们用最大似然法来估计这两个密度中的参数,*,和,*,。,回归估计模型,在传统体系中，回归估计是建立在另外一个模型基础上的。这个模型就是所谓的度量含有加性噪声的函数的模型。,设某个未知函数有下而的参数化形式：,回归估计模型,回归估计模型,泛函,正态分布,最小二乘泛函,解决学习问题的传统模式,最大似然法的局限,传统体系中的主要方法,失效情况：如高斯混合分布,例子,推导,密度估计的非参数方法,Parzen,核函数,密度函数估计,渐近理论,对于从一个非常宽的密度类中估计密度函数，,Parzen,估计是一致的（,对于平滑的密度函数，,Parzen,估计器的渐近收敛速度是最优,结论,如果观测数量足够多，用非参数方法替代参数方法可以得到对待求依赖关系的好的逼近,密度估计的非参数方法,给定的函数集,p(t,),中，求解积分方程,经验分布函数,经验分布函数,F,l,(x,),到待求函数,F(x,),的一致收敛特性,密度估计的非参数方法,密度估计问题的一般性描述,在概率分布函数未知，但是已知一组独立同分布数据的情况下，求解积分方程,利用已知的数据来构造经验分布函数,F,l,(x,),两个结论,一般来说，估计一个密度是一个很难的不适定的计算问题,为了较好地解决这个问题，必须采用正则化技术,已经证明,已有的非参数算法可以通过用标准的正则化技术（使用不同类型的正则化因子），并用经验分布函数代替未知分布函数来得到,推导,用有限数量信息解决问题的基本原则,基本原则,在解决一个给定问题时，要设法避免把解决一个更为一般的问题作为其中间步骤,对于依赖关系估计问题,解决模式识别或者回归估计问题时，必须设法直接来寻找待求的函数，而不是首先估计密度函数，然后用估计的密度来构造待求的函数,密度估计是统计学中的一个全能的问题,密度估计一般来说是一个不适定问题，需要大量的观测才能较好地解决,用有限数量信息解决问题的基本原则,例子,要构造一个把两个向量集合分开的决策规则，两个集合分别遵循两个正态分布：,N(,1,1,),和,N(,2,2,),推导,基于经验数据的风险最小化模型,模式识别,问题：利用样本从容许函数的集合中寻找使得错误率最小的函数,回归估计,问题：在,L,2,(F),度量下，利用样本在容许函数集合中寻找与回归函数最近的函数,基于经验数据的风险最小化模型,密度估计,问题：用给定的样本在容许的密度函数集合中，寻找离待求密度的,Kullback-Leibler,距离最近的函数,推导,随机逼近推理,随机逼近原则,独立同分布数据,最小化泛函,迭代公式,能保证学习过程一致性的两种一般性归纳原则,随机逼近的原则,经验风险最小化的原则,一般性学习理论,对随机逼近归纳推理的一般性渐近学习理论,对经验风险最小化归纳推理的一般性非渐近模式识别理论,随机逼近推理,什么时候必须停止训练过程？,可能的回答,当对训练数据中的所有元素，其梯度值都非常小，则停止训练过程,当学习过程没有饱和，但是达到了某种停止准则时，则停止学习过程,随机逼近原则的解释,经验风险最小化方法的归纳特性,正则化方法的归纳特性,随机逼近推理,Bayes,推理,先验信息：分布函数,目标函数必须包括在假设函数集中,分析学习过程的核心问题,对经验风险最小化原则的探索,推导,机器学习的基本问题,问题的表示,机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测,.,可以一般地表示为,:,变量,y,与,x,存在一定的未知依赖关系,即遵循某一未知的联合概率,F (x , y ) , (x,和,y,之间的确定性关系可以看作是其特例,),。,机器学习问题就是根据,n,个独立同分布观测样本,(x,1, y,1,) , (x,2, y,2,) , ., (x,n, y,n,),在一组函数,f (x ,w ) ,中求一个最优的函数,f (x ,w,0,),对依赖关系进行估计,使期望风险,R (w ) =L (y , f (x ,w ) ),dF,(x , y ) (2),最小,.,其中,f (x ,w ) ,称作预测函数集,w,为函数的广义参数,f (x ,w ) ,可以表示任何函,数集,;,L (y , f (x ,w ) ),为由于用,f (x ,w ),对,y,进行预测而造成的损失,不同类型的学习问题有不同形式的损失函数,.,预测函数也称作学习函数、学习模型或学习机器,.,

展开阅读全文

学习问题的表示课件

最新文档