用判别分析的方法判定DNA序列的类别数对学建模

资源描述

用判别分析的方法判定DNA序列的类别数学建模论文用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。近年来，人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。本文用Fisher判别的思想，从变量检验入手，给出了对DNA序列进行不同分类的理论依据，并探讨错判概率与判别效率之间的关系。通过对检验样本的回报情况分析可知，本文所建立的模型分辨率高（95%），错判率低（1%），简单而易于运行，适合于各种长度的DNA序列的分类，因此实用性强，有较高的理论价值，为多元统计分析方法在生物信息学领域中应用的又一典型实例。关键词：DNA序列、Fisher判别法、判别函数、错判率。一、问题提出1背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列，其中没有断句，也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的内容知之甚少，难以读懂，破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学最重要的课题之一。对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。2问题有20个已知类别的人工序列：A类，B类。 1. 从中提取特征，构造模型，找出合适的分类方法，并用该法对另20个给出的未知类别的人工序列进行分类，要求详述方法及给出计算程序。2.对另给出的182个自然序列进行分类。二问题的分析本题重在从已知类别的DNA序列中提取某些特征，构造分类方法，提取的某些特征应满足以下条件：1）来源于已知样本。2）具有给予未知类别的DNA序列分类的功能。3）能较好的接受检验样本的检验。全部地考虑各种因素（如碱基的排列组合，碱基间的键强及键长等等），无法得到分类方法。忽略以上特征，突出A、C、G、T在DNA序列中出现的频数，对这个特征利用多元统计分析方法可以达到要求。判别分析法对分类问题有着较强的适合性，而在Fisher判别法，Bayes判别法，距离判别法等方法中，Fisher判别法条件更宽、更通用。三、符号与假设1、主要假设（1）分析DNA序列时，不考虑A、C、T、G出现的顺序。（2）忽略碱基间间键的强弱、长短。（3）假设文中较小容量的子样能体现母体的一些统计特性。（4）认为DNA序列中A、C、G、T的出现是独立的。（5） DNA序列中A、C、G、T对DNA序列的影响是平等的。（6）将A类误判为B类与将B类误判为A类的损失是相等的。2、符号的说明Vi(i=1、2): 协差矩阵 Di(i=1、2): 判别区域(u): 判别效率W(y)、u(y): 判别函数1、2: 随机向量母体Ei( i=1、2): 随机向量的均值 (u)，(u)：分别为标准正态分布的分布函数与分布密度V-1：矩阵的逆u：向量u的转置四、模型的建立1 模型的提出（Fisher判别准则）Fisher判别准则是借助于方差分析的思想来导出判别函数，此判别函数可以是线性的，也可以是一般的Borel函数。设有两个母体1、2，相应的均值、协差阵分别为E1、E2 与V1、V2；任取一样本个体y（n维向量），考虑其线性函数u（y）=uy（其中u为已知的n维向量），则在y来自i条件下均值与方差分别为ei =E（u（y）i）=uEi i=1、2 v i2=V(u（y）i)=uVi u i=1、2令B0= E0=Fisher准则是适当选择u，使得 (u) =B0/E0达到最大，此(u)称为判别效率。一般地，我们有引理1 若V1+V2的逆存在，则Fisher准则下的线性判别函数与判别效率分别为 u(y)=y(V1+V2)-1(E1-E2) (u)=1/2(E1-E2)(V1+V2)-1(E1-E2)故 u=(V1+V2)-1(E1-E2)证明：见多元统计分析引论（方开泰，第四章定理3、1的系）Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量而对u（y）（一维随机变量）的讨论包含在距离判别法中。引理二设有两个母体 1、2 , 它们的均值、协差矩阵分别为 E1、E2 和V1、V2 ，令Di=y: d2(y, i)min d2(y, j) ，ji i=1、2则距离判别规则为yi , 若y落在Di内， i=1、2引理3 在引理1、2的前提与假设下，若V1=V2=V，则有D1=y: (y-(E1+E2)/2)V-1 (E1-E2)0， D2=Rn-D1；其中 n为随机向量变维数，W(y)= (y-(E1+E2)/2)V-1(E1-E2)为判别函数。由引理1，引理2，引理3很容易推得定理1 在引理3的前提与假设下，对1、2 有相应的判别区域 D1=y: u(y-E)0 D2=y: u(y-E)=0 y2,若 W(y)=0， D2=y | W(y)0,r1+r2=1,r1=0,r2=0),W(y)=(y-E)(S1r1+S2r2 )/9-1(E1-E2)-logc，c、r1、r2的取值有上述模型对检验样本的检验估算出。取c=18、r1=5/6、r2=1/6得新的判别函数W(y)=(y-E)(S15/6+S21/6 )/9 -1 (E1-E2)-log18，此时判别规则为： y1, 若 W(y)=0 y2,若 W(y)=0， D2=y | W(y)= 0如图：误判概率为图中阴影部分面积如果1、2靠得很近，则无论用何种方法误判概率均很大，此时用判别分析意义不大。因此只有当母体的均值有着显著的差异才可作判别分析。而附加信息的检验说明了将1、2分开是有道理的。（2）、误（错）判概率的计算引理：当12 1 时,P(W(y)-4(u)/4(u) u|1=(u)+1/n(u) 2(m-1)/4(u) -(m+1/4)u -u3/4+o(n-2)此为向量的维数，(u)为判别效率，n=n1+n2-2(u)为标准正态分布密度，(u)为标准正态分布函数证明见参考文献1。从引理4可以看到(u)是极限分布，第二大项为修正项,误判概率有如下性质：u1时，它随(u)增大-而减小; 0时，它随增大而增大。这些理论结果与实际非常吻合。在本题中 m=4, (u)=(E1-E2)(S1+S2)/18)-1(E1-E2)，令u= -4(u) 则: P1(D)=PW(y)=0 2均很小(0、q20(q1+q2=1)犯第1、2类错误的损失分别为c1和c2，则对于给定的判别D，由误判引起的平均损失（风险）即为c1q1P1(D)+c2q2P(D)特别当c1=c2=1时其数值即为平均误判概率。注：上述参数c=q2c1/q1c2；对于c1c2情形，读者可参考文献1。六、模型的评价与改进方向1）通过检验样本的回报情况来很看，判错的情况很少，因此说明将样本在这样的判别函数与规则下归类是合理的。2）通过对假设H0的似然比统计量的计算来论证数字特征的提取与DNA序列分类的合理性。3）对于一个新的DNA序列，通过上文给出的判别函数与判别规则计算它将落入哪一个总体，从而决定此DNA序列的其它特性，这为人类提供了又一种基因及其特征检验识别的方法。4）通过本文对错判概率的分析可以认为文中给出的判别分析法在某种程度上具有很高的分辨率。5）对DNA序列有效判别是多元统计分析方法在生物学中的又一重大应用。6）通过错判率与实际误判率的比较，说明理论与实际还是有一定的差距的。这根源于本容量（10个）较小，若将检验样本容量增大（=50个），结果将更加合理。7）由于时间限制，本文没有论证抽取4个数字特征与抽取更少的数字特征（3或者2），孰优孰劣，但文中利用似然比统计量来论证假设的合理性这种方法可以做到这一点。8）本文在假设中忽略各种碱基之间键长及其键强对分类的影响，也忽略DNA序列中碱基排列顺序，而这些均是识别DNA序列的重要因素。参考文献1 张尧庭、方开泰多元统计分析引论科学出版社 1982年2 雷功炎数学模型讲义北京大学出版社 1999年3 李尚志数学建模竞赛教程江苏教育出版社 1996年4 应用概率统计华东师大出版社 2000年第16卷第3期论文点评：（待写）本篇论文获得2000年数学建模的全国一等奖。3

展开阅读全文

用判别分析的方法判定DNA序列的类别数对学建模

最新文档