数据统计分析模型

上传人:wuxin****2020 文档编号:248324670 上传时间:2024-10-23 格式:PPT 页数:16 大小:244.82KB
返回 下载 相关 举报
数据统计分析模型_第1页
第1页 / 共16页
数据统计分析模型_第2页
第2页 / 共16页
数据统计分析模型_第3页
第3页 / 共16页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据统计分析模型,参考书,施雨,李耀武编,概率论与数理统计应用,西安交通大学出版社,梅长林,范金成编,数据分析方法,高等教育出版社,,王学民编,应用多元统计分析,上海财经大学出版社,方开泰编,使用多元统计分析,华东师范大学出版社,统计软件,SAS(Statistical Analysis System),SPSS(Statistical Package for the Social Science),R,数据统计分析常用模型,方差分析,回归分析,判别分析,聚类分析,主成分分析,相关分析(典型相关分析),因子分析,列联表分析,时间序列分析,例子,例1:为了比较同一类型的三种不同食谱的营养效果,将19只幼鼠随机地分为三组,每只分为8只、4只、7只,各采用这三种食谱喂养。假定其他条件均保持相同,12周后测得其体重增加量如下表所示,是比较这三种食谱的营养效果是否有显著差异,食谱 体重增加量,甲 164 190 203 205 206 214 228 257,乙 185 197 201 231,丙 187 212 215 220 248 265 281,例子,例2,:,为了研制一种治疗枯草热病的药物,将两种成分(A和B)各按三种不同剂量(低、中、高)混合,将36位自愿受试患者随机分为9组,每组4人服用各种剂量回合下的药物,记录其病情缓解的时间(单位:小时)如下表所示,试分析两种成分及交互作用对病情缓解的时间是否有显著影响。,例子,A B,低剂量,中剂量,高剂量,低剂量,2.4 2.7 2.3 2.5,4.6 4.2 4.9 4.7,4.8 4.5,4.4 4.6,低剂量,5.8 5.2 5.5 5.3,8.9 9.1,8.7 9.0,9.1 9.3,8.7 9.4,低剂量,6.1 5.7 5.9 6.2,9.9 10.5 10.6 10.1,13.5 13.0 13.3 13.2,例子,例3:费希尔(Fisher)于1936年发表了关于鸢尾花(Iris)的数据。数据是对3种鸢尾花:刚毛鸢尾花(第1组)、变色鸢尾花(第2组)和费吉尼亚鸢尾花(第3组)各抽取一个容量为50的样本,测量其花萼长x1,花萼宽x2,花瓣长x3,花瓣宽x4,单位为mm,数据如下表所示。假定有新样品(x1,x2,x3,x4)=(62.35,58,18),试判别该样品属于哪种鸢尾花。,例子,编号 品种 萼长x1 萼宽x2 瓣长x3 瓣宽x4,1 50 33 14 2,1 46 34 14 3,2 65 28 46 15,2 62 22 45 15,3 64 28 56 22,150 3 63 33 60 25,例子,例4,:2000年全国大学生数学建模竞赛A题 DNA序列分类,2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。,虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。,作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号110为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号2140)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类_ ;B类 _。请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。这40个序列也放在如下地址的网页上,用数据文件Art-model-data标识,供下载:网易网址:教育频道在线试题;教育网:Newmcm2000教育网: x2 x3 x4 x5 x6 x7 x8,北京,新疆,2959.19 730.79 478.42 457.64,1608.82 536.05 .344.85 214.40,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!