生物统计学课件:第一章 概论

上传人:努力****83 文档编号:120354567 上传时间:2022-07-17 格式:PPT 页数:35 大小:5.04MB
返回 下载 相关 举报
生物统计学课件:第一章 概论_第1页
第1页 / 共35页
生物统计学课件:第一章 概论_第2页
第2页 / 共35页
生物统计学课件:第一章 概论_第3页
第3页 / 共35页
点击查看更多>>
资源描述
生物统计学主讲人:彭城课程安排课程安排1 1、基本理论、基本理论 教材:主要涉及统计的基本概念,如假设检验、方差分析、教材:主要涉及统计的基本概念,如假设检验、方差分析、线性回归等。线性回归等。生物:涉及课程项目的基本生物学概念、数据格式及其处生物:涉及课程项目的基本生物学概念、数据格式及其处理方式。理方式。2 2、课程项目、课程项目 课程项目:将统计学基本概念应用到基因组数据分析中,课程项目:将统计学基本概念应用到基因组数据分析中,从而研究基因组特性、基因组在群体之间的差异、基因组进化从而研究基因组特性、基因组在群体之间的差异、基因组进化等。等。3 3、课程项目小组、课程项目小组 每个小组由四人组成,共同完成课程项目,包括模型构每个小组由四人组成,共同完成课程项目,包括模型构建、编写代码、撰写书面报告、展示作业内容。建、编写代码、撰写书面报告、展示作业内容。建模:将生物学问题转化成统计学中的模型建模:将生物学问题转化成统计学中的模型 代码:编写代码完成统计学模型中的计算代码:编写代码完成统计学模型中的计算 报告:书写研究结果报告报告:书写研究结果报告 展示:上机时展示研究成果展示:上机时展示研究成果4 4、考核方式、考核方式 平时平时+课程项目课程项目+期末考试期末考试第一节第一节 什么是统计学?什么是统计学?一、概念一、概念 统计学统计学(StatisticsStatistics)是把是把数学的语言引入具体的科学领域,把数学的语言引入具体的科学领域,把具体科学领域中要待研究的问题抽象具体科学领域中要待研究的问题抽象为数学问题的过程,它是收集、分析、为数学问题的过程,它是收集、分析、列示和解释数据的一门艺术和科学。列示和解释数据的一门艺术和科学。二、随机性的来源二、随机性的来源1 1、问题涉及的数据为数大,不能对之全部加以研究,只能、问题涉及的数据为数大,不能对之全部加以研究,只能采用采用“一定的方式一定的方式”部分考察。部分考察。如一批产品有如一批产品有10,00010,000,其中含废品,其中含废品m m件,且件,且m m未知,废未知,废品率品率p=m/10000p=m/10000也未知。由于质量检验工作量大,并且可能也未知。由于质量检验工作量大,并且可能是是破坏性的,无法全部检验。因此我们只能挑取一部分,是是破坏性的,无法全部检验。因此我们只能挑取一部分,如如100100件,去估计概率件,去估计概率p p。这里随机性的表现在:哪。这里随机性的表现在:哪100100件被件被挑出来是偶然的。挑出来是偶然的。2 2、实验的随机误差,即那种在试验过程中未加控制、无法、实验的随机误差,即那种在试验过程中未加控制、无法控制甚至是不了解的因素所引起的误差。控制甚至是不了解的因素所引起的误差。设反应温度和压力是影响产品质量设反应温度和压力是影响产品质量Y Y的重要因素,我们的重要因素,我们想通过一定的试验去考察这些影响的程度,并挑选一个适想通过一定的试验去考察这些影响的程度,并挑选一个适当的温度和压力值在今后的生产中应用。但是当的温度和压力值在今后的生产中应用。但是Y Y除了与温度除了与温度和压力相关,还受其它因素的影响,如试验的材料、设备和压力相关,还受其它因素的影响,如试验的材料、设备仪器和操作者等。这些因素不便或无法加以完全控制,因仪器和操作者等。这些因素不便或无法加以完全控制,因而对试验结果产生随机性的影响。而对试验结果产生随机性的影响。1 1、频率(古典)学派、频率(古典)学派 概率的频率解释:一个事件的概率可以用大量重复试验之下的频率来解释,且这种解释不取决于认识主体。2 2、贝叶斯(、贝叶斯(BayesBayes)学派)学派 后验分布:对参数所作的任何推断(估计、检验等)都必需且只能基于参数的后验分布。三、两大学派三、两大学派 例例1 1 设某光学透镜第一次落下时打破的概率为 1/2,若第一次落下未打破,第二次落下打破的概率为 7/10,若前两次落下未打破,第三次落下打破的概率为 9/10。求透镜落下三次而未打破的概率。解:解:以 Ai(i=1,2,3)表示事件“透镜第 i 次落下打破”,以 B 表示事件“透镜落下三次而未打破”,有:2003)1091)(1071)(211()()()()()(213121321AAAPAAPAPAAAPBP 例例2 2 设某光学透镜中含有不合格品A和合格品B两种类型,混合比例是1:1;A第一次落下时打破的概率为 1/2,若第一次落下未打破,第二次落下打破的概率为 7/10,若前两次落下未打破,第三次落下打破的概率为 9/10;B第一次落下时打破的概率为 1/3,若第一次落下未打破,第二次落下打破的概率为 3/5,若前两次落下未打破,第三次落下打破的概率为 7/10;若某透镜落下三次而未打破,求该透镜是A的概率。2003)1091)(1071)(211()(AEP20016)1071)(531)(311()(BEP1932001621200321200321)(EAP 变量变量,或变数,指相同性质的事物间表现差异性或,或变数,指相同性质的事物间表现差异性或差异特征的数据。差异特征的数据。常数常数,表示能代表事物特征和性质的数值,通常由,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。变量计算而来,在一定过程中是不变的。误差误差随机误差机误(随机误差机误(Random error)系统误差错误(系统误差错误(Systematic error)随机误差,随机误差,也叫也叫 抽样误差抽样误差(sampling error)。这是由于。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也然性质,在试验中,即使十分小心也是不可避免的是不可避免的。如果。如果通过良好的试验设计、正确的试验操作,增加抽样或试验通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。次数,随机误差可能减小,但不可能完全消灭。统计上的统计上的试验误差一般都指随机误差。试验误差一般都指随机误差。随机误差越小,试验精确性随机误差越小,试验精确性越高越高。系统误差,系统误差,也叫也叫片面误差片面误差(lopsided error)。这是由于这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。错误等人为因素而引起的。系统误差影响试验的准确性系统误差影响试验的准确性,只要以认真负责的态度和细心的工作作风只要以认真负责的态度和细心的工作作风是可以避免的是可以避免的。第三节第三节 生物统计学的概念及主要内容生物统计学的概念及主要内容 生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。一、概念一、概念基本原则基本原则方案制定方案制定常用试验设计方法常用试验设计方法资料的搜集和整理资料的搜集和整理数据特征数的计算数据特征数的计算统计推断统计推断方差分析方差分析回归和相关分析回归和相关分析协方差分析协方差分析主成分分析主成分分析聚类分析聚类分析对比设计对比设计随机区组设计随机区组设计裂区设计裂区设计拉丁方设计拉丁方设计正交设计正交设计二、主要内容二、主要内容三、生物随机性的来源三、生物随机性的来源1 1、变异性、变异性 遗传和变异是生物的基本现象,在任何两个生物个体遗传和变异是生物的基本现象,在任何两个生物个体之间均存在差异。之间均存在差异。2 2、不确定性、不确定性 生物个体之间的差异往往由偶然因素造成,不能准确生物个体之间的差异往往由偶然因素造成,不能准确预测。预测。3 3、复杂性、复杂性 造成生物变异的因素很多,既有遗传方面的,也有环造成生物变异的因素很多,既有遗传方面的,也有环境方面的,还有未知的因素。境方面的,还有未知的因素。1 1、基因表达、基因表达:不确定性和复杂性不确定性和复杂性Nature Reviews Genetics 2005,451-4642 2、基因调控网络、基因调控网络:不确定性的传递性不确定性的传递性Nature Reviews Genetics 2005,451-4643 3、随机性的作用、随机性的作用:功能的多样性功能的多样性Nature Reviews Genetics 2008,831-842 四、生物统计的应用四、生物统计的应用1 1、序列比对、序列比对Nature Reviews Genetics 2001,100-109物种进化物种进化Nature,2011,476482基因组织的进化基因组织的进化Nature Reviews Genetics 2010,487-498 ATGGTAAGCCTGAGCTGACTTAGCGT-AT ATGGTAAACCTGAGTTGACTTAGCGTCAT SNP SNP indel SNP主要产生于染色体复制错误和DNA损伤2 2、寡核苷酸多态性(、寡核苷酸多态性(SNPSNP)参考基因组参考基因组A C G T G T C G G T C T T A杂合杂合SNP纯和纯和SNPA C G T G T C G G T C T T AA C G T G T C G A T C T T AA C G T G T C G A T C T T AA C G T G T C G A T C T T AGWASGWAS与疾病与疾病Nat Rev Genet 2011 12:603-14人类迁移人类迁移Nat Genet 2010 42:961-7群体结构和地理分布群体结构和地理分布3 3、基因组三维空间结构、基因组三维空间结构Parameter evaluationStatistical testH1hESC-R1H1hESC-R2IMR90-R1IMR90-R2GM12878-TGM12878-HK562H1hESC-R1-0.85,0.9(*)0.56,0.78(*)0.57,0.79(*)0.87,0.67(*)0.4,0.52(*)0.31,0.48(*)H1hESC-R20.85,0.9(*)-0.53,0.85(*)0.38,0.85(*)0.7,0.710.05,0.55(*)0.13,0.51(*)IMR90-R10.56,0.78(*)0.53,0.85(*)-0.9,0.96(*)0.51,0.7(*)0.27,0.57(*)0.3,0.5(*)IMR90-R20.57,0.79(*)0.38,0.85(*)0.9,0.96(*)-0.58,0.7(*)0.56,0.560.38,0.5(*)GM12878-T0.87,0.67(*)0.7,0.710.51,0.7(*)0.58,0.7(*)-0.56,0.67(*)0.35,0.51(*)GM12878-H0.4,0.52(*)0.05,0.55(*)0.27,0.57(*)0.56,0.560.56,0.67(*)-0.41,0.42K5620.31,0.48(*)0.13,0.51(*)0.3,0.5(*)0.38,0.5(*)0.35,0.51(*)0.41,0.42-Parameter evaluationCorrelationAutoChrom3D Pipeline Online Service:AutoChrom3D
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!