资源描述
本门课程的学习要求,掌握生物统计学的基本原理和基本概念; 掌握科学地收集、整理和分析数据资料的基本知识与技能; 初步掌握设计实验的基本方法,培养从事教学和科研工作的能力。,通过本课程的学习,绪论,一、生物统计学的概念 二、生物统计学的产生和发展 三、在生物学科研工作中的作用 四、学习生物统计学的方法,主要内容,无处不在的统计,1980年6月,首届国际红楼梦研讨会在美国召开,威斯康星华裔学者陈炳藻独树一帜,宣读了题为从词汇上的统计论红楼梦作者的问题的博士论文。他从字、词出现频率入手,通过计算机进行统计、处理、分析,对红楼梦后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。 精确到小数点的爱情-统计学博士的求婚信,统计数字,大仲马的作品多曲折感人,而大仲马又多私生子,所以,取笑讥讽他的人,往往把他的 作品比作他的私生子。 最使他头痛的是巴黎统计学会的秘书长李昂纳,这人是大仲马的朋友,每次举统计数字的例子,总是说大仲马的情妇和私生子有多少。 有一年该统计学会开年会,大仲马估计,李昂纳又要大放厥词,说他的坏话了。于是他请求参加年会,获得了批准,果然不出大仲马所料,李昂纳又举他的情妇和私生子的例子。 李昂纳报告完毕,请大仲马致词。一向不愿在大庭广众之下发表演讲的大仲马,这次却破例登台说:“所有统计数字都是撒谎的,包括有关本人的数字在内。”听众哄堂大笑。,数学家的幽默,统计学家调侃数学家:你们不是说若且,则吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧? 数学家反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五十度而已!”,由上可知,统计与数量有关,同时它已经渗透到社会经济活动和科学研究的方方面面,统计无处不在。,案例,在一个水库中养着许多鱼,管理人员希望了解鱼的大致数量,这就是一个实践中的统计学问题。,由于鱼不听从指挥,会在各处自由游动的,因此,在进行统计时,必须创造性地提出解决方案。,一种解决方法,先从水库的不同位置一共捕上来1000条鱼,在每条鱼的尾部作上一个标记,应当保证标记不会影响鱼的自由游动。然后,将鱼全部放回水库。几天后,从水库中再捕上来1000条鱼,检查其中尾巴上有标记的鱼的数量。假定在第二次捕上来的1000条鱼中,有20条尾巴上做了标记,则可以推断,水库中鱼的总数大致为:,1000(201000)5万条。,统计(Statistics)的涵义,统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。 统计的研究对象的特点: (一)数量性。统计数据是客观事物量的反映。 (二)总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。 (三)变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。,概念:生物统计学是应用概率论和数理统计原理来研究生物界数量变异规律的一门科学。,实质:生物统计学从研究思路上看,它是以样本来推断总体的一门学科。,特点:1、概率性:研究手段是概率论以及建立在概率论基础上的数理统计方法,更主要的是其结论是不确切的。 2、归纳性:生物统计学由样本来推断总体的研究思路是由特殊到一般的归纳过程。3、实践性,生物统计学的概念,1894年,发表了一系列生物统计学的论文,奠定生物统计学的基础(英国毕尔生)。 哥尔顿(Galton)在十九世纪末叶,应用统计方法研究人种特征与遗传,创立了生物统计学。,生物统计学的产生和发展,英国人达尔文的侄子弗朗西斯哥尔顿直到1883年才发明出“优生学”这个词。一开始,高尔顿的提议没有博得积极的反应。很多人对他的人工控制生育的思想感到震惊。 人们对高尔顿的遗传观点也非常怀疑。再者,因为出身名门的孩子通常能比普通人受到更好的教育,所以怎么肯定他们的能力就是天生的呢?,生物统计学的产生和发展,后来,哥尔顿花了很多的精力,提出一种生物学上的统计技术,以直接回应最初出现的怀疑态度(Cowan, 1972b)。他更加详细地表明,遗传控制了人口的性质。他将统计学方法应用于变异的研究,这也为生物统计学派的研究道路奠定了基础。,生物统计学的产生和发展,后来,他的学生卡尔皮尔逊(KPearson)利用生物统计学来捍卫达尔文主义。可以认为,皮尔逊定量技术的真实结构反映出他想为优生学政策提供明确科学证据的欲望(Mack enzie, 1982)。在皮尔逊的学生RA费舍尔那里也发现同样的观点(Bennett, 1983; No rton, 1983)。,生物统计学的产生和发展,1820年法国人Laplace及同时代的Gauss发现正态分布,卡尔皮尔逊在1906年继续主持哥尔顿试验室,他所提出的卡方(2)测验在遗传学上研究性状分离时被广泛应用。他的学生WSGosset所提出的值测验法已成为当代生物统计工作的基本工具之一。,生物统计学的产生和发展,我国在二十世纪三十年代就出版有实用生物统计学(王绶,1937年),并且成为必修课,在许多方面加以应用。,生物统计学的产生和发展,生物统计学近年来发展甚速,从中又分支为生物统计遗传学、生态统计学、毒理统计学等等。当前,由于电子计算机的普及,使运算技术出现新的跃进,原来十分繁琐的计算变得十分简单、迅速,而且更加精确。应用统计方法以及先进的试验设计来进行分析、研究,在生物学的研究中将越来越显得重要。,生物统计学的产生和发展,在生物学科研工作中的作用,生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。,在生物学科研工作中的作用,可以毫不夸张地说,作为一个实验科学工作者,离开了统计学就寸步难行。希望大家通过这门课程的学习,能够掌握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。,生物统计学是运用数理统计的的原理和方法来分析和解释生物界各种现象和试验调查资料的一门科学。随着生物学的不断发展,生物统计学在水产养殖、水生生物、渔业资源及捕捞等水产学科领域已有广泛应用。,在生物学科研工作中的作用,生物统计学在设计、质控、数据管理、统计分析、结果评价等各个环节均发挥了重要作用。,统计研究的基本环节,统计设计,收集数据,整理与分析,资料积累 开发应用,统计学理论与相关实质性学科理论,描述统计 推断统计,统计调查、实验,统计研究的全过程包括以下基本环节:,(一)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。搞好统计设计不仅要有统计学的一般理论和方法为指导,而且还要求设计者对所要研究的问题本身具有深刻的认识和相关的学科知识。 (二)收集数据 统计数据的收集有两种基本方法。对于大多数自然科学和工程技术研究来说,有可能通过有控制的科学实验去取得数据,这时可以采用实验法。对于社会经济现象来说,一般无法进行重复实验,要取得有关数据就必须进行调查观察。,(三)整理与分析 描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。 推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要内容。 (四)统计资料的积累、开发与应用 对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一个重要方面。,理解 统计思想,掌握 统计术语,熟悉 统计符号,记住 统计公式,使用 统计工具,学习生物统计学的方法,常用统计工具,计算器,统计数表,如二项分布表、泊松分布表、 标准正态分布表、 t分布表等,能完成函数功能(对数计算、乘高次方、开高次方等)和统计功能(计算平均数、标准差、变量值平方和等),统计软件,如Excel、 SPSS、 SAS、TSP( 时间序列数据软件 )等,第一章 统计资料的收集与整理,1.1 总体与样本 1.2 数据类型及频数(率)分布 1.3 样本的几个特征数,总体(集合)和个体(构成集合的元素),根据研究目的确定的、符合指定条件的全部观察对象称为总体。一般用希腊字母表示总体数值,如,等。 注意:,(2)总体具有同质性:每个个体具有共同的观察特征,而与其它总体相区别;,(1)按组成总体个体的多寡分为:有限总体和无限总体;,注意,统计总体的种类,指所包含的单位数目有限的总体,指所包含的单位数目无限的总体,样本和样本容量,总体中抽出若干个个体组成的集体称为样本。一般用拉丁字母表示样本数值,如、等。 样本中包含的个体的个数称为样本的容量,又称为样本的大小。通常用表示。一般以样本含量少于30者为小样本,大于30者为大样本。 注意:抽样是按随机原则选取的,即总体中每个个体有同样的机会被选入样本。,样本与总体之间的关系,样本是总体的一部分,是对总体随机抽样后得到的集合。 对观察者而言,总体是不了解的,了解的只是样本的具体情况。我们所要做的就是通过对这些具体样本的情况的研究,来推知整个总体的情况。,Xn+1,Xn,X1,Xn+1,Xn,X1,样本,总体,总体单位,调查单位,统计调查的组织方式,总体单位,调查单位,普 查,统计调查的组织方式,对全部单位进行调查,总体单位,调查单位,重点调查,只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位),统计调查的组织方式,总体单位,调查单位,抽样调查,按随机原则选择调查单位,各单位被选中的机会相同。,统计调查的组织方式,总体单位,调查单位,典型调查,对典型单位进行调查,典型单位的选择并不一定按规模,统计调查的组织方式,按照 随机原则 从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式,抽样,指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会,特 点,优 点,1.2 数据类型及频数(率)分布,一、资料类型 二、资料搜集与整理 三、频数(率)分布常用统计图(表),资料的分类,正确地进行资料的分类是资料整理、分析的前提。通过试验或调查所获得的资料一般可以分为三大类:,一、数量性状资料 (data of quantitative characteristics) 二、质量性状资料 (data of qualitative characteristics) 三、半定量(等级)资料 (semi-quantitative or ranked data),资料的分类,一、数量性状资料,(一)概念 数量性状是指能够以测量、称量或计数的方法表示其特征的性状。 观察测定数量性状而获得的数据就是数量性状资料。,(二)分类 数量性状资料的记载有量测和计数两种方式,因而数量性状又分为计量资料和计数资料两种。,一、数量性状资料,(二)分类 1.计量资料:指用量测手段得到的数量资料。 这种资料的各个观察值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数值的多少由度量工具的精度而定,它们之间的变异是连续性的。因此亦称为连续性变异资料。 例如身高、产奶量、绵羊剪毛量、血液的生理生化指标等属于连续性数量性状资料。,一、数量性状资料,连续型资料,在一个区间内可以连续不断取值的资料,人的身高、牲畜产奶量、绵羊剪毛量、血液的生理生化指标等,需要使用度量工具取值,身高的例子:,(二)分类 2计数资料:指用计数方式得到的数量资料。 它的各个观察值只能以整数表示,两个相邻整数不得有任何带小数的数值出现。因此,该类资料也称不连续性变异资料或间断(离散)性变异资料。 如猪的产仔数、鸡的产蛋数、鱼的尾数、寄生虫虫卵数等。,一、数量性状资料,离散型资料,其一切可能取值都以整数形式出现,并可以一一列举的资料,特定范围的人口数、林木株数、畜禽数量等等,取值不需要用工具度量,用计数的方式即可,二、质量性状资料,(一)概念和特点 质量性状是指只能观察而不能测量的性状。 这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理。,(二)质量性状数量化的方法 1、统计次数法 质量性状数量化常采用统计次数法,所谓统计次数法是指在一定的总体或样本中,根据某一质量性状的类别统计其个体数。这种由质量性状数量化得来的资料又叫次数资料。,二、质量性状资料,(二)质量性状数量化的方法 . 评分法:对某一质量性状,因其类别不同分别给予评分以便统计分析。例如研究绵羊的油汗色泽遗传时,可将种油汗色泽分别给予不同的分数:深黄分、黄色分、浅黄分、乳白分、白色分。,二、质量性状资料,三、半定量(等级)资料,(一)概念 半定量或等级资料是指将观察单位按所考察的性状或指标的等级顺序分组(三组以上),然后清点各组观察单位的次数而得的资料。,(二)特点 这类资料既有次数资料的特点,又有程度或量的不同。 如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后统计各级别的供试畜禽数。半定量资料在兽医研究中是常见的。,三、半定量(等级)资料,资料搜集与整理,统计工作一般分为三个步骤:收集资料、整理资料和分析资料。 搜集资料(数据)是进行统计工作的第一步也是最重要的一步。如果搜集数据的计划不周密,原始记录不正确,往往会造成整理、分析的困难,甚至得出错误的结论,而这些缺点难以在以后的两个步骤中补救的。,在搜集资料时,应注意如下几点:,. 要有目的性 . 要有代表性 . 样本含量要恰当,资料整理的内容,在调查或试验中所得到的大量数据是分散的数据。要了解事物总的特征和发展情况,必须对这些数据进行科学的分组归纳,使数据系统化,便于进一步统计分析以及反映被研究事物的规律性,这个过程称为数据的整理。,通常我们用X表示变量,原始资料的检查与核对 资料的整理 依次表(小样本) 计数资料的整理与分组 (采用样本数据的自然值进行分组 ) 计量资料的整理与分组 (组距式分组法 ) 质量性状资料、半定量(等级)资料的整理,资料整理的内容,获得的资料在未整理之前,称为原始资料。对原始资料可从以下两个方面进行检查: 1资料的完整性 原始记录有无遗漏或重复 2资料的正确性 原始数据是否正确、合理,有无矛盾,特别注意特大或特小数据及异常数据。,一、资料的检查与核对,二、资料的整理,(一)计数资料的整理 (二)计量资料的整理 (三)质量性状资料、半定量(等级)资料)的整理,对原始资料进行检查核对后,根据资料中观察值的多少确定是否分组。 1.当观察值不多,变异范围不大时,不必分组,直接进行统计分析。(依次表) 2.当观察值较多,变异范围较大时,须将观察值分成若干组,以便统计分析。 将观察值分组归类制成次数分布表(“唱票式”) 看出资料的集中和变异情况。,(一)计数资料的整理,依次表、分组,当数据不多时可不必分组,这时可将变数按数值大小依次排列起来,形成一个由小到大的数字表,称为“依次表” 。 当数据较多时,如30个变数以上的大样本,制成“依次表”则较麻烦,这时需要将数据分成若干组,以便统计分析。,表1-1 10只大白鼠的繁殖力 单位:只,例如,表1-1为10只大白鼠繁殖力的记录,在未加整理以前只是一堆数字,看不出资料的任何意义。,依次表,如将表1-1整理成依次表(表1-2),可以看出10只大白鼠中繁殖力变异的情况,即产仔数最高为8只,最低为3只,变异范围为3-8只。,依次表,大白鼠编号,产 仔 数,8 3 5 10 1 4 7 2 9 6,3 4 5 5 6 6 6 7 7 8,表1-2 10只大白鼠的繁殖力依次表 单位:只,表1-3 50只小鸡的出壳天数,从上表可以看出,小鸡出壳天数在19-24之间变动,用观察值各个不同值进行分组。,表1-4 50只小鸡出壳天数的次数分布表,(二)计量资料的整理 -组距式分组法,求全距 全距是数据内变量最大值与最小值之差,它是整个样本的变异幅度。 确定组数 组数的决定可用经验分组法,它与样本的个体数有关。 确定组距 每一组内变量的范围跨度称为组距。组距=全距/组数 确定组中值及组限 数据归组(以唱票的方式),表1-5 按样本含量决定组数,返回,组距式分组将要使用的相关概念,总的变异范围。简称全距(或极差),用R 来表示。,变异全距,变异全距的计算公式:,相关概念,“以上”组距数列的上限值“以下”组距数列的下限值。,假定上限假定下限,开口式组距数列组中值的计算:,首组假定下限首组上限相邻组组距 末组假定上限末组下限相邻组组距,先计算开口组的假定上、下限:,因此有:,以某纯系蛋鸡200枚蛋重资料为例说明其整理的基本步骤和方法: 1、求全距R。 资料中,最大值为62.1g,最小值为45.3g, 则全距为62.1-45.3=16.8g 2、确定组数K。组数要适当,一般以达到既简化资料又不影响反映资料的规律性为原则。具体可参照表1-5.本例n=200,初步确定组数为11组。,某纯系蛋鸡200枚蛋重 单位:g,3、确定组距i。每组最大值与最小值之差称为组距,记为i。 本例 4、确定组限及组中值。各组的最大值与最小值称为组限,最小值为下限,最大值为上限。组中值是该组的代表值。 第一组的组中值以接近或等于资料中的最小值为好。本例第一组的组中值取45.0(最小值45.3),则第一组的下限,第一组上限为:44.25+1.5=45.75 (第二组下限) 第二组上限为:45.75+1.5=47.25 (第三组下限) 依次类推,第三组47.25; 第四组48.75;依次分组下去,直到资料中的最大值归入最后一组为止。 但为了避免个别数据归组的两面性(假如资料中有一枚重为47.25g,是将其归入第二组,还是归入第三组呢?),通常将每组的上限略去不写。如第一组44.25,第二组45.75,第三组47.25 ,。 5、归组划线计数,作次数分布表(“唱票式”)和次数分布图。,表1-6 某纯系蛋鸡200枚蛋重的次数分布表,孟德尔在研究分离规律时用纯种圆滑和纯种皱缩的豌豆的杂交子一代进行自交试验,他记录了10个植株所结种子的形态,在原始记录中,种子有两种类型:圆滑、皱缩。 将原始记录(443粒)按种子类型进行分组,(三)质量性状资料、半定量 (等级)资料的整理,表1-7 10株子一代自交后分离情况,表1-8 10株子一代自交后分离情况,表1-9 10株子一代自交后分离情况,(三)质量性状资料、半定量 (等级)资料的整理,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。 表1-10 子二代猪毛色分离情况,累计次数(频率),从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。,从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。,某地区50个百货商店月销售额情况,某地区50个百货商店月销售额情况,某地区50个百货商店月销售额情况,常用统计表与统计图,统计表是用表格形式来表示数量关系,使数据条理化、系统化,便于理解、分析和比较。 统计图是用几何图形来表示数量关系,不同形状的几何图形,可以将研究对象的特征、内部构成、相互关系等形象直观地表达出来,便于分析比较。,统计表,(一)统计表的结构和要求 统计表由标题、横标目、纵标目、线条、数字及合计构成。 (二)统计表的种类 1. 简单表 由一组横标目和一组纵标目组成,纵横标目都未分组。 2. 复合表 由两组或两组以上的横标目与纵标目结合而成, 或一组横标目与两组或两组以上的纵标目结合而成,或两组或组以上的横、纵标目结合而成。,表1-11 北京某点取暖期SO2浓度次数分布表,标题,横标目,纵标目,数字,合计,Example,表1-4 50只小鸡出壳天数的次数分布表,Example,标题,纵标目,数字,合计,出壳天数 划线计数 次数,19 20 21 22 23 24,表1-4 50只小鸡出壳天数的次数分布表,合计,横标目,一个图只用来显示一种现象的数量特征,统计图,(一)统计图绘制的基本要求 (二)常用统计图及其绘制方法 1.条形图 2.直方图 3.圆形图 4.线图(折线图) 5.散点图 (特别是随着计算机技术的发展,统计图的种类越来越丰富),几种常用的统计图,几种常用的统计图,一、平均数(主要介绍算术平均数Arithmetic Mean) 二、标准差(Standard Deviation) 三、变异系数 (Coefficient of Variability),1.3 样本的几个特征数,次数分布表和次数分布图,可以形象、直观地表示出资料的两个特征集中性和离散性。为了更简单、精确地描述资料的特征,本节介绍三个统计量:平均数、标准差和变异系数。 平均数反应资料的集中性,标准差和变异系数反应资料的离散性。,平均数(Mean),平均数的意义: 平均数用来描述资料的集中性,即指出资料中数据集中较多的中心位置。,平均数的作用: 平均数是资料的代表数; 常用于同类性质资料间的相互比较。 平均数的种类:其中应用最为普遍的是算术平均数,此外还有几何平均数、中数、众数和调和平均数 。,平均数(Mean),算术平均数 (Arithmetic Mean),(一)算术平均数的定义 资料中各观察值的总和除以观察值的个数所得的商,称为算术平均数。在统计学中,简称为平均数或均数。用符号 表示。,算术平均数 (Arithmetic Mean),(二)计算方法 1、直接法 对样本含量较小,未分组的资料适用。,其中,(Sigma)为总和符号, 表示从第一个观察值 x1 累加到第n个观察值 xn ,若在意义上已明确时,简记为 。,算术平均数 (Arithmetic Mean),关于总和符号的几个性质,常数的总和等于该常数的n倍,即 代数和的总和等于总和的代数和,即 总和符号内的常数因子可以提取到总和符号之外,即,其中C为常数;注意:在后面一些章节经常会遇到C代表一个为常量的式子,(a为常数),2、加权法,适用于已分组的资料,各组的次数 fi 是权衡各组中值 xi 在资料中所占比重大小的数量,因此f被称为是x的“权”(right),加权法也由此而得名。,xi 各组组中值; fi 各组次数; k 分组数。,(三)平均数的基本性质,1、样本各个观察值与平均数之差的和为零,即离均差之和为零; 2、样本各观察值与平均数之差的平方和为最小,即离均差的平方和最小。,3、统计学已证明,样本平均数 是总体平均数 的无偏估计值。 对总体而言,用 表示平均数。 无偏估计:当一个统计量的数学期望值等于等于相应总体参数时,称该统计量为其总体参数的无偏估计。,(三)平均数的基本性质,几何平均数 (Geometric Mean),(一)定义 指n个观察值乘积的n次方根。即,几何平均数 (Geometric Mean),(二)适用条件 主要应用于数据呈倍数关系或不对称分布的资料,算术平均数对这类资料的代表性差。如抗体效价(1:10,1:100,1:1000,1:10000)、增长率或生长率、动态发展速度等。,1、应用公式计算(实际应用时常取对数),例如,海虾养殖试验,各旬的生长速度3.0,1.5 1.3,1.2,1.2,1.1,1.1,求海虾的旬平均生长速度。 ,即海虾旬平均生长速度为1.38。,几何平均数 (Geometric Mean),2、当资料编成次数分布表时,,各组组中值; 各组次数;,几何平均数 (Geometric Mean),xi,fi,标准差(Standard Deviation),平均数是资料的代表数,其代表性强弱受资料中各观察值变异程度的影响。仅利用平均数对一个资料的统计特征作全面描述是不够的,还应引入一个能说明资料各观察值变异程度大小的统计量。,用来表示资料变异程度的指标较多,常用的有极差、标准差、变异系数、方差等,其中以方差与标准差应用最为广泛。,标准差(Standard Deviation),一、标准差的引入 全距(极差):只利用了资料中最大值和最小值,不能准确表达资料中各个观察值的变异程度。,标准差(Standard Deviation),一、标准差的引入 离均差 可表达观察值偏离平均数的程度和性质,但由于离均差之和为零,因此它不能表示整个资料中所有观察值的总偏离程度。 若用 ,使用起来又不方便,在统计学中未被采用。,标准差(Standard Deviation),为消除离均差的负号,先将各离均差平方 ;再求离均差的平方之和(简称平方和,记为 SS) ,为消除样本含量的影响以离均差的平方和除以自由度n-1。 则统计量 称为均方(缩写为MS),又称为样本方差,记为S2 ,即:,标准差(Standard Deviation),它不能表示整个资料中所有观察值的总偏离程度,使用不方便,在统计学中未被采用,消除离均差的负号,离均差的平方之和(简称平方和,记为SS),称为均方(缩写为MS),又称为样本方差,记为S2,标准差,相应总体参数叫总体方差,记为2 由于样本方差带有原度量单位的平方单位,为将单位还原,即求样本方差的平方根。在统计学上,样本方差S2的平方根叫做标准差,记为S。 相应总体参数叫总体标准差(),对于有限总体,,(一)直接法,(二)加权法,标准差(Standard Deviation),二、标准差的计算,变异系数 (Coefficient of Variation),一、变异系数的引入 变异系数是标准差相对于平均数的百分数,记为CV。 变异系数同标准差一样是衡量资料变异程度的统计量。变异系数消除了不同单位和平均数的影响,可以用来比较不同资料的相对变异程度。,变异系数 (Coefficient of Variation),二、计算公式,三、特点和作用 (一)变异系数是一个无单位的相对数,用表示; (二)变异系数同时受到平均数和标准差的影响,因此,在利用变异系数来表示资料的变异程度时,最好将平均数和标准差也列出。,变异系数 (Coefficient of Variation),三、特点和作用 (三)变异系数不受单位不同或平均数不同的影响,对于单位不同和平均数不同的资料,都可以用变异系数来比较其变异程度。,变异系数 (Coefficient of Variation),三匹马的体重:200 Kg、201 Kg、202 Kg 三只蚂蚁的体重:500 mg、1000 mg、1500 mg,案例,S1=0.816 Kg S2=0.40825 g,变异系数 (Coefficient of Variation), S1 S2 马的体重的离散程度(变异程度)大于蚂蚁的体重变异?,不能。其实三匹马的体重相差不大;而蚂蚁之间体重是有很大差别的。原因在于基数不同,这时不能直接用S比较。,变异系数 (Coefficient of Variation),上例:,=0.816/201=0.0041,=408.25/1000=0.40825,CV1CV2 蚂蚁的体重变异程度大于马的体重的变异程度,变异系数 (Coefficient of Variation),作业17/9,p18 1.2 1.12,计数资料的整理与分组基本是采用样本变数的自然值进行分组,每组均用一个变数值来表示。分组时可将资料中每个变数分别归入相应的组内,然后制成次数分布表。 例如,40只大白鼠的产仔数如下表所示,计数资料的整理与分组,分组,计数资料的整理与分组,分组,表1-12 40只大白鼠的产仔数 单位:只,产 仔 数,3 4 5 6 7 8,表1-13 40只大白鼠繁殖力的次数分布表 单位:只,大白鼠数,5 3 9 11 9 3,合计,40,计量资料的整理与分组,计量资料的整理与分组是采用组距式分组法。在分组前先确定全距、组数、组距、组中值、组限等,然后将各变数的值分别归入相应的组内。,分组,表1-14 100株橡胶树胶乳产量表 (单位:毫升/株次),26,133,2、确定组数,编制步骤:,【解】,1、求全距,取K= 10组,样本个体数是100,查表1-5,可分为10组,本例中,k=10,则有,3、确定组距I:,确定组中值及组限,I=R/K=107/10=10.7,为分组方便起见,可以11作为组距,第一组的下限不能大于资料的最小值,而末一组的上限不能小于资料的最大值,编制次数表,数据归组,编制次数表,数据归组,编制次数表,数据归组,表1-15 100株橡胶树胶乳产量次数分布表 (单位:毫升/株次),第一节 概率的基本概念,一、随机现象与随机事件 二、概率的统计定义 三、概率的古典定义 四、概率的一般运算,第二章 概率和概率分布,一、随机现象与随机事件,随机现象与必然现象 事件 事件间的关系 事件的运算,随机事件,在客观世界中,不断地出现和发生一些事物和现象。这些事物和现象可以统称为事件。时间的发生有一定的条件。 经分析,就因果关系来看,有一类事件是在一定的条件下必然发生的(如水到0会结冰,一年会有四个季节)。这种在一定的条件下必然发生的事件称为必然事件。 另有一类事件在一定的条件下是必然不发生的(如石头不能孵化成小鸡,太阳不会从西边出来)。这种在一定的条件下必然不发生的事件称为不可能事件。,随机事件,必然事件或不可能事件虽然不同,但又具有共性,即在因果关系上都具有确定性。 除了必然事件和不可能事件以外,在客观世界中还有另外一类事件,这类事件发生的条件和事件的发生与否之间没有确定的因果关系。这种发生的条件和发生与否之间没有确定的因果关系的事件称为随机事件。,随机事件,在长期的实践中人们发现,虽然对随机事件作一两次或少数几次观察,随机事件的发生与否没有什么规律,但如果进行大量的观察或试验,又可以发现随机事件具有一定的规律性。,随机事件,比如一枚硬币,投掷一次或几次的时候看不出什么规律,但是在同样的条件下反复多次进行试验,把硬币投掷成千上万次,就会发现硬币落地时正面朝上和反面朝上的次数大致是相等的。,随机现象与必然现象,所谓随机现象,就是在基本条件不变的情况下,各次实验或观察会得到不同的结果的现象,而且这一结果是不能准确预料的。 例:血球计数,昆虫密度调查,某一时刻车间中开动的车床数,优秀选手射击弹着分布,抽样时某一样品合格与否等等。,随机现象与必然现象,必然现象则是指在一定条件下必然会发生的现象。 例:早晨太阳从东方升起,水向低处流,万有引力,标准大气压,纯水100沸腾等等。,事件,随机事件 样本空间(定义:在一组固定的条件下所进行的试验或观察, 其可能出现的结果称为样本点,一般用表示。全体样本点的所构成的集合称为样本空间,一般用表示。 ) 基本事件 必然事件 不可能事件,例:有10只小白鼠,其中雌雄各半。现从中抽取两只(放回式抽样):则有,事件,是雄性的情况:,0只,1只,2只,基本事件,基本事件,基本事件,事件,至少1只雄性的情况:,1只,2只,基本事件,基本事件,事件,例:有10只小白鼠,其中雌雄各半。现从中抽取两只(放回式抽样):则有,事件,包括02只雄性的情况:,必然事件,包括3只雄性的情况:,不可能事件,事件间关系,设A、B均为事件,则它们可能有以下关系: 包含事件:若A发生,则B必然发生,此时称A包含于B,或B包含A。记为:A B,或B A。 例:正正 两币相同 相等事件:若A B,且B A,则称A与B相等,记为A=B。 例:反反=正面不出现 对立事件:由所有不包含在A中的样本点所组成的事件称为A的逆事件,或A的对立事件,记为 。(也可称为“非A”) 例: =正反,反正=两币不同,Venn图:用图解的方法表示集合间的关系。如:,A,B,相离 相交 包含,事件间关系,事件的运算,事件的和 事件的交 互不相容事件,已知事件A,B,我们可以通过它们构成一些新的事件: 交:同时属于A及B的样本点的集合。记为:AB或AB,此时A与B同时发生。 和(并):至少属于A或B中一个的全体样本点的集合,记为AB。此时可能A,B都发生,也可能只发生一个。 互不相容:若AB=,则称A与B互不相容。样本点一定是互不相容的。,事件的运算,事件的运算,运算规律: (1)交换律:AB=BA,AB=BA (2)结合律: (AB)C=A(BC) (AB)C=A(BC) (3)分配律: (AB)C=(AC)(BC) (AB)C=(AC)(BC),事件的运算,例:A、B、C是三个事件,请用运算式表示下列事件: (1)A发生,B与C不发生: (2)A与B都发生而C不发生: (3)至少发生一个: (4)恰好发生一个: (5)恰好发生二个:,事件的运算,例:A、B、C是三个事件,请用运算式表示下列事件: (1) (2) (3)A B C (4) (5),事件的运算,概率,在数学中有两个分支,即概率论和数理统计。研究随机事件统计规律的学科称为概率论。由随机现象的一部分实测资料研究和推求随机事件全体的规律的学科称为数理统计。 概率是表示统计规律的方式。用概率可以表示和度量在一定条件下随机事件出现或发生的可能性。 针对不同的情况,概率有不同的定义。 按照数理统计的观点,事物和现象都可以看为是试验的结果。,二、概率的统计定义,概率的统计定义如下:在一组不变的条件下,重复作k次试验,记l是事件A发生的次数,当试验次数很大时,如果频率l/k稳定地在某一数值p的附近摆动,而且一般说来随着试验次数的增多,这种摆动的幅度愈变愈小,则称A为随机事件,并称数值p为随机事件A的概率,记作P(A)= p,二、概率的统计定义,1、不恒定性:k, l, 2、稳定性:P= 概率 3、性质:p23,三、概率的古典定义,从17世纪中叶,人们就开始研究随机现象,当时这种兴趣或需要主要是由赌博引起的,因此人们首先注意的是这样一类随机事件:它们只有有限个可能的结果,即只有有限个样本点,同时这些样本点出现的可能性相等。这样的概率空间称为古典概型。由于样本点是等可能的,很自然地,人们就把事件A的概率定义为A所包含的样本点数与样本点总数的比值,即,例:五个身高不同的人,随机站成一排,问恰好是按身高顺序排列的可能性有多大?,三、概率的古典定义,解:五个人随机排列,则排法共有5!种。有利场合则为从高到矮,或从矮到高,共两种。因此所求概率为:,例:有一组小白鼠共20只,其中8只雄,12雌。现从中任取5只,问其中有2只是雄,3只是雌的概率是多少?,四、概率的一般运算,解:,四、概率的一般运算,概率加法 条件概率 乘法公式 独立事件 贝叶斯(Bayes)公式(或称逆概公式),四、概率的一般运算,概率加法 定理:对任意事件A、B, P(AUB)= P(A)+P(B)P(AB),四、概率的一般运算,概率加法 例:在人口调查中发现,10岁以下人口(A1)占该地区人口的30%,1120岁(A2)占20%;2130岁(A3)占20%; 3140岁(A4)占10%;4150岁(A5)占10%;51岁以上(A6)占10%。问任意抽取1人,他是20岁以下的概率是多少?,解:事件A1A6是互不相容事件,故 P(A1A2)= P(A1)+P(A2) =0.30+0.20=0.50,四、概率的一般运算,条件概率 定义:若A,B为两个事件, 且P(B)0,则记,称为事件B发生的条件下事件A发生的概率。,四、概率的一般运算,条件概率 假定男女孩出生率相同,设A为二个孩子家庭有一男孩一女孩这一事件,求P(A)。,解:显然=(男男),(男女),(女男),(女女) ,四、概率的一般运算,条件概率 这里要特别注意的是不能认为样本空间只有如下三个样本点:(两男),(两女),(一男一女)。上述三个样本点不是等可能的。这是因为对(两男)与(两女)来说,没有顺序问题,交换顺序后仍是两男或两女;但对一男一女来说就不同了,它实际上是由兄妹与姐弟两个样本点组成。因此只有采用(兄弟),(兄妹),(姐弟),(姐妹)四个样本点才能构成古典概型的样本空间,只有这样才能保证等可能性,而等可能性正是古典概型计算公式的基础。,四、概率的一般运算,条件概率 若已知该家庭至少有一女孩,则有一男一女的概率为多大?,解:设B为至少有一女孩,当B发生时,样本点只剩三个:(男女),(女男),(女女)。,四、概率的一般运算,乘法公式 乘法定理:,四、概率的一般运算,乘法公式 例:从一副扑克牌中连续抽取2张,问2张都是红方块的概率是多少?,事件B为第二张是红方块,P(B/A)= =,=,四、概率的一般运算,独立事件 对任意事件A和B,若P(AB)=P(A)P(B), 则称A,B是独立的。 B的发生对A没有任何影响,也没有提供任何消息,反之也一样。,四、概率的一般运算,独立事件 例:在某地区中学生中,女生占40%,患近视眼的占5%。从该地区学生中任取一人,则求其既是女生又是患近视眼的P。,解:A女生;B近视;A、B是独立事件 P(AB)=P(A)P(B)=0.40.05=0.02,5)贝叶斯公式,设A1,A2,An是两两互斥的事件,且P(Ai)0,i=1,2,n, 另有一事件B,它总是与A1,A2,An 之一同时发生,则,贝叶斯,Thomas Bayes,该公式于1763年由贝叶斯(Bayes)给出. 它是在观察到事件B已发生的条件下,寻找导致B发生的每个原因的概率.,贝叶斯公式有着十分广泛的用途,它之所以被称为逆概公式,是因为它实际是在知道结果的情况下来推断原因:A1,A2,An,是可能导致B出现的原因。P(Ai)是各种原因出现的可能性大小,一般是过去经验的总结,称为先验概率。若现在已知B出现了,我们要求它是由哪个原因引起的概率,这就是 ,称为后验概率。它反映了试验之后对原因发生可能性大小的新知识。例如医生诊断病人所患何病(A1,A2,An,中的某一个),他确定某种症状B(如体温,某种化验指标等等)出现,现在实际就是求 ,通过比较它们的大小就可对疾病作出诊断。此时贝叶斯公式显然是很有用的。,贝叶斯公式在实际中有很多应用,它可以帮助人们确定某结果(事件 B)发生的最可能原因.,例 某一地区患有癌症的人占0.005,患者对一种试验反应是阳性的概率为0.95,正常人对这种试验反应是阳性的概率为0.04,现抽查了一个人,试验反应是阳性,问此人是癌症患者的概率有多大?,则 表示“抽查的人不患癌症”.,求解如下:,设 A=抽查的人患有癌症, B=试验结果是阳性,,求P(A|B).,已知 P(A)=0.005,P( )=0.995, P(B|A)=0.95, P(B| )=0.04,现在来分析一下结果的意义.,由贝叶斯公式,可得,代入数据计算得: P(A|B)= 0.1066,2. 检出阳性是否一定患有癌症?,1. 这种试验对于诊断一个人是否患有癌症 有无意义?,如果不做试验,抽查一人,他是患者的概率 P(A)=0.005,患者阳性反应的概率是0.95,若试验后得阳性反应,则根据试验得来的信息,此人是患者的概率为 P(AB)= 0.1066,说明这种试验对于诊断一个人是否患有癌症有意义.,从0.005增加到0.1066,将近增加约21倍.,1. 这种试验对于诊断一个人是否患有癌症 有无意义?,2. 检出阳性是否一定患有癌症?,试验结果为阳性,此人确患癌症的概率为 P(AB)=0.1066,即使你检出阳性,尚可不必过早下结论你有癌症,这种可能性只有10.66% (平均来说,1000个人中大约只有107人确患癌症),此时医生常要通过再试验来确认.,下面我们再回过头来看一下贝叶斯公式,贝叶斯公式,在贝叶斯公式中,P(Ai)和P(Ai |B)分别称为 原因的先验概率和后验概率.,P(Ai)(i=1,2,n)是在没有进一步信息(不知道事件B是否发生)的情况下,人们对诸事件发生可能性大小的认识.,当有了新的信息(知道B发生),人们对诸事件发生可能性大小P(Ai | B)有了新的估计.,例 某医院对某种疾病有一种看起来很有效的检验方法,97%的患者检验结果为阳性,95%的未患病者检验结果为阴性,设该病的发病率为0.4%现有某人的检验结果为阳性,问他确实患病的概率是多少?,得到,由贝叶斯公式得,解 记B为检验结果是阳性,则 为检验结果是阴性,A表示患有该病,则 为未患该病由题意,(1) 条件概率,全概率公式,贝叶斯公式,小结,乘法定理,第二节 概率分布,2.2.1 随机变量 2.2.2 离散型概率分布 2.2.3 连续型概率分布 2.2.4 概率分布与频数分布的关系,概率分布及其特征,具有多种可能结果的现象称为随机现象,随机现象的每一可能结果即是一个随机事件,换句话说,随机变量的每一可能取值都是一个随机事件。 概率是度量随机事件出现或发生的可能性大小的一种尺度。 概率分布由随机变量的取值(x)及其相应的P(x)概率构成。,2.2.1 随机变量,根据概率不同而取不同数值的变量称为随机变量(Random Variable)。 注意: (1)一个随机变量具有下列特性:RV可以取许多不同的数值,取这些数值的概率为p,p满足:0p1。 (2)随机变量以一定的概率取到各种可能值,按其取值情况随机变量可分为两类:离散型随机变量和连续型随机变量。离散型随机变量的取值最多可列多个;连续型随机变量的取值充满整个数轴或者某个区间。 (3)本书中,随机变量用x、y、等符号表示,直观上看,所谓随机变量,就是我们在随机实验中测定的量。例如观察10只新生动物的性别,并计算其中雄性动物的数量X,显然X可能取值为0,1,10;但究竟取值为几,只能在实验结束时才知道。象这样在实验中所得到的取值有随机性的量,就称为随机变量。随机变量的特点就是当实验条件一定时,实验结果仍不确定。,2.2.1 随机变量,上面所举的例子是离散型的随机变量,因为它只有有限个或可列个可能的取值。另外还有一大类随机变量,它们的取值是在某个区间中连续变化的,例如人的身高,体重,胸围象这样的随机变量称为连续型随机变量。,2.2.1 随机变量,离散型随机变量与连续型随机变量,10 20 30 40 50,1.0,概率,概率,x,x,1.0,离散型随机变量,连续型随机变量,随机变量的取值是有随机性的,我们事先无法知道,但它的取值也是有规律性可循的,这种规律性就表现在各个值出现的频率上。,随机变量函数的概念和分布,P(X=x)=p(x); P称为概率函数 显然概率函数应满足:对任意可能结果x,有 p(x)0, 且,对于连续型随机变量来说,它的可能取值是不可列的,实际上它取到某一个确定值的可能性都为0,称f(x)为随机变量X的密度函数,显然应有f(x)0,,随机变量函数的概念和分布,随机变量函数的概念和分布,按随机变量取值的特点,概率分布可分为离散型随机变量的概率分布和连续型随机变量的概率分布。,设X为一随机变量,称函数 F(x) = P(Xx) (-x+)为X的分布函数。 这个定义适用于离散型随机变量,也适用于连续型随机变量。 连续型分布函数也可表示为密度函数的积分:,显然有:,随机变量函数的概念和分布,2.2.2 离散型概率分布,P(X=xi) = p(xi), i=1,2,3, p(xi), i=1,2,3,称为随机变量X的概率分布,通常用下面的形式表示离散型随机变量X的概率分布:,分布函数为: F(x)=P(Xx)=,2.2.3 连续型概率分布,连续型随机变量X可取某个区间c, d或(,)中的一切值,且存在可积函数f (x),使 , f(x) 称为X的密度函数,F(x) 称为X的分布函数。显然,频率与概率都是一个居于0和1之间的数。 频率是相对于样本而言,而概率则是相对于总体而言。因此可以说概率是频率的理论值,频率是概率的试验值或估计值。 频率分布是一种观察分布,而概率分布则是一种理论分布。,2.2.4 概率分布与频数分布的关系,2.2.4 概率分布与频数分布的关系,设(x1,x2,xn)为一组样本观察值,函数f( x1,x2,xn )若不含有未知参数,则称为统计量。 统计量一般是连续函数。由于样本是随机变量,因而它的函数也是随机变量,所以,统计量也是随机变量。 统计量一般用它来提取或压榨由样本带来的总体信息。,2.2.4 概率分布与频数分布的关系,总体的数字特征是一个固定不变的数,称为参数; 样本的数字特征是随抽样而变化的数,是一个随机变量,称为统计量。,第三节 总体特征数,一、数学期望 二、方差 三、数学期望与方差的图示,研究数字特征的必要性 两个最重要的数字特征 (1)数学期望 (2)方差,一、数学期望,研究数字特征的必要性,总体就是一个随机变量。对总体的描述就是对随机变量的描述。随机变量的分布就是对随机变量最完整的描述。但是, (1)求出总体的分布往往不是一件容易的事情; (2)而且,在很多情况下,我们并不需要全面考察随机变量的变化情况,只需要了解总体的一些综合指标。一般说来,常常需要了解总体的一般水平和它的离散程度; (3)如果了解总体的一般水平和离散程度,就已经对总体有了粗略的了解了; (4)在很多情况下,了解这两个数字特征还是深入求出总体分布的基础和关键。 由此看来,研究随机变量的数字特征是十分必要的。,数学期望的定义,定义2.1离散型随机变量数学期望的定义 假定有一个离散型随机变量X有n个不同的可能取值x1,x2,xn,而p1,p2,pn是X取这些值相应的概率,则这个随机变量X的数学期望定义如下: 数学期望描述的是随机变量(总体)的一般水平。 定义2.2连续型随机变量数学期望的定义,女儿期待父亲钓多少鱼回家?,数学期望是最容易发生的,因而是可以期待的。它反映数据集中的趋势。,数学期望的性质,(1)如果a、b为常数,则 E(aX+b)=aE(X)+b (2)如果X、Y为两个随机变量,则 E(X+Y)=E(X)+E(Y) (3)如果g(x)和f(x)分别为X的两个函数,则 Eg(X)+f(X)=Eg(X)+Ef(X) (4)如果X、Y是两个独立的随机变量,则 E(X.Y)=E(X).E(Y),求离散型随机变量数学期望举例,
展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
相关搜索