资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第二章 资料的整理与特征 数的计算,第一节 试验资料的搜集与整理,第二节 特征数的计算,一、试验资料的类型,资料,:,鱼的尾数、人的个数、猪的体重、奶牛的产奶量、花的颜色、人的血型 、疾病治疗的疗效,数量性状资料,:,计数资料,(,如鱼的尾数,以正整数出现,),计量资料,(,如人的身高,依试验的要求和测量仪器或工具的精度,),质量性状资料,:,对某种现象只能观察而不能测量,如,动物的雌雄,;,茸毛的有无,;,人的血型,数量化,(,统计次数法,;,评分法,),二、试验资料的整理,原始资料的检查与核对,次数分布表,次数分布图,当观测值不多,(,n30,),时,,不必分组,直接进行统计分析。,当观测值较多,(,n30,),时,,宜分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。,表,2-1 50,枚受精种蛋孵化出雏鸡的天数,(一)计数资料的整理,1,、观测数较少时:,现以,50,枚受精种蛋孵化出雏鸡的天数为例,表,2-1 50,枚受精种蛋出雏天数的次数分布表,2,、观察值较多,且变异范围较大时,,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,例如,观测某品种,100,只蛋鸡每年每只鸡产蛋数,(,原始资料略,),其变异范围为,200,-,299,枚。,经初步整理后分为,10,组,资料的规律性就比较明显,见表,2-4,。,表,2-3 100,只蛋鸡每年产蛋数的次数分布表,(,二,),计量资料的整理,计量资料在分组前需要确定,全距,、,组数,、,组距,、,组中值,及,组限,,然后将,全部观测值划线计数归组,。,【,例,2.1】,将,126,头母羊的体重资料,(,见表,2-4),整理成次数分布表。,表,2-4 126,头母羊的体重资料,单位:,kg,1,、求全距,全距,是资料中最大值与最小值之差,又称为,极差,(,range,),,用,R,表示,即,R=Max(x)-Min(x),本例,R,=,65.0-37.0=28.0,(,kg,),2,、确定组数,组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。,分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表,2-5,。,表,2-5,样本含量与组数,本例中,,n,126,,根据表,2-5,,初步确定组数为,10,组。,3,、确定组距,每组最大值与最小值之差称为,组距,,记为,i,。分组时要求各组的组距相等。组距的计算公式为:,组距,(,i,),全距组数,本例,i,28.0,103.0,4,、确定组限及组中值,各组的最大值与最小值称为,组限,。最小值称为,下限,, 最大值称为,上限,。每组的中点值称为,组中值,;,上限不计入原则,;,在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好;最末一组的上限应大于资料中的最大值。,表,2-4,中, 最小值为,37.0,, 第一组的组中值取,37.5,,因组距已确定为,3.0,,所以,第一组的下限为:,37.5-(1/2)3.0,36.0,;,第一组的上限也就是第二组的下限为:,36.0+3.0=39.0,;,第二组的上限也就是第三组的下限为:,39.0+3.0=42.0,,,,,以此类推,一直到某一组的上限大于资料中的最大值为止,,于是可分组为:,36.0,39.0,,,39.0,42.0,,,。,5,、归组划线计数,作次数分布表,分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。,表,2-7 126,头母羊的体重的次数分布表,表,2-7 126,头母羊的体重的次数分布表,组别,组中值,次数,频次,累积频次,36.0-,37.5,1,1/126,1/126,39.0-,40.5,1,1/126,2/126,42.0-,43.5,6,6/126,8/126,45.0-,46.5,18,18/126,26/126,第二节 特征数的计算,集中性,是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。反映集中性的特征是,平均数,,常用,算术平均数,。此外还有几何平均数、中位数和众数等。,离散性,是变量有着离开中心分散变异的性质,常用的指标是,极差、方差、标准差和变异系数,等。,如,:,1, 2, 3, 4, 5,2, 2.5, 3, 3.5, 4,集中性一致,但离散性不同,平均数,是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:,算术平均数,(,arithmetic mean,),中位数,(,median,),众数,(,mode,),几何平均数,(,geometric mean,),调和平均数,(,harmonic mean,),一、平均数:,算术平均数是描述观测资料的重要特征数,它的作用主要有以下两点:,指出一数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平,作为样本或资料的代表数与其他资料进行比较。,算术平均数,是指资料中各观测值的总和除以观测值个数所得的商,简称,平均数,或,均数,算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。,(,一,),直接法,主要用于样本含量,n,30,以下、未经分组资料平均数的计算。,设某一资料包含,n,个观测值:,x,1,、,x,2,、,、,x,n,,,则样本平均数可通过下式计算:,其中,,为总和符号; 表示从第一个观测值,x,1,累加到第,n,个观测值,x,n,。当 在意义上已明确时,可简写为,x,上式可改写为:,【,例,3.1】,某种公牛站测得,10,头成年公牛的体重分别为,500,、,520,、,535,、,560,、,585,、,600,、,480,、,510,、,505,、,490,(,kg,),求其平均数。,由于,x,=500+520+535+560+58,+600+480+510+505+49,=5285,,,n,=10,得:,即,10,头种公牛平均体重为,528.5,kg,。,(二)加权法,对于样本含量,n,30,以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:,式中:,第,i,组的组中值;,第,i,组的次数;,分组数,第,i,组的次数,f,i,是权衡第,i,组组中值,x,i,在资料中所占比重大小的数量,因此将,f,i,称为是,x,i,的,“,权,”,,加权法也由此而得名。,【,例,3.2】,将,100,头长白母猪的仔猪一月窝重(单位:,kg,)资料整理成次数分布表如下,求其加权数平均数。,表,3,1 100,头长白母猪仔猪一月窝重次数分布表,利用(,3,2,)式得:,即这,100,头长白母猪仔猪一月龄平均窝重为,45.2,kg,。,(三),平均数的基本性质,1,、样本各观测值与平均数之差的和为零,即,离均差之和等于零,。,或简写成,2,、样本各观测值与平均数之差的平方和为最小,即,离均差平方和为最小,。,(,x,i,- ),2, (,x,i,- a,),2,(常数,a,),或简写为:,对于总体而言,通常用,表示总体平均数,有限总体的平均数为:,(,3-3,),二、离散性,变量的分布具有集中性和离散性两方面特征,因而只有表示集中性的平均数是不够的,还必须计算变异数以度量其变量的离散性,(,变异性,),。,用来表示变异性的指标较多,常用的有,极差、标准差、方差和变异系数,等,其中以,标准差,和,变异系数,应用最为广,为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量,n,,而用自由度,n-,1,, 于是,我们 采 用统计量,表示资料的变异程度。,统计量,称 为,均 方,(,mean square,缩写为,MS,),,又称,样本方差,,记为,S,2,,即,S,2,=,相应的总体参数叫,总体方差,,记为,2,。对于有限总体而言,,2,的计算公式为:,2,),2,/,N,由于 样本方差 带有原观测单位的 平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这 时 应 将平方单位还原,即应求出样本方差的平方根。,统计学上把样本方差,S,2,的平方根叫做,样 本 标准 差,,记为,S,,即:,由于,所以(,3-11,)式可改写为:,(,3-12,),相应的总体参数叫,总体标准差,,记为,。对于有限总体而言,,的计算公式为:,=,(,3-13,),在统计学中,常用样本标准差,S,估计总体标准差,。,三、标准差的计算方法,(一)直接法,对于未分组或小样本资料,可直接利用(,3,11,)或(,3-12,)式来计算标准差。,【,例,3.9】,计算,10,只辽宁绒山羊产绒量:,450,,,450,,,500,,,500,,,500,,,550,,,550,,,550,,,600,,,600,,,650,(,g,)的标准差。,此例,n,=10,,经计算得:,x,=5400,,,x,2,=2955000,,代入(,3,12,)式得:,(g),即,10,只辽宁绒山羊产绒量的 标准差 为,65.828g,。,(二)加权法,对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:,(,3,14,),式中,,f,为各组次数;,x,为各组的组中值;,f,=,n,为总次数。,【,例,3.10】,利用某纯系蛋鸡,200,枚蛋重资料的次数分布表(见表,3-4,)计算标准差。,将表,3-4,中的,f,、,fx,、,代入(,3,14,)式得:,(,g,),即某 纯 系 蛋 鸡,200,枚 蛋 重的标准差为,3.5524,g,。,表,3,4,某纯系蛋鸡,200,枚蛋重资料次数分布,及标准差计算表,四、标准差的特性,(,一),标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。,(二),在计算标准差时,在各观测值加上或减去一个常数,其数值不变。,(三),当每个观测值乘以或除以一个常数,a,,则所得的标准差是原来标准差的,a,倍或,1,/a,倍。,(四),在资料服从正态分布的条件下,资料中约有,68.26%,的观测值在平均数左右一倍标准差(,S,)范围内;,约有,95.43%,的观测值在平均数左右两倍标准差(,2S,)范围内;,约有,99.73%,的观测值在平均数左右三倍标准差(,3S,)范围内。,也就是说全距近似地等于,6,倍标准差,可用(全距,/6,)来粗略估计标准差。,五、标准误差,标准误差即平均数的标准差,可表示为,表示样本平均数的离散程度,在结果描述中常写成,六、 变异系数,变异系数是衡量资料中各观测值变异 程度的另一个统计量 ,比较不同样本相对变异程度的大小。,标准差与平均数的比值称为,变异系数,,记为,C,V,。,变异系数可以消除单位和 (或)平均数不同对两个或多个资料变异程度比较的影响。,变异系数的计算公式为:,(,3,15,),【,例,3.11】,已知某良种猪场长白成年母猪平均体重为,190,kg,,标准差为,10.5,kg,,而大约克成年母猪平均体重为,196,kg,,标准差为,8.5,kg,,试问两个品种的成年母猪,那一个体重变异程度大。,由于,长白成年母猪体重的变异系数:,大约克成年母猪体重的变异系数:,所以,长白成年母猪体重的变异程度大于大约克成年母猪。,注意:,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。,总结,平均数,的计算方法,数据离散性的相互关系及计算公式:,方差、标准差、标准误差、变异系数,
展开阅读全文