二资料分类课件

上传人:29 文档编号:241755146 上传时间:2024-07-21 格式:PPT 页数:70 大小:756.60KB
返回 下载 相关 举报
二资料分类课件_第1页
第1页 / 共70页
二资料分类课件_第2页
第2页 / 共70页
二资料分类课件_第3页
第3页 / 共70页
点击查看更多>>
资源描述
第二章 资料的整理第一节 资料的分类第二章 资料的整理第一节 资料的分类1一、资料的分类一、资料的分类 在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可分为两大类。(一)连续性资料:连续性资料(连续性资料(continuous data),是指在一定范围),是指在一定范围内可取任何实数值的数据资料。它们通常是用度、量、衡内可取任何实数值的数据资料。它们通常是用度、量、衡等计量工具直接测量后得到的,也称为计量资料。等计量工具直接测量后得到的,也称为计量资料。其数据是用长度、容积、重量等来表示,如体高,产奶量、体重等,这类数据资料的特点是各个观测值不限于整数,两个相邻的整数间可以有带小数的任何数值出现,其小数的位数随测量仪器或工具的精确性而变化。一、资料的分类 在调查或试验中,由观察、测量2(二)、离散性资料(二)、离散性资料 离散性资料(离散性资料(discrete data)是指在一定范围内只取)是指在一定范围内只取有限种可能值的数据资料。有限种可能值的数据资料。间断性资料又可进一步分为计数资料和分类资料两种。1、计数资料(计数资料(counting data),是指用计数方式得到的数),是指用计数方式得到的数据资料。据资料。在这类资料中,以自然数1为基本计数单位,各观察值都以整数表示,相邻两整数间没有小数存在。如产仔数、产蛋数,发病数、死亡数、呼吸次数等。由于各观察值以整数表示,没有小数,是不连续的。因此,该类资料也称为不连续性变异资料或间断性变异资料。(二)、离散性资料32、分类资料(分类资料(categorical data),是指可自然或),是指可自然或人为地分为两个或多个不同类别的资料。人为地分为两个或多个不同类别的资料。有些能观察到而不能直接测量的性状资料。如:性别、毛色、生死等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察值作数量化处理再统计其次数分析。例如:性别 二类 (1)(0)毛色 三类 黑(1)白(2)花(3)血型 四类 A(1)B(2)O(3)AB(4)绵羊毛油汗色泽 五类(评分)深黄(1)、黄(2)、浅黄(3)、乳白(4)、白(5)2、分类资料(categorical data),是指可自然4第二节 资料的整理一、资料的检查与核对一、资料的检查与核对 检查和核对原始资料的目的在于确保原始料的完整性和正确性。所谓完整性是指原始资料无遗缺或重复所谓完整性是指原始资料无遗缺或重复。所谓正确性是指原始资料的测量和记载无差错或未进所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。第二节 资料的整理一、资料的检查与核对5二、资料的整理方法二、资料的整理方法 当观测值不多(n30)时,不必分组,直接进行统计分析。当观测值较多(n30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。不同类型的资料,其整理的方法略有不同。二、资料的整理方法6(一)离散性资料的整理(一)离散性资料的整理 对于观察值较少,变异范围较小,以每一观察值(或自然值)为一组,作次数分布表。对于观察值较多,变异范围较大的离散性资料,可扩大为以几个相邻观察值(或自然值)为一组,适当减少组数,这样资料的规律性较明显,对资料进一步计算分析也比较方便。例1:以50枚受精种蛋孵化出雏鸡的天数为例,说明计数料的整理。(一)离散性资料的整理7表表1 50枚受精种蛋孵化出雏鸡的天数枚受精种蛋孵化出雏鸡的天数 小鸡出壳天数在1924天范围内变动,有6个不同的观察值。用各个不同观察值进行分组,共分为6组,可得表2形式的次数分布表。2120202123222222212220232223221922232422192221212122222422212122222322222122222322232222222323222122表1 50枚受精种蛋孵化出雏鸡的天数 21208表表2 50枚受精种蛋出雏天数的次数分布表枚受精种蛋出雏天数的次数分布表表2 50枚受精种蛋出雏天数的次数分布表9 例:对100例断奶仔猪附红细胞体病例的血液涂片显微镜下病变红细胞数资料进行整理分组。例:对100例断奶仔猪附红细胞体病例的血液涂片显微镜下病10(二)、连续性资料的整理(二)、连续性资料的整理 对于连续性资料的分组整理,常采用组距式分组法。在分组前需要根据数据的多少确定组数、组距、各组的上下限及组中值,然后将全部观测值按其数值大小归组,划线计数,制成次数分布表。例:将126头基础母羊的体重资料(见表3)整理成次数分布表。(二)、连续性资料的整理 对于连续性资料的分组整11表表3 126头基础母羊的体重资料头基础母羊的体重资料 单位:单位:kg53.050.051.057.056.051.048.046.062.051.061.056.062.058.046.548.046.050.054.556.040.053.051.057.054.059.052.047.057.059.054.050.052.054.062.550.050.053.051.054.056.050.052.050.052.043.053.048.050.060.058.052.064.050.047.037.052.046.045.042.053.058.047.050.050.045.055.062.051.050.043.053.042.056.054.545.056.054.065.061.047.052.049.049.051.045.052.054.048.057.045.053.054.057.054.054.045.044.052.050.052.052.055.050.054.043.057.056.054.049.055.050.048.046.056.045.045.051.046.049.048.549.055.052.058.054.5表3 126头基础母羊的体重资料53.050121、求全距:全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即:R=最大值最小值。本例:R=最大值最小值=65.037.0=28.0(kg)2确定组数:组数的多少应根据样本含量、资料的变异范围大小及要求精确度的高低而定。一般组数的确定可参考表4。1、求全距:全距是资料中最大值与最小值之差,又称为极差(13 表表4 样本含量与组数样本含量与组数 本例中,本例中,n n126126,根据表,根据表4 4,初步确定组数为,初步确定组数为1010组。组。样本含量组数样本含量组数30-606-8200-50012-1760-1007-10500以上17-30100-2009-12 143确定组距:每组中最大值与最小值之差称为组距(class interval),用表示。分组时要求各组的组距相等。组距的大小由全距R与组数k确定,计算公式为:组距(i)全距R组数k 本例 i28.0103.0 为方便分组和便于计算,组距常采用整数或偶数整数或偶数。4确定组限及组中值:各组的最大值和最小值称为组限(class limit),最小值称为下限,最大值称为上限。分组时要使第一组的下限小于资料的最小值,最后一组的上限大于资料的最大值。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:组中值(组下限组上限)/2组下限1/2组距组上限1/2组距3确定组距:每组中最大值与最小值之差称为组距(clas15 由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。由于相邻两组的组中值间的距离等于组距,16 本例中,最小值为37.0,第一组的组中值取37.5,所以第一组的下限为:36.0,上限为:39.0;由于是等组距分组,其余各组可由此递加类推,直到某一组的上限大于资料中的最大值为止。为了使恰好等于前一组上限和后一组下限的数据能够确切归组,约定将其归入后一组。通常将上限略去不写,可得分组如下:36.039.0 36.039.042.0 39.0 60.063.0 60.063.066.0 63.0 本例中,最小值为37.0,第一组的组中175、归组划线计数,作次数分布表 将资料中的每一观察值逐一归组,划线计数,制成次数分布表。表表5 126头基础母羊的体重的次数分布表头基础母羊的体重的次数分布表5、归组划线计数,作次数分布表18第三节第三节 常用统计表与统计图常用统计表与统计图 统计表是用表格形式来表示数量关系;统计图是用几何图形来表示数量关系。用统计表与统计图,可以把研究对象的特征,内部构成,相互关系等简明、形象地表达出来,便于比较分析。一、统计表(一)统计表的结构和要求 统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:表号表号 标题标题第三节 常用统计表与统计图 统计表是用表格19 编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:1标题 标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。2标目 标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标的内容,并注明计算单位,如百分数(%)、千克(kg)、厘米(cm)等。3数字 一律用阿拉伯数字,数字小数点要对齐,小数的位数要一致,无数字的用“”表示。4线条 表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不使用斜线。编制统计表的总原则:结构简单,层次分明,20(二)统计表的种类(二)统计表的种类 统计表可根据纵、横标目是否分组分为简单表和复合表统计表可根据纵、横标目是否分组分为简单表和复合表两类。两类。1简单表简单表 由一组横标目和一组纵标目组成,纵、横标目由一组横标目和一组纵标目组成,纵、横标目都未分组。此类表适于简单资料的统计,如下表:都未分组。此类表适于简单资料的统计,如下表:(二)统计表的种类21 2、复合表、复合表 由两组或两组以上的横标目与一组纵标目结合由两组或两组以上的横标目与一组纵标目结合而成而成 ,或由一组横标目与两组或两组以上的纵标目结合或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类而成,或由两组或两组以上的横、纵标目结合而成。此类表适用于复杂资料的统计,如下表。表适用于复杂资料的统计,如下表。2、复合表 由两组或两组以上的横标目与一组纵标目结22二、统计图二、统计图 常用的统计图有长条图(bar chart)、饼图(pie chart)、直方图(histogram)和折线图(broken-line chart)等,在统计软件中可以作出各种需要的图形。图形的选择取决于研究资料的性质,一般情况下,连续性资料采用直方图和折线图,离散性资料常用长条图、线图或饼图。(一)统计图绘制的基本要求 在绘制统计图时,应注意以下几点:(1)标题简单扼要,列于图的下方;(2)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图形宽和高比例约为5:4或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图例说明。二、统计图 常用的统计图有长条图(bar23(二)常用统计图及其绘制方法(二)常用统计图及其绘制方法 1长条图 它用等宽长条的长短或高低表示按某一研究指标划分属性种类或等级的次数或频率分布。如表示奶牛几种疾病的发病率;几种家畜对某一寄生虫感染的情况。如果只涉及一项指标,则采用单式长条图;如果涉及两个或两个以上的指标,则采用复式长条图。在绘制长条图时,应注意以下几点:(1)纵轴尺度从“0”开始,间隔相等,标明所表示指标的尺度及单位;(2)横轴是长条图的共同基线,应标明各长条的内容。长条的宽度要相等,间隔相同;(3)在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔。(二)常用统计图及其绘制方法24单式长条图单式长条图25复式长条图复式长条图262饼图以面积的大小分别表示各部分的比例。绘制饼图时,应注意以下3点:(1)图中每3.6圆心角所对应的扇形面积为1。(2)图中各部分按资料顺序或大小顺序,以时钟指针9时或12时为起点,顺时针方向排列。(3)图中各部分用线条分开,注明简要文字、数字或百分比。2饼图273直方图(矩形图)对于连续性资料,可根据次数分布表作出直方图以表示资料的分布情况。其作法是:以组限为横坐标,次数为纵坐标,在各组上作出其高等于次数的矩形,即得次数分布直方图。以组限为横坐标,频率/组距为纵坐标,在各组上作出其面积等于频率的矩形。即得频率分布直方图。3直方图(矩形图)28二资料分类课件294折线图 对于连续性资料,还可根据次数分布表作出次数分布曲线。其作法是:以各组组中值为横坐标,各组次数为纵坐标,在坐标系中描点,用线段依次连接各点,即可得到次数分布折线图。4折线图 对于连续性资料,还可根据次数分布表作出次数分布30第四节 平均数、标准差与变异系数 原始数据经过整理分组制成次数分布表或分布图,这是统计分析的第一步。为了反映数据资料的集中趋势和离散程度,必须求出数据资料这两方面的特征数。一、平均数 平均数(mean)是统计学中最常用的统计量,它说明观测值的平均水平或集中趋势(即变量分布的中心位置)。常用的平均数主要有算术平均数、几何平均数、中位数、众数和调和平均数。现分别介绍如下:第四节 平均数、标准差与变异系数 原始数据31(一)、算术平均数1:定义:指资料中各观测值的总和除以观测值个数所得的商,称为算术平均数,简称平均数或均数,记为 。(读作x-bar)反映一组呈对称分布的变量值在数量上的平均水平。2:计算方法:直接法和加权法 直接法:主要用于的小样本,未经分组的资料。设某一批资料有n个观测值:,则样本平均数,可通过下式计算:(一)、算术平均数1:定义:指资料中各观测值的总和除以观测值32 其中,为总和符号;表示从第一个观测值x1累加到第n个观测值xn。当 在意义上已明确时,可简写为x。例:试计算1,3,7,9的均数?加权法:对于样本含量 且已分组的资料,或者各变数具有不同的比重(次数),则用加权法计算平均数,公式为:其中,为总和符号;表示从第一个观33 式中:为第 组的组中值(也可以是每一组的组平均值),为第 组的次数,为组数。例:将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表(表6)如下,求其加权数平均数。即这100头长白母猪仔猪一月龄平均窝重为45.2kg。在很多情况下,同一批资料的算术平均值和加权平均值不一定相等。34表表表表6 1006 100头长白母猪仔猪一月窝重次数分布表头长白母猪仔猪一月窝重次数分布表头长白母猪仔猪一月窝重次数分布表头长白母猪仔猪一月窝重次数分布表组别组中值(x)次数(f)fx10-1534520-25615030-352691040-4530135050-5524132060-65852070-753225合计1004520表6 100头长白母猪仔猪一月窝重次数分布表组别35 计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。例:某牛群有黑白花奶牛 1500头,其平均体重为750 kg,而另一牛群有黑白花奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即:计算若干个来自同一总体的样本平均数的平363:算术平均数的基本性质:(1):离均差之和等于零 ,即:样本各观测值与平均数之差的和为零。(2):离均差平方和为最小,即样本中各变数与其平均数之差平方的总和较各个变数与任一数值之差的平方和为小。需要指出的是,加权平均值不具上述两条性质。需要指出的是,加权平均值不具上述两条性质。3:算术平均数的基本性质:37证明:证明:38证明:证明:39 对于总体而言,通常用表示总体平均数,有限总体的平均数为:式中,N表示总体所包含的个体数。统计学中常用样本平均数()作为总体平均数()的估计量,并已证明样本平均数是总体平均数的无偏估计量。平均数适用条件:资料呈正态或近似正态平均数适用条件:资料呈正态或近似正态 对于总体而言,通常用表示总体平40(二)、中位数1、定义:将资料内所有观测值从小到大依次排序,位于中间的那个观测值,称为中位数,记为 ,简称中数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数,常用中位数反映其集中趋势。2、计算方法:(1)、未分组资料中位数的计算方法:当观测值个数n为奇数时,位置的观测值,即 为中位数:当观测值个数n为偶数时,和 位置的两个观测值之和的 为中位数,即:。(二)、中位数41例:某兔场7只家兔从发病到死亡的天数分别为:4,8,12,15,22,31,35,求其中位数。(天)再例:某兽医院治疗8头病猪,治愈天数分别为:3,5,6,9,12,17,20,23,求其中位数。,则:(天)例:某兔场7只家兔从发病到死亡的天数分别为:4,8,12,142(2)、已分组资料中位数的计算方法:若资料已分组,编制成次数分布表,则可采用次数分布表来计算中位数,其计算公式为:式中:L为中位数所在组的下限;为组距;为中位数所在组的次数;为总次数;为小于中数所在组的累加次数;(2)、已分组资料中位数的计算方法:43 例:某奶牛场68头健康母牛从分娩到第一次发情间隔时间 整理成次数分布表如表 8 所示,求中位数。表表8 68头母牛从分娩到第一次发情间隔时间次数分布表头母牛从分娩到第一次发情间隔时间次数分布表间隔时间(d)头数(f)累加头数12-1127-2342-131657-203672-165287-1264102-266117-268 例:某奶牛场68头健康母牛从分娩到第一次发情间隔时间44 由表8可见:i=15,n=68,因而中位数只能在累加头数为36所对应的“57”这一组,于是可确定L=57,f=20,c=16,代入公式(35)得:(天天)即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5天。由表8可见:i=15,n=68,因而中位数只能在累加45(三)、几何平均数1、定义:n个观测值相乘之积开n次方所得的方根,称为几何平均数,记为G。凡呈倍数、几何级数关系或不对称分布的资料,若采用算术平均数表示其平均水平时因受到特大、特小值影响较大,而用几何均数则能如实地反映其水平。例如:畜禽、水产的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等。2、:计算公式:为了计算方便,实际计算常取对数的方法:(三)、几何平均数46 例某波尔山羊群19972000年各年度的存栏数见表9,试求其年平均增长率。表表9 某波尔山羊群各年度存栏数与增长率某波尔山羊群各年度存栏数与增长率年度存栏数(只)增长率(x)Lgx199714019982000.429-0.36819992800.400-0.39820003500.250-0.602 例某波尔山羊群19972000年各年度的存栏数见表947年平均增长率:即年平均增长率为0.3501或35.01%。若是分组资料,则采用加权法:年平均增长率:48例:对某注射了鸡新城疫疫苗的鸡群测定血球凝集抑制滴度,其抗体滴度分布情况如下.求这群鸡的平均抗体滴度.该鸡群的平均抗体滴度为1:59.31ND-HI滴度只数(f)XlgXflgX1:108101.00008.00001:2038201.301049.43911:4044401.602170.49061:8047801.903189.44521:160291602.204163.91951:320153202.505237.57731:64026402.80625.6124合计183324.4841例:对某注射了鸡新城疫疫苗的鸡群测定血球凝集抑制滴度,其抗体49(四)、众数 资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为 。离散性数据,众数是出现频率最多的数,连续性数据,众数是频率分布表频率最高一组的组中值。例如:猪发病天数:1,3,3,3,10,81,360,则在3天的时候开始抢救,如果用 表示,则抢救过时。注:1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的众数;3、定性数据可以存在众数;(四)、众数50(五)、调和平均数 资料中各观测值倒数的算术平均数的倒数,称为调和平均数,记为H,即:调和平均数主要用于速度类或数据中有个别极端大值的数据资料集中趋势的度量.(五)、调和平均数51例:某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头;3世代190头,4世代210头,试求其平均规模。利用公式求平均规模:即保种群平均规模为208.33头。例:某保种牛群不同世代牛群保种的规模分别为:0世代200头,52对于同一资料:正态分布时:均数中位数众数正偏态分布时:均数中位数众数负偏态分布时:均数中位数众数上述五种平均数,最常用的是算术平均数。对于同一资料:53二、标准差(一)、标准差的意义 例如:甲、乙两组羊毛长度,甲:1,2,3,4,5。乙:1,3,3,3,5。甲和乙的平均数,但可以看出乙匀度高。再例如下图:二、标准差54 用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数对样本的代表性弱。因而仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量,只有将变异性的度量和集中性的度量两者相结合在一起,才能全面完整地反映一个样本资料的特征。用平均数作为样本的代表,其代表性的强弱55 全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。为 了 准 确 地 表示样本内各个观测值的变异程度,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差,称为离均差。虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和 为零,即 ,因 而 不 能 用离均差之和 来 表 示 资料中所有观测值的总偏离程度。全距(极差)是表示资料中各观测值变异程度大小56 为了解决离均差有正、有负,离均差之和为零的问 题 ,可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即|/n。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。先将各 个离 均差平方,即 ,再求 离均差平方和,即 ,简称平方和,记为SS;由 于 离差平方和 常 随 样 本 大 小 而 改 变,为 了 消 除 样 本大小 的 影 响,用平方和 除 以 样 本 大 小,即 ,求出离均差平方和的平均数;为了解决离均差有正、有负,离均差57 为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度 n-1,于是,我们 采 用统计量 表示资料的变异程度。统计量 称 为 均 方(mean square缩写为MS),又称样本方差,记为S2,即:为了使所得的统计量是相应总体参数的无 58 相应的总体参数叫 总体方差,记为2。对于有限总体而言,2的计算公式为:方差是度量资料变异的常用指标,但由于平方过程中变数的单位也被平方,与原先单位不相适应,因此需要开方还原,于是就得到标准差。标准差:是方差的平方根,样本的标准差为:相应的总体参数叫 总体方差,记为59 二资料分类课件60 相应的总体参数叫总体标准差,记为。对于有限总体而言,的计算公式为:在统计学中,常用样本标准差S估计总体标准差。相应的总体参数叫总体标准差,记为。对于有61 补充:自由度 n-1 ,粗浅地说是自由变数的个数。例如:在计算n个变数的样本标准差时,每个 与 比较,虽然有n个离均差,但只有n-1个可以自由变动,最后一个离均差受到 这一条件的约束,不能自由。例如:4个变数的样本,已知3个离均差为:2,3,-1,则第4个离均差必为-4,才能使 ,由于能自由变动的离均差是3个,故自由度为3,即,当计算其他统计量时,若受到k个条件约束,则自由度为n-k。补充:自由度 n-1 62(二)、标准差的计算方法1、直接法:对于未分组或小样本资料,直接利用定义公式计算。2、加权法:对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:式中:为各组次数;为各组的组中值;为总次数。(二)、标准差的计算方法63 例:计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差。此例n=10,经计算得:x=5400,x2=2955000,代入公式得:即10只辽宁绒山羊产绒量的 标准差 为65.828g。例:计算10只辽宁绒山羊产绒量:64 例:利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表10)计算标准差。将表10中的f、fx、代入公式得:即某 纯 系 蛋 鸡200枚 蛋 重的标准差为3.5524g。例:利用某纯系蛋鸡200枚蛋重资料的次数65表表10 某纯系蛋鸡某纯系蛋鸡200枚蛋重资料次数分布及标准差计算表枚蛋重资料次数分布及标准差计算表 组别组中值(x)次数(f)fxfx244.15-45.03135.06075.045.85-46.76280.213085.3447.55-48.416774.437480.9649.25-50.1221102.255220.2250.95-51.8301554.080497.2052.65-53.5442354.0125939.0054.35-55.2281545.085317.1256.05-56.9301707.097128.3057.75-58.612703.241207.5259.45-60.35301.518180.4561.15-62.04248.015376.00合计20010705.11575507.11表10 某纯系蛋鸡200枚蛋重资料次数分布及标准差计算表组别66(三)、标准差的特性 1:标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。2:在计算标准差时,在各观测值加上或减去一个常数,其数值不变。3:当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。4、在资料服从正态分布的条件下,资料中有68.26%的观测值在平均数1倍标准差 范围内,约有95.45%的观测值在平均数左右2倍标准差 范围内;约有99.73%的观测值在平均数左右3倍标准差 范围内,也就是说,全距进似地等于6倍标准差,可用(全距/6)来粗略估计标准差。(三)、标准差的特性 67三、变异系数 变异系数:标准差与平均数的比值称为变异系数,记为 ,即:变异系数是衡量资料中各观测值变异程度的另一个统计量,当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果度量单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对数)来比较,这就是变异系数,变异系数是消除了资料的单位不同和平均数影响后的纯数。可以用来比较不同性状资料的变异程度。三、变异系数68 例:已知某良种猪场长白成年母猪平均体重为 190kg,标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。由于,长白成年母猪体重的变异系数:大约克成年母猪体重的变异系数:所以,长白成年母猪体重的变异程度大于大约克成年母猪。例:已知某良种猪场长白成年母猪平均体重69变异系数的特点:1变异系数也是表示样本变异程度的一个量值,它与标准差不同,标准差是一个绝对值,有单位,而变异系数是一个相对数,没有单位,故可用于比较不同单位资料的变异程度。2变异系数不受平均数大小的影响,故变异系数可用来比较不同平均数资料的变异程度。3变异系数的大小,同时受到平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,应将平均数和标准差一并列出。变异系数的特点:70
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!