第章数据的组织与表达ppt课件

资源描述

第2章数据的组织与表达Arrangement and Presentation of DataSection 2.1Data and Data Type数据与数据类型一、原始数据的组织资料以电子表格(spreadsheet)方式记录。包括个体(Individual)：一笔数据所描画的对象(object)。电子表格中输入在一行。及变量(Variable)：描画任何一个个体的特征，一个变量对不同的个体取不同的数值(value)。电子表格中输入在一列。(一一)数量性状资料数量性状资料数量性状数量性状(quantitative trait)的度量有计数和量测两种的度量有计数和量测两种方式，其所得变数不同。方式，其所得变数不同。1.不延续性或延续性变数不延续性或延续性变数(discontinuous or discrete variable)指用计数方法获得的数据。指用计数方法获得的数据。2.延续性变数延续性变数(continuous variable)指称量、度量指称量、度量或丈量方法所得到的数据，其各个察看值并不限于整数，在或丈量方法所得到的数据，其各个察看值并不限于整数，在两个数值之间可以有微量数值差别的第三个数值存在。两个数值之间可以有微量数值差别的第三个数值存在。二、实验资料的性质与分类二、实验资料的性质与分类(二二)质量性状资料质量性状资料质量性状质量性状(qualitative trait)指能察看而不能量测的指能察看而不能量测的状即属性性状，如花药、子粒、颖壳等器官的颜色、芒状即属性性状，如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料，的有无、绒毛的有无等。要从这类性状获得数量资料，可采用以下两种方法：可采用以下两种方法：统计次数法统计次数法于一定总体或样本内，统计其具有某个性状于一定总体或样本内，统计其具有某个性状的个体数目及具有不同性状的个体数目，按类别计其次的个体数目及具有不同性状的个体数目，按类别计其次数或相对次数。数或相对次数。2.给分法给分法给予每类性状以相对数量的方法给予每类性状以相对数量的方法二、实验资料的性质与分类二、实验资料的性质与分类Section 2.2次数分布表表1 100个麦穗的每穗小穗数18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717151716181918181919201716191817182019161819171615161817181717161917一、一、延续性变数资料的整理延续性变数资料的整理每穗小穗数每穗小穗数(y)次数次数(f)1561615173218251917205总次数总次数(n)100表表2 100个麦穗每穗小个麦穗每穗小穗数的次数分布表穗数的次数分布表从表从表2中看到，一堆杂乱的原中看到，一堆杂乱的原始资料表，经初步整理后，就可了始资料表，经初步整理后，就可了解资料的大致情况，另外，经过整解资料的大致情况，另外，经过整理的资料也便于进一步的分析。理的资料也便于进一步的分析。每穗小穗数在每穗小穗数在1520的范围内变动，的范围内变动，把一切察看值按每穗小穗数多少加把一切察看值按每穗小穗数多少加以归类，共分为以归类，共分为6组，组与组间相差组，组与组间相差为为1小穗，称为组距。这样可得表小穗，称为组距。这样可得表2方式的次数分布表。方式的次数分布表。一、一、延续性变数资料的整理延续性变数资料的整理二、二、延续性变数资料的整理延续性变数资料的整理177215197 97123159245119119131149152167104161214125175219118192176175 95136199116165214 9515883137 80138151187126196134206137 98 97129143179174159165136108101141148168163176102194145173 75130149150161155111158131189 91142140154152163123205149155131209183 97119181149187131215111186118150155197116254239160172179151198124179135184168169173181188211197175122151171166175143190213192231163159158159177147194227141169124159表表3 140行水稻产量行水稻产量(单位：克单位：克)详细步骤：详细步骤：1.数据排序数据排序(sort)首先对数据按从小到大陈列首先对数据按从小到大陈列(升升序序)或从大到小陈列或从大到小陈列(降序降序)。2.求极差求极差(range)一切数据中的最大察看值和最一切数据中的最大察看值和最小察看值的差数，称为极差，亦即整个样本的变异幅度。小察看值的差数，称为极差，亦即整个样本的变异幅度。从表从表3中查到最大察看值为中查到最大察看值为254g，最小察看值为，最小察看值为75g，极差为极差为25475=179g。二、二、延续性变数资料的整理延续性变数资料的整理 3.确定组数和组距确定组数和组距(class interval)根据极差分为根据极差分为假设干组，每组的间隔相等，称为组距。假设干组，每组的间隔相等，称为组距。在确定组数和在确定组数和组距时应思索：组距时应思索：(1)察看值个数的多少；察看值个数的多少；(2)极差的大小；极差的大小；(3)便于计算；便于计算；(4)能反映出资料的真实容颜等方面。能反映出资料的真实容颜等方面。样本大小样本大小(即样本内包含察看值的个数的多少即样本内包含察看值的个数的多少)与组与组数多少的关系可参照表数多少的关系可参照表4来确定。来确定。二、二、延续性变数资料的整理延续性变数资料的整理表4样本容量与组数多少的关系样本内观察值的个数分组时的组数50 510100 81620010203001224500153010002040 组数确定后，还须组数确定后，还须确定组距。组距确定组距。组距=极差极差/组数。以表组数。以表3中中140行行水稻产量为例，样本内水稻产量为例，样本内察看值的个数为察看值的个数为140，查表查表4可分为可分为816组，组，假定分为假定分为12组，组，那么组距为那么组距为179/12=14.9g，为分组方便起见，可以，为分组方便起见，可以15g作为组距。作为组距。二、二、延续性变数资料的整理延续性变数资料的整理 4.选定组限选定组限(class limit)和组中点值和组中点值(组值，组值，class value)以表以表3中中140行水稻产量为例，选定第一组的中点值为行水稻产量为例，选定第一组的中点值为75g，与最小察看值，与最小察看值75g相等；那么第二组的中点值为相等；那么第二组的中点值为75+15=90g，余类推。，余类推。各组的中点值选定后，就可以求得各组组限。每组有各组的中点值选定后，就可以求得各组组限。每组有两个组限，数值小的称为下限两个组限，数值小的称为下限(lower limit)，数值大的，数值大的称为上限称为上限(upper limit)。上述资料中，第一组的下限为。上述资料中，第一组的下限为该组中点值减去该组中点值减去1/2组距，即组距，即75(15/2)=67.5g，上限为，上限为中点值加中点值加1/2组距，即组距，即75+(15/2)=82.5g。故第一组的组。故第一组的组限为限为67.582.5g。按照此法计算其他各组的组限。按照此法计算其他各组的组限。二、二、延续性变数资料的整理延续性变数资料的整理 5.把原始资料的各个察看值按分组数列的各组组限归组可按原始资料中各察看值的次序，逐个把数值归于各组。待全部察看值归组后，即可求得各组的次数，制成一个次数分布表。例如表3中第一个察看值177应归于表5中第8组，组限为172.5187.5；第二个察看值149应归于第6组，组限为142.5157.5；。依次把140个察看值都进展归组，即可制成140行水稻产量的次数分布表(表5)。二、二、延续性变数资料的整理延续性变数资料的整理表5 140行水稻的次数分布组组限限中点值中点值(y)次数次数(f)67.5 82.5752 82.5 97.5907 97.5112.51057112.5127.512013127.5142.513517142.5157.515020157.5172.516525172.5187.518021187.5202.519513202.5217.52109217.5232.52253232.5247.52402247.5262.52551合计合计(n)140 注：前面提到分为注：前面提到分为12组，组，但由于第一组的中点值接近但由于第一组的中点值接近于最小察看值，故第一组的于最小察看值，故第一组的下限小于最小察看值，实践下限小于最小察看值，实践上差不多添加了上差不多添加了1/2组；这样组；这样也使最后一组的中点值接近也使最后一组的中点值接近于最大值，又添加了于最大值，又添加了1/2组，组，故实践的组数比原来确定的故实践的组数比原来确定的要多一个组，为要多一个组，为13组。组。二、二、延续性变数资料的整理延续性变数资料的整理三、三、属性变数资料的整理属性变数资料的整理属性变数的资料，也可以用类属性变数的资料，也可以用类似次数分布的方法来整理。似次数分布的方法来整理。在整理前，把资料按各种质量性状在整理前，把资料按各种质量性状进展分类，分类数等于组数，进展分类，分类数等于组数，然后根据各个体在质量属性上的详然后根据各个体在质量属性上的详细表现，分别归入相应的组中，细表现，分别归入相应的组中，即可得到属性分布的规律性认识。即可得到属性分布的规律性认识。例如，某水稻杂种第二代植株例如，某水稻杂种第二代植株米粒性状的分别情况，归于表米粒性状的分别情况，归于表6。表6 水稻杂种二代植株米粒性状的分别情况属性分组属性分组(y)次数次数(f)红米非糯红米非糯96红米糯稻红米糯稻37白米非糯白米非糯31白米糯稻白米糯稻15合计合计(n)179Section 2.3次数分布图一、方柱形图方柱形图方柱形图(histogram)(histogram)适用于表示延续性变数的次数分布。适用于表示延续性变数的次数分布。607590105 120 135 150 165 180 195 210 225 240 255 270510152025y（产量，克/行）现以表现以表3的的140行水稻行水稻产量的次数分布表为例加产量的次数分布表为例加以阐明。即成方柱形次数以阐明。即成方柱形次数分布图分布图1。图图1 140行水稻产量次数分布方柱形图行水稻产量次数分布方柱形图二、多边形图二、多边形图多边形图多边形图(polygon)也是表示延续性变数资料的一种也是表示延续性变数资料的一种普通的方法，且在同一图上可比较两组以上的资料。普通的方法，且在同一图上可比较两组以上的资料。607590 105 120 135 150 165 180 195 210 225 240 255 270051015202530y（产量，克/行）仍以仍以140行水稻产量次行水稻产量次数分布为例，所成图形即数分布为例，所成图形即为次数多边形图为次数多边形图(图图2)。图图2 140行水稻产量次数分布多边形图行水稻产量次数分布多边形图三、三、条形图条形图条形图条形图(bar)适用于延续性变数和属性变数资料，用以适用于延续性变数和属性变数资料，用以表示这些变数的次数分布情况。普通其横轴标出延续的中表示这些变数的次数分布情况。普通其横轴标出延续的中点值或分类性状，纵轴标出点值或分类性状，纵轴标出次数。次数。020406080100120红米非糯红米糯稻白米非糯白米糯稻f 现以表现以表6水稻杂种第二代水稻杂种第二代米粒性状的分别情况为例，米粒性状的分别情况为例，可画成水稻杂种第二代植株可画成水稻杂种第二代植株4种米粒性状分别情况条形图种米粒性状分别情况条形图(图图3)。图图3 水稻水稻F2代米粒性状分别条形图代米粒性状分别条形图四、饼图饼图饼图(pie)适用于延续性变数和属性变数资料，用以表适用于延续性变数和属性变数资料，用以表示这些变数中各种属性或各种延续性数据察看值在总察看个示这些变数中各种属性或各种延续性数据察看值在总察看个数中的百分比。数中的百分比。如图如图4中白米糯稻在中白米糯稻在F2群体中占群体中占8%，白米非，白米非糯、红米糯稻和红米非糯糯、红米糯稻和红米非糯分别占分别占17%、21%和和54%。红米非糯54%红米糯稻21%白米非糯17%白米糯稻8%图4 水稻F2代米粒性状分离的饼图Section 2.4平均数一、平均数的意义和种类一、平均数的意义和种类平均数的意义平均数的意义:平均数平均数(average)是数据的代表值，表示资料是数据的代表值，表示资料中察看值的中心位置，并且可作为资料的代表而与中察看值的中心位置，并且可作为资料的代表而与另一组资料相比较，借以明确二者之间相差的情况。另一组资料相比较，借以明确二者之间相差的情况。平均数的种类平均数的种类:(1)算术平均数算术平均数一个数量资料中各个察看值的总和一个数量资料中各个察看值的总和除以察看值个数所得的商数，称为算术平均数除以察看值个数所得的商数，称为算术平均数(arithmetic mean)，记作，记作。因其运用广泛，常简称平。因其运用广泛，常简称平均数或均数均数或均数(mean)。均数的大小决议于样本的各察看值。均数的大小决议于样本的各察看值。(2)中数中数将资料内一切察看值从大到小排序，居中间将资料内一切察看值从大到小排序，居中间位置的察看值称为中数位置的察看值称为中数(median)，计作，计作Md。如察看值。如察看值个数为偶数，那么以中间二个察看值的算术平均数为中数。个数为偶数，那么以中间二个察看值的算术平均数为中数。y一、平均数的意义和种类一、平均数的意义和种类 (3)众数众数资料中最常见的一数，或次数最多一组的中资料中最常见的一数，或次数最多一组的中点值，称为众数点值，称为众数(mode)，计作，计作MO。如棉花纤维检验时。如棉花纤维检验时所用的主体长度即为众数。所用的主体长度即为众数。(4)几何平均数几何平均数如有如有n个察看值，其相乘积开个察看值，其相乘积开n次方，次方，即为几何平均数即为几何平均数(geometric mean)，用，用G代表。代表。1123123()nnnnGx x xxx x xx/一、平均数的意义和种类一、平均数的意义和种类二、算术平均数的计算方法二、算术平均数的计算方法假设样本较小，即资料包含的察看值个数不多，可直假设样本较小，即资料包含的察看值个数不多，可直接计算平均数。设一个含有接计算平均数。设一个含有n个察看值的样本，其各个察个察看值的样本，其各个察看值为看值为x1、x2、x3、xn，那么算术平均数由下式算，那么算术平均数由下式算得：得：123ninixxxxxxnn1 假设样本较大，且已进展了分组，可采用加权法计算假设样本较大，且已进展了分组，可采用加权法计算算术平均数，即用组中点值代表该组出现的观测值以计算算术平均数，即用组中点值代表该组出现的观测值以计算平均数，其公式为平均数，其公式为iiifxf xxfn其中其中yi 为第为第i 组中点值，组中点值，fi 为第为第 i 组变数出现次数。组变数出现次数。例1 在水稻种类比较实验中，湘矮早四号的5个小区产量分别为20.0、19.0、21.0、17.5、18.5kg，求该种类的小区平均产量。例2 利用表5资料计算平均每行水稻产量。假设采用直接法，假设采用直接法，=157.47。因此，两者的结果非常相近。因此，两者的结果非常相近。20 019 021 017 5 18 519 2()5x.x.kgn2757901 25522110157 93()140140fxx.gn x二、算术平均数的计算方法二、算术平均数的计算方法三、总体平均数三、总体平均数总体平均数用总体平均数用来代表，它同样具有算术平均数所具有来代表，它同样具有算术平均数所具有的特性。的特性。1NiiXN 上式上式Xi 代表各个察看值，代表各个察看值，N代表有限总体所包含的个体代表有限总体所包含的个体数，数，表示总体内各个察看值的总和。表示总体内各个察看值的总和。1NiiXSection 2.5变异数一、极一、极差差极差极差(range)，又称全距，记作，又称全距，记作R，是资料中最大察看，是资料中最大察看值与最小察看值的差数。值与最小察看值的差数。表表7 7 两个小麦种类的每穗小穗数两个小麦种类的每穗小穗数品种名称品种名称每穗小穗数每穗小穗数总和总和平均平均甲甲13 14 15 17 18 18 19 21 22 2318018乙乙16 16 17 18 18 18 18 19 20 2018018甲种类甲种类R=2313=10；乙种类；乙种类R=2016=4。两种类的平均同为两种类的平均同为18，但甲种类的极差大，平均数的代表性，但甲种类的极差大，平均数的代表性差；乙种类的极差小，平均数代表性好。差；乙种类的极差小，平均数代表性好。二、方二、方差差离均差平方和离均差平方和(简称平方和简称平方和)SS)SS 样本样本SS=2()ixx 总体SS=2()iX均方或方差均方或方差(variance)(variance)样本均方样本均方(mean square)(mean square)：总体方差：总体方差：221NiXN()样本均方是总体方差的无偏估计值样本均方是总体方差的无偏估计值 2211nixxsn()三、规范差三、规范差(一一)规范差的定义规范差的定义样本规范差：样本规范差：2()1xxsn总体规范差：总体规范差：2()XN样本规范差是总体规范差的估计值。样本规范差是总体规范差的估计值。(二二)自在度自在度样本样本n-1称为自在度称为自在度,记作记作DF，其详细数值那么常用，其详细数值那么常用表示。表示。统计意义：是指样本内独立而能自在变动的离均差个数。统计意义：是指样本内独立而能自在变动的离均差个数。kn 三、规范差三、规范差(三三)规范差的计算方法规范差的计算方法 1.直接法直接法例例3 设某一水稻设某一水稻单株粒重的样本有单株粒重的样本有5个察看值，以克个察看值，以克为单位，其数为为单位，其数为2、8、7、5、4。)(3921580221)(2g.nyys计算项目yy223.210.24482.87.846471.83.244950.20.042541.21.4416总和26022.80158平均5.2yy 2)(yy 三、规范差三、规范差2 矫正数法矫正数法其中其中项称为矫正数，记作项称为矫正数，记作C。2xn()在上例中，将有关数字代入即在上例中，将有关数字代入即有：有：222()11xxnxxsnn()222()158(26)52 39()15 1xxns.gn三、规范差三、规范差3 加权法加权法假设样本较大，已生成次数分布表，可采用加权法计算假设样本较大，已生成次数分布表，可采用加权法计算规范差，其公式为：规范差，其公式为：222iiiiiiifxf xf xnsfn(x)()11三、规范差三、规范差例例4 利用表利用表5的次数分布资料计算每行水稻产量的的次数分布资料计算每行水稻产量的规范差。规范差。假设采用直接法，其规范差假设采用直接法，其规范差s=36.23(g)。由此可见，。由此可见，直接法和加权法的结果是很相近的。直接法和加权法的结果是很相近的。222222()12757901 255(22110)140140136.45()iiiif xf xnsng 三、规范差三、规范差四、变异系数四、变异系数变异系数变异系数(coefficient of variation)：变异系数是一个不带单位的纯数，可用以比较二个变异系数是一个不带单位的纯数，可用以比较二个事物的变异度大小。事物的变异度大小。100%sCVx 例如表例如表8为两个小麦种类主茎高度的平均数、规范差和为两个小麦种类主茎高度的平均数、规范差和变异系数。如只从规范差看，种类甲比乙的变异大些；但因变异系数。如只从规范差看，种类甲比乙的变异大些；但因两者的均数不同，规范差间不宜直接比较。假设算出变异系两者的均数不同，规范差间不宜直接比较。假设算出变异系数，就可以相互比较，这里乙种类的变异系数为数，就可以相互比较，这里乙种类的变异系数为11.3%，甲，甲种类为种类为9.5%，可见乙种类的相对变异程度较大。，可见乙种类的相对变异程度较大。品种品种 (cm)s(cm)变异系数变异系数CV(%)甲甲95.09.02 9.5乙乙75.08.5011.3表表8 两个小麦种类主茎高度的丈量结果两个小麦种类主茎高度的丈量结果x四、变异系数四、变异系数

展开阅读全文

第章数据的组织与表达ppt课件

最新文档