资源描述
,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,第,2,章 数据的组织与表达,Arrangement and Presentation of Data,第2章 数据的组织与表达Arrangement and Pr,Section,2,.1Data and Data Type,数据与数据类型,Section 2.1Data and Data Typ,一、原始数据的组织,资料以电子表格(,spreadsheet),方式记录。,包括个体(,Individual):,一笔数据所描述的对象(,object)。,电子表格中,输入,在一,行,。,及变量(,Variable):,描述任何一个个体的特,征,,一个变量对不同的个体取不同的数值(,value)。,电子表格中,输入,在一,列,。,一、原始数据的组织资料以电子表格(spreadsheet)方,(,一,),数量性状资料,数量性状,(quantitative trait),的度量有计数和量测两种方式,其所得变数不同。,1.,不连续性或间断性变数,(discontinuous or discrete variable),指用计数方法获得的数据,。,2.,连续性变数,(continuous variable),指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。,二、试验资料的性质与分类,(一)数量性状资料二、试验资料的性质与分类,(,二,),质量性状资料,质量性状,(qualitative trait),指能观察而不能量测的状即属性性状,如土壤剖面中土层的颜色、,CaCO3,的有无等。要从这类性状获得数量资料,可采用下列两种方法:,统计次数法,于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。,2.,给分法,给予每类性状以相对数量的方法,二、试验资料的性质与分类,(二)质量性状资料二、试验资料的性质与分类,Section,2,.,2,次数分布表,Section 2.2次数分布表,表,1 100,个调查点的土壤水分含量,18,15,17,19,16,15,20,18,19,17,17,18,17,16,18,20,19,17,16,18,17,16,17,19,18,18,17,17,17,18,18,15,16,18,18,18,17,20,19,18,17,19,15,17,17,17,16,17,18,18,17,19,19,17,19,17,18,16,18,17,17,19,16,16,17,17,17,15,17,16,18,19,18,18,19,19,20,17,16,19,18,17,18,20,19,16,18,19,17,16,15,16,18,17,18,17,17,16,19,17,一、间断性变数资料的整理,表1 100个调查点的土壤水分含量181517191615,含水量,(,y,),次数,(,f,),15,6,16,15,17,32,18,25,19,17,20,5,总次数,(,n,),100,表,2 100,个点的土壤含水量的次数分布表,从表,2,中看到,一堆杂乱的原始资料表,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料也便于进一步的分析。,含水量在,1520,的范围内变动,把所有观察值按含水量多少加以归类,共分为,6,组,组与组间相差为,1,,称为,组距,。这样可得表,2,形式的次数分布表。,一、间断性变数资料的整理,含水量(y)次数(f)156161517321825,二、连续性变数资料的整理,177,215,197,97,123,159,245,119,119,131,149,152,167,104,161,214,125,175,219,118,192,176,175,95,136,199,116,165,214,95,158,83,137,80,138,151,187,126,196,134,206,137,98,97,129,143,179,174,159,165,136,108,101,141,148,168,163,176,102,194,145,173,75,130,149,150,161,155,111,158,131,189,91,142,140,154,152,163,123,205,149,155,131,209,183,97,119,181,149,187,131,215,111,186,118,150,155,197,116,254,239,160,172,179,151,198,124,179,135,184,168,169,173,181,188,211,197,175,122,151,171,166,175,143,190,213,192,231,163,159,158,159,177,147,194,227,141,169,124,159,表,3 140,个地区春季降水量,(,单位:毫米,),二、连续性变数资料的整理177215197 971231,具体步骤:,1.,数据排序,(sort),首先对数据按从小到大排列,(,升序,),或从大到小排列,(,降序,),。,2.,求极差,(range),所有数据中的最大观察值和最小观察值的差数,称为,极差,,亦即整个样本的变异幅度。从表,3,中查到最大观察值为,254,毫米,,最小观察值为,75,毫米,,极差为,254,75=179,毫米,。,二、连续性变数资料的整理,具体步骤:二、连续性变数资料的整理,3.,确定组数和组距,(class interval),根据极差分为若干组,每组的距离相等,称为,组距,。,在确定组数和组距时应考虑:,(1),观察值个数的多少;,(2),极差的大小;,(3),便于计算;,(4),能反映出资料的真实面貌等方面。,样本大小,(,即样本内包含观察值的个数的多少,),与组数多少的关系可参照表,4,来确定。,二、连续性变数资料的整理,3.确定组数和组距(class inte,表,4,样本容量与组数多少的关系,样本内观察值的个数,分组时的组数,50,510,100,816,200,1020,300,1224,500,1530,1000,2040,组数确定后,还须确定组距。组距,=,极差,/,组数。以表,3,中,140,个地区春季降水量,为例,样本内观察值的个数为,140,,查表,4,可分为,816,组,假定分为,12,组,,则组距为,179/12=14.9,毫米,,为分组方便起见,可以,15,毫米,作为组距。,二、连续性变数资料的整理,表4样本容量与组数多少的关系样本内观察值的个数分组时的组数,4.,选定组限,(class limit),和组中点值,(,组值,,class value),以表,3,中,140,个地区春季降水量,为例,选定第一组的中点值为,75,毫米,,与最小观察值,75,毫米,相等;则第二组的中点值为,75+15=90,毫米,,余类推。,各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为,下限,(lower limit),,数值大的称为,上限,(upper limit),。上述资料中,第一组的下限为该组中点值减去,1/2,组距,即,75,(15/2)=67.5,毫米,,上限为中点值加,1/2,组距,即,75+(15/2)=82.5,毫米,。故第一组的组限为,67.582.5,毫米,。按照此法计算其余各组的组限。,二、连续性变数资料的整理,4.选定组限(class limit)和,5.,把原始资料的各个观察值按分组数列的各组组限归组,可按原始资料中各观察值的次序,逐个把数值归于各组。,待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。,例如表,3,中第一个观察值,177,应归于表,5,中第,8,组,组限为,172.5187.5,;第二个观察值,149,应归于第,6,组,组限为,142.5157.5,;,。依次把,140,个观察值都进行归组,即可制成,140,个地区春季降水量,的次数分布表,(,表,5),。,二、连续性变数资料的整理,二、连续性变数资料的整理,表,5 140,个地区春季降水量的次数分布,组 限,中点值,(,y,),次数,(,f,),67.5 82.5,75,2,82.5 97.5,90,7,97.5112.5,105,7,112.5127.5,120,13,127.5142.5,135,17,142.5157.5,150,20,157.5172.5,165,25,172.5187.5,180,21,187.5202.5,195,13,202.5217.5,210,9,217.5232.5,225,3,232.5247.5,240,2,247.5262.5,255,1,合计,(,n,),140,注,:,前面提到分为,12,组,但由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了,1/2,组;这样也使最后一组的中点值接近于最大值,又增加了,1/2,组,故实际的组数比原来确定的要多一个组,为,13,组。,二、连续性变数资料的整理,表5 140个地区春季降水量的次数分布组 限中点值(,三、属性变数资料的整理,属性变数的资料,也可以用类似次数分布的方法来整理。,在整理前,把资料按各种质量性状进行分类,分类数等于组数,,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,,即可得到属性分布的规律性认识。,例如,某地区土壤剖面描述,归于表,6,。,表,6,土壤剖面描述情况,属性分组,(,y,),次数,(,f,),红棕无钙积,96,红棕有钙积,37,黑棕非钙积,31,黑棕有钙积,15,合计,(,n,),179,三、属性变数资料的整理 属性变数的资料,也可,Section,2,.,3,次数分布图,Section 2.3次数分布图,一、方柱形图,方柱形图,(histogram),适用于表示连续性变数的次数分布。,现以表,3,的,140,个地区春季降水量,的次数分布表为例加以说明。即成方柱形次数分布图,1,。,图,1 140,个地区春季降水量,一、方柱形图方柱形图(histogram)适用于表示,二、多边形图,多边形图,(polygon),也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。,仍以,140,个地区春季降水量,次数分布为例,所成图形即为次数多边形图,(,图,2,),。,图,2 140,个地区春季降水量次数分布多边形图,二、多边形图 多边形图(polygon)也,三、条形图,条形图,(bar),适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出,次数。,现以表,6,土壤剖面描述情况为例,可画成条形图,(,图,3,),。,三、条形图 条形图(bar)适用于间断性变,四、饼图,饼图,(pie),适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。,四、饼图 饼图(pie)适用于间断性变,Section,2,.,4,平均数,Section 2.4平均数,一、平均数的意义和种类,平均数的意义,:,平均数,(average),是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。,一、平均数的意义和种类 平均数的意义:,平均数的种类,:,(
展开阅读全文