统计学第4章数据的概括性度量.ppt

资源描述

一些人使用统计就像喝醉酒的人使用街灯柱支撑的功能多于照明。AndrewLang,第4章数据的概括性度量,统计应用一种测量的平均数比单个的测量更可靠,即使用一种很准确、很可靠的仪器对同一物体进行重复测量，由于一些无法控制的因素的影响，每次得到的结果也不见得一样(美国)国家标准与技术协会(NISTNationalInstituteofStandardsandTechnology)的原子钟非常准确，它的准确程度是每600万年误差1秒，但也并不是百分之百准确世界标准时间是世界协调时间(UniversalCoordinatedTime)，它是由位于法国的塞夫尔的国际计量局(BIPM)所“编辑”的。BIPM并没有比NIST更好的钟，它给出的时间是根据世界各地200个原子钟的平均时间得来的,统计应用一种测量的平均数比单个的测量更可靠,下面是NIST的时间与正确时间的10个误差数据(秒)长期来讲，对时间的度量并没有偏差。NIST的秒有时比BIPM的短，有时比BIPM的长，并不是都较短或较长。尽管NIST的测量很准确，但从上面的数字还是可以看出有些差异。世界上没有百分之百可靠的度量，但用多次测量的平均数比只用一次测量的结果可靠程度会更高。这就是BIPM要结合很多原子钟的时间的原因,第4章数据的概括性度量,4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量,学习目标,1.集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析,数据分布的特征,4.1集中趋势的度量,4.1.1分类数据：众数4.1.2顺序数据：中位数和分位数4.1.3数值型数据：平均数4.1.4众数、中位数和平均数的比较,集中趋势(centraltendency),一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据,分类数据：众数,众数(mode),一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据，也可用于顺序数据和数值型数据,众数(不惟一性),无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,分类数据的众数(例题分析),解：这里的变量为“饮料品牌”，这是个分类变量，不同类型的饮料就是变量值所调查的50人中，购买可口可乐的人数最多，为15人，占被调查总人数的30%，因此众数为“可口可乐”这一品牌，即Mo可口可乐,顺序数据的众数(例题分析),解：这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多，为108户，因此众数为“不满意”这一类别，即Mo不满意,统计函数MODE,顺序数据：中位数和分位数,中位数(median),排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据，也可用数值型数据，但不能用于分类数据各变量值与中位数的离差绝对值之和最小，即,中位数(位置和数值的确定),位置确定,数值确定,顺序数据的中位数(例题分析),解：中位数的位置为(300+1)/2150.5从累计频数看，中位数在“一般”这一组别中中位数为Me=一般,数值型数据的中位数(9个数据的算例),【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数1080,数值型数据的中位数(10个数据的算例),【例】：10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910,统计函数MEDIAN,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据，也可用于数值型数据，但不能用于分类数据,四分位数(位置的确定),方法2：较准确算法,方法1：定义算法,四分位数(位置的确定),方法3：其中表示中位数的位置取整。这样计算出的四分位数的位置，要么是整数，要么在两个数之间0.5的位置上方法4：Excel给出的四分位数位置的确定方法如果位置不是整数，则按比例分摊位置两侧数值的差值,顺序数据的四分位数(例题分析),解：QL位置=(300)/4=75QU位置=(3300)/4=225从累计频数看，QL在“不满意”这一组别中；QU在“一般”这一组别中四分位数为QL=不满意QU=一般,数值型数据的四分位数(9个数据的算例),【例】：9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法1,数值型数据的四分位数(9个数据的算例),【例】：9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法2,数值型数据的四分位数(9个数据的算例),【例】：9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法3,数值型数据的四分位数(9个数据的算例),【例】：9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法4,统计函数QUARTILE,数值型数据：平均数,平均数(mean),也称为均值集中趋势的最常用测度值一组数据的均衡点所在4.体现了数据的必然性特征5.易受极端值的影响6.有简单平均数和加权平均数之分7.根据总体数据计算的，称为平均数，记为；根据样本数据计算的，称为样本平均数，记为x,简单平均数(Simplemean),设一组数据为：x1，x2，xn(总体数据xN),样本平均数,总体平均数,加权平均数(Weightedmean),设各组的组中值为：M1，M2，Mk相应的频数为：f1，f2，fk,样本加权平均,总体加权平均,加权平均数(例题分析),加权平均数(权数对均值的影响),甲乙两组各有10名学生，他们的考试成绩及其分布数据如下甲组：考试成绩（x）:020100人数分布（f）：118乙组：考试成绩（x）:020100人数分布（f）：811,统计函数AVERAGE,平均数(数学性质),1.各变量值与平均数的离差之和等于零,2.各变量值与平均数的离差平方和最小,中位数和平均数数学性质的验证,几何平均数(geometricmean),n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为,5.可看作是平均数的一种变形,几何平均数(例题分析),【例】某水泥生产企业1999年的水泥产量为100万吨，2000年与1999年相比增长率为9%，2001年与2000年相比增长率为16%，2002年与2001年相比增长率为20%。求各年的年平均增长率,年平均增长率114.91%-1=14.91%,几何平均数(例题分析),【例】一位投资者购持有一种股票，在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均：,几何平均：,统计函数GEOMEAN,众数、中位数和平均数的比较,众数、中位数和平均数的关系,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,4.2离散程度的度量,4.2.1分类数据：异众比率4.2.2顺序数据：四分位差4.2.3数值型数据：方差和标准差4.2.4相对离散程度：离散系数,离中趋势,数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,分类数据：异众比率,异众比率(variationratio),1.对分类数据离散程度的测度2.非众数组的频数占总频数的比例3.计算公式为,4.用于衡量众数的代表性,异众比率(例题分析),解：在所调查的50人当中，购买其他品牌饮料的人数占70%，异众比率比较大。因此，用“可口可乐”代表消费者购买饮料品牌的状况，其代表性不是很好,顺序数据：四分位差,四分位差(quartiledeviation),对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差Qd=QUQL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,四分位差(例题分析),解：设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知QL=不满意=2QU=一般=3四分位差为Qd=QU-QL=32=1,数值型数据：方差和标准差,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,平均差(meandeviation),各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差，实际中应用较少,计算公式为,未分组数据,组距分组数据,平均差(例题分析),平均差(例题分析),含义：每一天的销售量平均数相比，平均相差17台,统计函数AVEDEV,方差和标准差(varianceandstandarddeviation),数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的，称为总体方差或标准差，记为2()；根据样本数据计算的，称为样本方差或标准差，记为s2(s),样本方差和标准差(simplevarianceandstandarddeviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,自由度(degreeoffreedom),自由度是指附加给独立的观测值的约束或限制的个数从字面涵义来看，自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是1个，因此只有n-1个数据可以自由取值，其中必有一个数据不能自由取值按着这一逻辑，如果对n个观测值附加的约束个数为k个，自由度则为n-k,自由度(degreeoffreedom),样本有3个数值，即x1=2，x2=4，x3=9，则x=5。当x=5确定后，x1，x2和x3有两个数据可以自由取值，另一个则不能自由取值，比如x1=6，x2=7，那么x3则必然取2，而不能取其他值为什么样本方差的自由度是n-1呢？因为在计算离差平方和时，必须先求出样本均值x，而x则是附加给离差平方和的一个约束，因此，计算离差平方和时只有n-1个独立的观测值，而不是n个样本方差用自由度去除，其原因可从多方面解释，从实际应用角度看，在抽样估计中，当用样本方差s2去估计总体方差2时，它是2的无偏估计量,样本标准差(例题分析),样本标准差(例题分析),含义：每一天的销售量与平均数相比，平均相差21.58台,统计函数STDEV,总体方差和标准差(PopulationvarianceandStandarddeviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,相对位置的度量：标准分数,标准分数(standardscore),1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点(outlier)4.用于对变量的标准化处理5.计算公式为,标准分数(性质),均值等于02.方差等于1,标准分数(性质),z分数只是将原始数据进行了线性变换，它并没有改变一个数据在改组数据中的位置，也没有改变该组数分布的形状，而只是将该组数据变为均值为0，标准差为1,标准分数(例题分析),经验法则,经验法则表明：当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,切比雪夫不等式(Chebyshevsinequality),如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少”对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值，但不一定是整数,切比雪夫不等式(Chebyshevsinequality),对于k=2，3，4，该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内,相对离散程度：离散系数,离散系数(coefficientofvariation),1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,离散系数(例题分析),【例】某管理局抽查了所属的8家企业，其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论：计算结果表明，v10为右偏分布5.偏态系数0为左偏分布6.偏态系数大于1或小于-1，被称为高度偏态分布；偏态系数在0.51或-0.5-1之间，被认为是中等偏态分布；偏态系数越接近0，偏斜程度就越低,偏态系数(coefficientofskewness),根据原始数据计算根据分组数据计算,偏态系数(例题分析),偏态系数(例题分析),结论：偏态系数为正值，但与0的差异不大，说明电脑销售量为轻微右偏分布，即销售量较少的天数占据多数，而销售量较多的天数则占少数,统计函数SKEW,偏态与峰态(从直方图上观察),销售量(台),结论：1.为右偏分布2.峰态适中,某电脑公司销售量分布的直方图,峰态,峰态(kurtosis),统计学家Pearson于1905年首次提出数据分布扁平程度的测度峰态系数=0扁平峰度适中峰态系数0为尖峰分布,峰态系数(coefficientofkurtosis),根据原始数据计算根据分组数据计算,峰态系数(例题分析),结论：偏态系数为负值，但与0的差异不大，说明电脑销售量为轻微扁平分布,统计函数KURT,用Excel计算描述统计量,用Excel计算描述统计量,将120个销售量的数据输入到Excel工作表中，然后按下列步骤操作第1步：选择【工具】下拉菜单第2步：选择【数据分析】选项第3步：在分析工具中选择【描述统计】，然后选择【确定】第4步：当对话框出现时在【输入区域】方框内键入数据区域在【输出选项】中选择输出区域选择【汇总统计】选择【确定】实例计算,Excel中的统计函数,MODE计算众数MEDIAN计算中位数QUARTILE计算四分位数AVERAGE计算平均数HARMEAN计算简单调和平均数GEOMEAN计算几何平均数AVEDEV计算平均差STDEV计算样本标准差STDEVP计算总体标准差SKEW计算偏态系数KURT计算峰态系数TRIMMEAN计算切尾均值,数据分布特征和描述统计量,本章小节,1.数据水平的概括性度量2.数据离散程度的概括性度量数据分布形状的度量用Excel计算描述统计量,结束,THANKS,修改至此！,

展开阅读全文