数据分布特征的描述

上传人:nu****n 文档编号:252628452 上传时间:2024-11-18 格式:PPT 页数:46 大小:406.50KB
返回 下载 相关 举报
数据分布特征的描述_第1页
第1页 / 共46页
数据分布特征的描述_第2页
第2页 / 共46页
数据分布特征的描述_第3页
第3页 / 共46页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章数据分布特征的描述,第一节分布集中趋势的测度,第二节分布离散趋势的测度,第三节分布偏态和峰度的测度,第四节统计图和统计表,第三章 数据分布特征的描述,对统计数据进行排序、分组、整理,是对数据的分布特征进行描述的一个基本方面,为进一步掌握数据分布特征及其变化规律,以进行深入的分析,还需找出反映数据分布特征的各个代表值。,统计学中,刻划,数据分布特征,的最主要的代表有,二,:数据分布的,集中趋势,与数据分布的,离散程度,。,排序,分组,整理,表述,统计数据,寻找,反映数据分布特征的代表值:,集中趋势,;,离散趋势,该项活动中,每月都有数据统计及分析以用来进行该项活动的调整与实施。,如:有一组关于病人进入“救助”活动的时间长度的数据,:,67个样本:时间长度从1天到185天。,为了改善,频临死亡的病人,及其家庭的,生活质量,救,助,活,动,“服务队”:,医生,家庭健康保健员,社会工作者,受训志愿者,给予,病人及,家庭一些,指导,帮助,减轻由于,疾病、,分离等而,引起的,精神紧张,例,:,美国一家具有福利院性质的医院(Barnes Hospital)。,均值(mean):,35.7天;,中位数(median):,17天;,众数(Mode):,1天,Interpretation,:,(1)the average time a patient stays in the Program is 35.7 days,or slightly over a month;,(2)half of the patients are in the Program 17 days or less and half are in the Program 17 days or more;,(3)many patients have a short day in the Program.,除了对该组数据进行频数方面的描述和分析外,下面的统计方法在描述数据分布特征及分析方面也很重要:,第一节 分布集中趋势的测度,集中趋势,是指一组数据向某一中心值靠拢的倾向,,测度集中趋势就是寻找数据一般水平的代表值或中心值。,一、均值(Mean),均值,就是一组数据的平均值,(average value),,用来测度中心位置,(central location)。,1、简单算术平均,对样本:,其中n为样本数,对总体:,其中N为总体单位数,加权算术平均,往往适用于对分组后的数据求均值,这时,X,i,为各组变量代表值(往往取,组中值,),,F,i,为各组变量值出现的频数。,例1:,一组大学班级人数规模的数据(5个班)如下:46、54、42、46、32,在,未分组,的情况下,其均值为:44。,如果,分成如下组别,:,I:,32,,II:,42,,III:,46、46,,IV:,54,则其均值为:,2、加权算术平均,其中,F,i,为权数,例2,:,(美国)一个关于大学生毕业后工作起薪的问卷调查:,Table 1,Monthly Starting Salaries for a Sample of 12 College Graduates,Graduates Monthly Graduates Monthly Graduates Monthly,Salary($)Salary($)Salary($),1 2350 5 2255 9 2440,2 2450 6 2210 10 2852,3 2550 7 2390 11 2428,4 2380 8 2630 12 2380,未分组时的算术平均值为:2440,注意:,均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。,如,例2中,如果将月薪2825的最高值用10000代替,则均值为3038,算术均值,具有如下,性质,:,(1)各变量值与其均值的离差和为零:,(2)各变量值与其均值的离差平方和最小:,(1),几何平均数,是,N,个变量值乘积的,N,次方根:,2、几何平均数,上述班级人数规模例中,几何平均数为:43.37,可看出:,几何平均数 算术平均数。,(2)加权几何平均数:,其中,F,i,为,X,i,的权数。,几何平均主要用于计算比率或速度的平均,。,例3,:,某水泥生产企业1995年产水泥100万吨,1996、1997、1998年的水泥产量分别上一年增长9%、16%与20%,则19961998年的年均增长率为:,几何平均数的对数是各变量值对数的算术平均,:,假设同一,X,i,的个数有,M,i,个,且,3、调和平均数,调和平均数,,是各数据倒数的(简单)算术平均数的倒数:,则上式可写成如下,加权的形式,:,例4,,,某农贸市场某日鸡蛋价格及销售额资料如下表所示,试求其鸡蛋的平均售价。,鸡蛋种类 价格(元/KG)销售额(元),A 7.6 15200,B 8.0 8000,C 8.2 4100,鸡蛋的平均价格等于销售总额除以销售量:,二、中位数(Median),中位数,是,一组数据按大小排序后,处于,中间位置,上的变量值,。,1、对于,未分组数据,:,(1)如果,数据个数为奇数,,则中位数恰为处于中间位置的数:,(2)如果,数据个数为偶数,,则为中间位置两个数的平均数,大学毕业生起薪例中:,按升序排出的12个统计数为:,2210 2255 2350 2380 2380,2390,2420,2440 2450 2550 2630 2825,班级规模例中,:,按升序排出的5个统计数为:,32、42、,46,、46、54,则,中位数为,:46,则,中位数为,:,由于均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时用中位数代替均值则更有意义。,如,,在大学生毕业工作起薪的例中,,如果原统计数中最高薪金由2825换为10000,则得到平均薪金为3038的结论,显然与其他11位均在2000多的薪水水平不符,但这时若用中位数2405,显然更具代表意义。,注意,:,首先,需确定中位数所在的组,然后可根据下列公式计算中位数:,下限公式:,2、对于,分组后的数据,:,式中:,m,为中位数所在的组,,d,为该组组距,,L、U,分别为该组的下限值与上限值,,f,m,为该组的频数,,S,m-1,为该组以下各组的频数总和,,S,m+1,为该组以上各组的频数总和,,显然,上限公式:,例4,,,某班级英语考试成绩分组情况见下表:,成绩分组 人数 累计人数 成绩分组 人数 累计人数,(分)(分),50以下 2 2 7080 18 35,5060 5 7 8090 9 44,6070 10 17 90以上 6 50,从成绩由低往高排,,中位数所在组应在第4组,,即7080的组,,由于,L,=70,,U,=80,,d,=10,而,S,m-1,=2+5+10=17,,S,m+1,=9+6=15,,f,m,=18,故,班级人数规模的例中,,按例中分组情况,则中位数为:,或,或,众数,是一组数据中出现次数最多的变量值,。,在,班级规模,的例中,众数为46;,在,大学毕业生工作起薪,的例中,众数为2380。,在分组数据中,,众数可按下式计算:,下限公式:,三、众数(Mode),式中:,f,m,为某数值出现次数(频数)最多的组(第m组)的频数,,f,m-1,与,f,m+1,分别为第m-1组与m+1组的频数,,L、U,分别为第m组的下限与上限值,,d,为该组组距。,上限公式:,在班级规模的例中,,若按例中给出的分组情况,则该组数据的众数为:,在学生英语成绩例中,,次数最多的组也在,7080,组中,则有,f,m,=18,,,f,m-1,=10,,,f,m+1,=9,,,或,或,例如,在前面购买五类不同品牌,计算机的统计中,曾得到如右表所示,的频数分布表。,注意:,1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数,无众数,;如果有多个数据出现的次数(频率)较多,则认为,有多个众数,。,在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。,2、对描述品质数据的分布特征的“位置”测度只能用众数。,Company Frequency,Apple 13,Compaq 12,Gateway2000 5,IBM 9,Packard Bell 11,显然,众数,即个人购买最多的机算机品牌是Apple。,在这类数据中,“均值”与“中位数”是没有任何意义的。“众数”提供了频数最高的个人电脑购买品牌。,1、,如果数据具有单一众数,且分布是对称的,则众数M,o,、,中位数M,e,与均值 相等,即 ;,四、中位数、众数与算术平均数的关系,3、,在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式:,当分布右偏时(说明存在极端大的值),2、,对于非对称分布,,当分布左偏时(说明存在极端小的值),众数、中位数和均值都是对数据集中趋势的测度,,1、,均值,由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。,2、,中位数,是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。,3、,众数,是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。,4、,对接近正态的分布数据,常用,均值,描述数据的集中趋势;对偏态分布,常用,众数,或,中位数,描述数据的集中趋势。,5、,均值,只适用于定距或定比尺度的数据;定序尺度数据可用,中位数,或,众数,进行描述,而对定类尺度数据,只能用,众数,进行描述。,众数、中位数和均值的应用场合,第二节 分布离散程度的测度,对数据分布特征的另一个测度指标是,数据分布离散程度,。,它反映各数据远离其中心值的程度,因此,,也称,离中趋势,。,集中趋势,反映的是各变量值向其中心值聚集的程度,,离中趋势,反映各变量值之间的差异状况。,注意:,集中趋势,的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的,离散水平,。,数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。,例,:,如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,,两家供应商均表示能在大约10个工作日内供齐所需原材料,。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但,他们供货所需天数的分布情况却是不同的,(图)。,问:,两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?,极差,是最简单的测度离中趋势(分散程度)的指标,也称,全距,,,是,一组数据最大值与最小值之差,:,Range=Largest Value-Smallest Value,对于组距分组数据,,极差可近似地表示为:,R=最高组上限-最低组下限,注意:,1、,极差易受极端值的影响;,2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。,一、极差(Range),方差,是各变量值与其均值离差,(deviation about the mean),平方的平均数,。,(一)总体方差(Population Variance),总体方差,用,2,表示,二、方差(Variance),其中:,F,i,为第,i,组数据的频数,X,i,为第,i,个数(未分组)或第,i,组组中值(分组),(二)样本方差(Sample Variance),样本方差用,S,2,表示,其中:,f,i,为第,i,组数据的频数,x,i,为第,i,个数(未分组)或第,i,组组中值(分组),例:在上述5个班组平均人员的例中,,若视5个班为样本,,则,若视5个班为总体,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!