数据的概括性度量课件

上传人:hloru****lorv6 文档编号:242419400 上传时间:2024-08-23 格式:PPT 页数:61 大小:1.16MB
返回 下载 相关 举报
数据的概括性度量课件_第1页
第1页 / 共61页
数据的概括性度量课件_第2页
第2页 / 共61页
数据的概括性度量课件_第3页
第3页 / 共61页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2021精选ppt,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021精选ppt,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2021精选ppt,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2021精选ppt,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2021精选ppt,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2021精选ppt,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2021精选ppt,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,5 -,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,5 -,*,第四章 统计数据的概括性度量,4.1,集中趋势的度量,4.2,离散程度的度量,4.3,偏态与峰态的度量,1,2021精选ppt,第四章 统计数据的概括性度量 4.1 集,学习目标,掌握集中趋势各测度值的计算方法和应用场合,掌握离散程度各测度值的计算方法及应用场合,了解偏态和峰态的测度方法,能运用,EXCEL,计算描述统计量并进行分析,2,2021精选ppt,学习目标22,4.1,集中趋势的度量,4.1.1,众数,4.1.2,中位数和分位数,4.1.3,平均数,4.1.4,众数、中位数和平均数的比较,3,2021精选ppt,4.1 集中趋势的度量 4.1.1 众数32021精选p,集中趋势,一,组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,4,2021精选ppt,集中趋势一组数据向其中心值靠拢的倾向和程度,众数,(mode),一组数据中,出现次数最多,的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可用于顺序数据和数值型数据,应用范围不多,5,2021精选ppt,众数(mode)一组数据中出现次数最多的变量值52021精,众数,(,不惟一性,),无众数,原始数据,: 4 3 7 10 5 9 12 6 8,一个众数,原始数据,: 5 5 6,5,9 8,5 5 5,多于一个众数,原始数据,:28 25,28 28 28,36,42 42 42 42,6,2021精选ppt,众数(不惟一性)无众数原始数据: 4 3 7 10,原始数据(职业):,教师,医生,公务员,教师,医生,银行职员,财务人员 医生 教师 教师,7,2021精选ppt,原始数据(职业):72021精选ppt,中位数,(median),排序,后处于中间位置上的值,M,e,50%,50%,不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小。,8,2021精选ppt,中位数(median)排序后处于中间位置上的值Me50%5,中位数的位置,未分组数据,中位数的位置,=(1+n)/2,分组数据,中位数的近似位置,=n/2,9,2021精选ppt,中位数的位置未分组数据92021精选ppt,数值型数据的中位数,(9,个数据的实例,),【,例,1】,9,个家庭的人均月生活费支出数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750 780 850 960,1080,1250 1500 1630 2000,位 置,:,1 2 3 4,5,6 7 8 9,中位数,1080,(元,/,月),10,2021精选ppt,数值型数据的中位数 (9个数据的实例)【例1】 9个,数值型数据的中位数,(9,个数据的实例,),【,例,1】,10,个家庭的人均月生活费支出数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630 1680,排 序,:,750 780 850 960,1080,1250 1500 1630 1680 2000,位 置,:,1 2 3 4,5,6 7 8 9 10,中位数, (,1080+1250,),/2=1165,(元,/,月),11,2021精选ppt,数值型数据的中位数 (9个数据的实例)【例1】 10,分组数据的中位数的近似公式,在求中位数时,如果数据大量重复某一数值,这时的中位数未必准确,在解释时要特别小心。,12,2021精选ppt,分组数据的中位数的近似公式在求中位数时,如果数据大量重复,实例分析,按零件加工数分组,人数,向上累积,80-90,90-100,100-110,110-120,120-130,3,7,13,5,2,3,10,23,28,30,合计,30,13,2021精选ppt,实例分析按零件加工数分组人数向上累积80-9033合计30,美国人口普查局发布报告显示,,2013,年美国家庭年收入的中位数是,51939,美元,四口之家的年收入在,23624,美元以下即为贫困户。,2016,年,美国家庭收入中位数增长,3.2%,,从,2015,年的,57230,美元增至,59039,美元,创有记录以来新高,超过,1999,年的前纪录,58655,美元。所有数字都是经过通胀调整后的。,2017,年底港府统计处发表,2016,年中期人口统计,,称本港人均居住面积中位数为,161,呎(约合,15,平方米),14,2021精选ppt,美国人口普查局发布报告显示,2013年美国家庭年收入的中位数,四分位数,(quartile),排序后处于,25%,和,75%,位置上的值,不受极端值的影响,Q,L,Q,M,Q,U,25%,25%,25%,25%,15,2021精选ppt,四分位数(quartile)排序后处于25%和75%位置上,四分位数,(,位置的确定,),原始数据:,分组数据:,16,2021精选ppt,四分位数(位置的确定)原始数据:分组数据:162021精选,数值型数据的四分位数,(9,个数据的算例,),【,例,1】,:,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750,780 850,960 1080 1250,1500 1630,2000,位 置,:,1,2 3,4 5 6,7 8,9,17,2021精选ppt,数值型数据的四分位数 (9个数据的算例)【例1】:9个家庭,【,例,2】,:,10,个家庭的人均月收入数据,排 序,:,660,750 780,850 960 1080 1250,1500 1630,2000,位 置,:,1,2 3,4,5 6 7,8 9,10,18,2021精选ppt,【例2】:10个家庭的人均月收入数据182021精选p,试想一下分组数据的四分数计算近似公式,19,2021精选ppt,试想一下分组数据的四分数计算近似公式192021精选ppt,十分位数,有几个十分位数?,十分位数的位置如何确定,如何求十分位数?,20,2021精选ppt,十分位数有几个十分位数?202021精选ppt,百分位数,有几个百分位数?,百分位数的位置如何确定,如何求百分位数?,21,2021精选ppt,百分位数有几个百分位数?212021精选ppt,均值,(mean),集中趋势的最常用测度值,一组数据的均衡点所在,易受极端值的影响,是客观事物必然性数量特征的一种反映,22,2021精选ppt,均值(mean)集中趋势的最常用测度值222021精选pp,简单均值,(simple mean),总体均值,样本均值,23,简单均值(simple mean)总体均值样本均值23,加权均值,(weighted mean),设一组数据为:,x,1,,,x,2,,,,,x,k,相应的频数为:,f,1,,,f,2,,,,,f,k,样本均值,24,加权均值(weighted mean)设一组数据为:,实例分析,按零件加工数分组,人数,组中值,80-90,90-100,100-110,110-120,120-130,3,7,13,5,2,合计,30,25,2021精选ppt,实例分析按零件加工数分组人数组中值80-903合计30252,加权均值,(,例题分析,),26,加权均值 (例题分析)26,均值,(,数学性质,),各变量值与均值的离差之和等于零,各变量值与均值的离差平方和最小,27,2021精选ppt,均值(数学性质)各变量值与均值的离差之和等于零 各变量值,几何平均数,是,n,个变量值乘积的,n,次方根,用,G,表示,在计算社会经济问题的平均发展速度和平均,增长,速度等方面有很重要的作用。,计算公式,适用于特殊数据,变量值,x,一般为比率,28,2021精选ppt,几何平均数是n个变量值乘积的n次方根,用G表示282021精,9.97%,某企业最近4年产品销售收入的年增长率分别为8%、7%、12%、13%,求该企业这4年销售收入的年平均增长率?,29,2021精选ppt,9.97%某企业最近4年产品销售收入的年增长率分别为8%、7,众数、中位数和均值的关系,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,30,众数、中位数和均值的关系左偏分布均值 中位数 众数对称分,众数、中位数、均值的,特点和应用,众数,不受极端值影响,一组数据分布的峰值,具有不惟一性,数据分布偏斜程度较大、数据量较多时应用,中位数,一组数据中间位置上的代表值,不受极端值影响,数据分布偏斜程度较大时应用,均值,易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用,应用最广,31,2021精选ppt,众数、中位数、均值的特点和应用众数312021精选ppt,4.2,离散程度的测度,32,2021精选ppt,4.2 离散程度的测度322021精选ppt,离散趋势,数据分布的另一个重要特征,反映各变量值远离其中心值的程度,(,离散程度,),从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值,33,2021精选ppt,离散趋势数据分布的另一个重要,4.2.1,、分类数据:异众比率,4.2.2,、顺序数据:四分位差,4.2.3,、数值型数据:方差和标准差,4.2.4,、相对离散程度:离散系数,34,2021精选ppt,4.2.1、分类数据:异众比率342021精选ppt,思考题,假如你是一个公司的采购代理,定期向两个不同的供应商订货,经过几个月的运营,你发现两个供应商完成订单所需时间大概为,10,天,,供应商,1,完成时间:,9,,,9,,,10,,,10,,,10,,,10,,,10,,,11,,,11,供应商,2,完成时间:,6,,,8,,,9,,,10,,,10,,,10,,,11,,,12,,,14,你会选择哪一个供应商,理由是什么?,35,2021精选ppt,思考题假如你是一个公司的采购代理,定期向两个不同的供应商订货,方差和标准差,(Variance and Standard deviation),离散程度的测度值之一,最常用的测度值,反映了各变量值与均值的平均差异,根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,36,2021精选ppt,方差和标准差(Variance and Standard,总体标准差,未分组资料,分组资料,37,2021精选ppt,总体标准差未分组资料372021精选ppt,样本标准差,未分组资料,分组资料,38,2021精选ppt,样本标准差未分组资料382021精选ppt,实例分析,例:某统计学教师讲授统计学课程,从两个班的考试成绩中各随机抽取一个样本,计算每个样本的平均数和标准差。,1,班:,50,,,60,,,70,,,80,,,90,2,班:,72,,,68,,,70,,,74,,,66,39,2021精选ppt,实例分析例:某统计学教师讲授统计学课程,从两个班的考试成绩中,解:,40,2021精选ppt,解:402021精选ppt,解:,41,2021精选ppt,解:412021精选ppt,周课外阅读时间(分组数据的平均数和标准差),某同学从该班随机抽出,20,位同学调查其周阅读时间。结果如下:,周阅读时间(小时) 人数,0-2 2,2-4 3,4-6 6,6-8 5,8,及以上,4,计算样本中周阅读时间的平均数和标准差。,42,2021精选ppt,周课外阅读时间(分组数据的平均数和标准差)某同学从该班随机,解:,43,2021精选ppt,解:432021精选ppt,标准分,对一个数在一组数据中相对位置的测度。,具有均值为,0,,方差为,1,的性质。,标准分只是将原始数据进行线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状。,其计算公式为,Z=,(原始数据,-,平均值),/,标准差,44,2021精选ppt,标准分对一个数在一组数据中相对位置的测度。442021精选p,实例分析,假设两个水平类似的班级上同一门课,但由于两个任课教师的评分标准不同,使得两个班的均值和标准差不同,一班均值为,78.53,分,标准差为,9.43,分,二班均值为,70.19,分,标准分为,7.00,分,那么得到,90,分的张三(一班)是否比得到,82,分的王五(二班)成绩更好?(假设两个班的成绩均呈正态分布),45,2021精选ppt,实例分析假设两个水平类似的班级上同一门课,但由于两个任课教师,Z=1.2163,Z=1.6871,46,2021精选ppt,Z=1.2163462021精选ppt,经验法则,经验法则表明:当一组数据对称分布时,约有,68%,的数据在平均数加减,1,个标准差的范围之内,约有,95%,的数据在平均数加减,2,个标准差的范围之内,约有,99%,的数据在平均数加减,3,个标准差的范围之内,47,2021精选ppt,经验法则 经验法则表明:当一组数据对称分布时,切比雪夫不等式,(Chebyshevs inequality ),如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用,切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”,对于任意分布形态的数据,根据切比雪夫不等式,至少有,1-1/,k,2,的数据落在平均数加减,k,个标准差之内。其中,k,是大于,1,的任意值,但不一定是整数,48,2021精选ppt,切比雪夫不等式(Chebyshevs inequalit,切比雪夫不等式,对于,k,=2,,,3,,,4,,该不等式的含义是,至少有,75%,的数据落在平均数加减,2,个标准差的范围之内,至少有,89%,的数据落在平均数加减,3,个标准差的范围之内,至少有,94%,的数据落在平均数加减,4,个标准差的范围之内,49,2021精选ppt,切比雪夫不等式对于k=2,3,4,该不等式的含义是492,离散系数,50,2021精选ppt,离散系数502021精选ppt,51,2021精选ppt,512021精选ppt,中 文 名,:,多瓦夫兔体形特征:长成后体长仅,30cm,,体重,1-2kg,,体型非常娇小,可说是真正的,迷你兔,。,52,2021精选ppt,中 文 名: 多瓦夫兔体形特征:长成后体长仅30cm,体,离散系数,(coefficient of variation),标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,计算公式为,53,2021精选ppt,离散系数(coefficient of variation,p97,利用前,5,对数据做分析,54,2021精选ppt,p97利用前5对数据做分析542021精选ppt,解:成年人的平均身高和身高标准差分别为,55,2021精选ppt,解:成年人的平均身高和身高标准差分别为552021精选ppt,56,2021精选ppt,562021精选ppt,4.3,偏态和峰态的测度,一、,偏态及其测度,偏态是对分布偏斜方向及程度的测度,通常用偏态系数来测度,57,4.3偏态和峰态的测度一、偏态及其测度57,偏态,(skewness),统计学家,Pearson,于,1895,年首次提出,数据分布偏斜程度的测度,SK=0,对称分布,SK,0,右偏分布,SK,0,左偏分布,SK,的绝对值越大,表示偏斜程度就越大,3.SK,的绝对值大于,1,,被称为高度偏态分布;绝对值在,0.5,1,之间,被认为是中等偏态分布;偏态系数越接近,0,,偏斜程度就越低,58,2021精选ppt,偏态 (skewness),二、峰态及其测度,峰度是对数据分布平峰或尖峰程度的测度,通常与标准正态分布比较。,统计学家,Pearson,于,1905,年提出,59,2021精选ppt,二、峰态及其测度592021精选ppt,K=0,标准正态分布,K,0,尖峰分布,K,0,平峰分布,60,2021精选ppt,K=0 标准正态分布602021精选ppt,思考题,1、收集中国5年以上的GDP数据,试根据数据计算GDP年增长率?,2、书后练习,4.3,题,61,2021精选ppt,思考题1、收集中国5年以上的GDP数据,试根据数据计算GDP,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!