第三章房地产统计数据的描述指标

上传人:小*** 文档编号:243135773 上传时间:2024-09-16 格式:PPT 页数:209 大小:16.48MB
返回 下载 相关 举报
第三章房地产统计数据的描述指标_第1页
第1页 / 共209页
第三章房地产统计数据的描述指标_第2页
第2页 / 共209页
第三章房地产统计数据的描述指标_第3页
第3页 / 共209页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,Page,*,单击此处编辑母版标题样式,第三章 房地产统计数据的描述指标,胡嘉骢,不动产学院 博士 副教授 城市规划系主任,E-mail: hujiacong,手机,: 13411361496,(,611496,),QQ: 4519210,房地产定量分析技术,yyyy-M-,一些人使用统计就像喝醉酒的人使用街灯柱,支撑的功能多于照明。,Andrew Lang,统计名言,第,3,章 用统计量描述数据,3.1,水平的度量,3.2,差异的度量,3.3,分布形状的度量,Statistic,yyyy-M-,学习目标,度量水平的统计量,度量差异的统计量,度量分布形状的统计量,各统计量的的特点及应用场合,用,Excel,和,SPSS,计算描述统计量,yyyy-M-,哪名运动员的发挥更稳定,?,在奥运会女子,10,米气手枪比赛中,每个运动员首先进行每组,10,抢共,4,组的预赛,然后根据预赛总成绩确定进入决赛的,8,名运动员。决赛时,8,名运动员再进行,10,枪射击,再将预赛成绩加上决赛成绩确定最后的名次,在,2008,年,8,月,10,日举行的第,29,届北京奥运会女子,10,米气手枪决赛中,进入决赛的,8,名运动员的预赛成绩和最后,10,枪的决赛成绩如下表,yyyy-M-,哪名运动员的发挥更稳定,?,最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩,492.3,环夺得金牌,预赛排在第,1,名的俄罗斯运动员纳塔利娅,帕杰林娜以总成绩,498.1,环获得银牌,预赛排在第,4,名的格鲁吉亚运动员妮诺,萨卢克瓦泽以总成绩,487.4,环的成绩获得铜牌,而预赛排在第,3,名的蒙古运动员卓格巴德拉赫,蒙赫珠勒仅以,479.6,环的成绩名列第,8,名,由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题,3.1,水平的度量,3.1.1,平均数,3.1.2,中位数和分位数,3.1.3,用哪个值代表一组数据?,第,3,章 用统计量描述数据,3.1.1,平均数,3.1,水平的度量,平均,指标的概念和作用,平均指标是用来反映同质总体各单位某一数量标志在一定时间、地点、条件下所达到的一般水平的综合指标。,平均指标的概念和作用,平均指标的作用主要表现在以下几个方面:,1,反映次数分布的集中趋势,2,用于同类现象在不同时空的对应关系,3,通过平均指标分析现象之间的依存关系,平均,指标的应用原则,1,在同质总体中计算和应用平均指标,2,用组平均数补充说明总平均数,3,用分布数列补充说明总平均数,也称为均值,常用的统计量之一,消除了观测值的随机波动,易受极端值的影响,根据总体数据计算的,称为平均数,记为,;根据样本数据计算的,称为样本平均数,记为,x,平均数,(,mean,),x,x,yyyy-M-,简单算数平均,(Simple mean),设一组数据为:,x,1,,,x,2,,,,,x,n,(,总体数据,x,N,),样本平均数,总体平均数,统计函数,AVERAGE,Excel,yyyy-M-,加权平均数,(Weighted mean),设各组的组中值为:,M,1,,,M,2,,,,,M,k,相应的频数为:,f,1,,,f,2,,,,,f,k,样本,加权平均:,总体,加权平均:,yyyy-M-,加权平均数,(,例题分析,),某电脑公司销售额数据分组表,按销售额分组,组中值,(,M,i,),频数,(,f,i,),M,i,f,i,140,150,150,160,160,170,170,180,180,190,190,200,200,210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,580,1395,2640,4725,3700,3315,2050,1720,900,1175,合计,120,22200,yyyy-M-,加权平均数,(,权数对均值的影响,),【,例,】,甲乙两组各有,10,名学生,他们的考试成绩及其分布数据如下,甲组: 考试成绩(,x,),: 0 20 100,人数分布(,f,):,1 1 8,乙组: 考试成绩(,x,),: 0 20 100,人数分布(,f,):,8 1 1,3.1.2,中位数和分位数,3.1,水平的度量,yyyy-M-,中位数,(,median,),排序后处于中间位置上的值。不受极端值影响,M,e,50%,50%,2.,位置确定,3.,数值确定,yyyy-M-,中位数的计算,(,数据个数为奇数,),【,例,3-3】,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250,1630,排,序,:,750 780 850 960,1080,1250,1500 1630 2000,位,置,:,1 2 3 4,5,6,7 8 9,中位数,=,1080,yyyy-M-,中位数的计算,(,数据个数为偶数,),【,例,3-3】,10,个家庭的人均月收入数据,排序,:,750 780 850 960,1080,1250,1500 1630 2000 2800,位置,:,1 2 3 4,5 6,7 8 9 10,统计函数,MEDIAN,Excel,yyyy-M-,四分位数,用,3,个点等分数据,(,quartile,),排序后处于,25%,和,75%,位置上的值,不受极端值的影响,Q,L,Q,M,Q,U,25%,25%,25%,25%,yyyy-M-,四分位数的计算,(,位置的确定,),方法,2,:较准确算法,(SPSS,的算法,),方法,1,:定义算法,yyyy-M-,四分位数的计算,(,位置的确定,),方法,3,:,其中, ,表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间,0.5,的位置上,方法,4,:,Excel,给出的四分位数位置的确定方法,如果位置不是整数,则按比例分摊位置两侧数值的差值,yyyy-M-,四分位数的计算,(,数据个数为奇数,),【,例,3-4】,9,个家庭的人均月收入数据,(4,种方法计算,),原始数据,:,1500,750 780 1080 850 960 2000 1250 1630,排,序,:,750,780 850,960 1080,1250 1500,1630 2000,位,置,:,1,2 3,4,5,6,7,8 9,方法,1,定义公式,yyyy-M-,四分位数的计算,(,数据个数为奇数,),【,例,3-4】,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750,780 850,960 1080 1250,1500 1630,2000,位,置,:,1,2 3,4,5,6,7 8,9,方法,2,SPSS,公式,yyyy-M-,四分位数的计算,(,数据个数为奇数,),【,例,3-4】,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排,序,:,750 780,850,960 1080 1250,1500,1630 2000,位,置,:,1,2,3,4,5,6,7,8,9,方法,3,4,分数公式,yyyy-M-,四分位数的计算,(,数据个数为奇数,),【,例,3-4】,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排,序,:,750 780,850,960 1080 1250,1500,1630 2000,位,置,:,1,2,3,4,5,6,7,8,9,方法,4,Excel,公式,统计函数,QUARTILE,Excel,众数,(,mode,),一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,m,o,统计函数,MODE,Excel,3.1.3,用哪个值代表一组数据?,3.1,水平的度量,yyyy-M-,众数、中位数和平均数的关系,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,yyyy-M-,众数、中位数、平均数的特点和应用,平均数,易受极端值影响,数学性质优良,实际中最常用,数据对称分布或接近对称分布时代表性较好,中位数,不受极端值影响,数据分布偏斜程度较大时代表性接好,众数,不受极端值影响,具有不惟一性,数据分布偏斜程度较大且有明显峰值时代表性较好,3.2,差异的度量,3.2.1,极差和四分位差,3.2.2,方差和标准差,3.2.3,比较几组数据的离散程度:,离散系数,第,3,章 用统计量描述数据,标志变异指标的概念和作用,1,标志变异指标的概念,标志变异指标也称为标志变动度,是反映总体各单位标志值的差异程度,反映总体次数分布中各标志值的变动范围或离散程度的综合指标。,标志变异指标的概念和,作用,2,标志变异指标的作用,(,1,)标志变动度可以衡量平均指标的代表性,(,2,)标志变异指标可以反映社会经济活动过程的稳定性和均衡性。,(,3,)标志变异指标可以用来进行产品质量检验与评价投资风险。,yyyy-M-,怎样评价水平代表值?,假定有两个地区每人的平均收入数据,其中甲地区的平均收入为,5000,元,乙地区的平均收入为,3000,元。你如何评价两个地区的收入状况?,如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?,要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在,3000,元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区。,yyyy-M-,怎样评价水平代表值?,仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越好,甲,乙,3.2.1,极差和四分位差,3.2,差异的度量,yyyy-M-,极差,(,range,),一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,计算公式为:,R,= max(,x,i,) - min(,x,i,),yyyy-M-,四分位差,(,quartile deviation,),也称为内距或四分间距,上四分位数与下四分位数之差:,Q,d,=,Q,U,Q,L,反映了中间,50%,数据的离散程度,不受极端值的影响,用于衡量中位数的代表性,25%,75%,3.2.2,方差和标准差,3.2,差异的度量,yyyy-M-,方差和标准差,(,variance,and,standard deviation,),数据离散程度的最常用测度值,反映各变量值与均值的平均差异,根据总体数据计算的,称为总体方差,(,标准差,),,记为,2,(),;根据样本数据计算的,称为样本方差,(,标准差,),,记为,s,2,(s),。,yyyy-M-,样本方差和标准差,(sample,variance,and,standard deviation,),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,注意:,样本方差用自由度,n,-1,去除,!,yyyy-M-,总体方差和标准差,(Population,variance,and,Standard deviation,),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,yyyy-M-,自由度,(degree of freedom),自由度的概念由统计学家,R.A Fisher,提出,是指数据个数与附加给独立的观测值的约束或限制的个数之差,从字面涵义来看,自由度是指一组数据中可以自由取值的个数,当样本数据的个数为,n,时,若样本平均数确定后,则附加给,n,个观测值的约束个数就是,1,个,因此只有,n,-1,个数据可以自由取值,其中必有一个数据不能自由取值,按着这一逻辑,如果对,n,个观测值附加的约束个数为,k,个,自由度则为,n,-,k,yyyy-M-,自由度,(degree of freedom),样本有,3,个数值,即,x,1,=2,,,x,2,=4,,,x,3,=9,,则,x,= 5,。当,x,= 5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,那么,x,3,则必然取,2,,而不能取其他值,为什么样本方差的自由度为什么是,n,-1,呢?因为在计算离差平方和时,必须先求出样本均值,x,,而,x,则是附件给离差平方和的一个约束,因此,计算离差平方和时只有,n,-1,个独立的观测值,而不是,n,个,样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差,s,2,去估计总体方差,2,时,它是,2,的无偏估计量,yyyy-M-,样本标准差,(,例题分析,),【,例,3-5】,计算计算,9,名员工的月工资收入的方差和标准差,1500 750 780 1080 850 960 2000 1250 1630,方差,标准差,统计函数,STDEV,Excel,yyyy-M-,标准分数,(,standard score,),1,.,也,称标准化值,2,.,对,某一个值在一组数据中相对位置的度量,3,.,可用于,判断一组数据是否有离群点,(outlier),用于对变量的标准化处理,均值等于,0,,方差等于,1,计算公式为,yyyy-M-,用,SPSS,对数据进行标准化,第,1,步:,选择,【,Analyze,】,下拉菜单,并选择,【,Descriptive statistics - Descriptive,】,选项进入主对话框,第,2,步:,在主对话框中将变量选入,【,Variables,】,,然后选中,【,Save standardized values as variables,】,。点击,【OK】,(SPSS,会将标准化后的变量以,“,Z,”,开头存放在原始变量工作表中,),对数据标准化,SPSS,yyyy-M-,标准分数,(,例题分析,),【,例,3-6】,9,个家庭人均月收入标准化值计算表,家庭编号,人均月收入(元),标准化值,z,1,2,3,4,5,6,7,8,9,1500,750,780,1080,850,960,2000,1250,1630,0.695,-1.042,-0.973,-0.278,-0.811,-0.556,1.853,0.116,0.996,yyyy-M-,经验法则,经验法则,表明:当一组数据对称分布时,约有,68%,的数据在平均数加减,1,个标准差的范围之内,约有,95%,的数据在平均数加减,2,个标准差的范围之内,约有,99%,的数据在平均数加减,3,个标准差的范围之内,yyyy-M-,经验法则,(,例题分析,),9,名员工月工资收入的经验法则,yyyy-M-,切比雪夫不等式,(,Chebyshevs inequality,),如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用,切比雪夫不等式提供的是,“,下界,”,,也就是,“,所占比例至少是多少,”,对于任意分布形态的数据,根据切比雪夫不等式,至少有,1-1/,k,2,的数据落在平均数加减,k,个标准差之内。其中,k,是大于,1,的任意值,但不一定是整数,yyyy-M-,切比雪夫不等式,(,Chebyshevs inequality,),对于,k,=,2,,,3,,,4,,该不等式的含义是,至少有,75%,的数据落在平均数加减,2,个标准差的范围之内,至少有,89%,的数据落在平均数加减,3,个标准差的范围之内,至少有,94%,的数据落在平均数加减,4,个标准差的范围之内,3.2.3,比较,几组数据的离散程度离散系数,3.2,差异的度量,yyyy-M-,离散系数,(,coefficient of variation,),1,.,标准差,与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,4,.,用于,对不同组别数据离散程度的比较,5,.,计算,公式为,yyyy-M-,离散系数,(,例题分析,),【,例,3-7】,评价哪名运动员的发挥更稳定,发挥比较稳定的运动员是塞尔维亚的亚斯娜,舍卡里奇和中国的郭文珺,发挥不稳定的运动员蒙古的卓格巴德拉赫,蒙赫珠勒和波兰的莱万多夫斯卡,萨贡,yyyy-M-,8,名运动员射击成绩的误差图,(,例题分析,),【Graphs】,【Error Bar】,【Simple】,【Data in Chart Are】,【Summaries of separate variables】,变量选入,【Error Bars】,【Bars Represent】,【Standard deviations】,【Multiplier】,框内输入所需的标准差倍数,【OK】,【,例子,】,3.3,分布形状的度量,偏态与峰态,第,3,章 用统计量描述数据,yyyy-M-,偏态,(,skewness,),统计学家,K.Pearson,于,1895,年首次提出。是指数据分布的不对称性,测度统计量是偏态系数,(,coefficient,of skewness),3.,偏态系数,=0,为对称分布;,0,为右偏分布;,0,为左偏分布,偏态系数大于,1,或小于,-1,,为高度偏态分布;偏态系数在,0.5,1,或,-1,-0.5,之间,为是中等偏态分布;偏态系数越接近,0,,偏斜程度就越低,计算公式,统计函数,SKEW,Excel,峰态,(,kurtosis,),统计学家,K.Pearson,于,1905,年首次提出。数据分布峰值的高低,测度统计量是峰态系数,(,coefficient,of kurtosis),峰态系数,=0,扁平峰度适中,峰态系数,0,为尖峰分布,计算公式,统计函数,KURT,Excel,yyyy-M-,Excel,中的统计函数,MODE,计算众数,MEDIAN,计算中位数,QUARTILE,计算四分位数,AVERAGE,计算平均数,HARMEAN,计算简单调和平均数,GEOMEAN,计算几何平均数,AVEDEV,计算平均差,STDEV,计算样本标准差,STDEVP,计算总体标准差,SKEW,计算偏态系数,KURT,计算峰态系数,TRIMMEAN,计算切尾均值,yyyy-M-,用,Excel,和,SPSS,计算描述统计量,SPSS,【Analyze】,【Descriptive statistics】,【Descriptives】,【variables】(,选入变量,),【Options】(,选择需要的描述统计量,),【Continue】,【OK】,(,注:使用,【Analyze】,【Descriptive statistics】,【,Explore,】(,或,【,Frequencies,】),【Statistics】,,选择相应的统计量亦可,),SPSS,Excel,【,工具,】,【,数据分析,】,【,描述统计,】,【,确定,】,【,输入区域,】,【,输出选项,】,【,汇总统计,】,【,确定,】,Excel,SPSS,Excel,yyyy-M-,用,Excel,和,SPSS,计算描述统计量,Excel,输出的描述统计量,yyyy-M-,用,Excel,和,SPSS,计算描述统计量,SPSS,【,Frequencies,】,输出的描述统计量,yyyy-M-,数据的描述统计量,数据特征,水平,平均数,中位数和分位数,众数,差异,极差和四分位差,方差或标准差,离散系数,分布形状,偏态系数,峰态系数,yyyy-M-,本章小节,度量水平的统计量,度量差异的统计量,度量分布形状的统计量,各统计量的的特点及应用场合,用,Excel,和,SPSS,计算描述统计量,总量,指标与相对指标,总量,指标,1,总量指标的概念,总量指标是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标,其表现形式是具有计量单位的绝对数。,总量指标数值大小的受总体范围大小的制约。总体范围大,统计指标数值就大,反之,则小。,总量指标,2,总量指标的种类,(,1,)按总量指标所反映现象的内容不同,可分为两类:总体单位总量与总体标志总量。,总体单位总量是指所研究总体中所有总体单位的个数。,总体标志总量是指所研究总体中某一特征的总数量。,总量指标,(,2,)按总量指标所反映的时间状态不同,可分为时期指标和时点指标。,时期指标是反映现象在一段时间内的总量。,时点指标反映的是现象在某一时刻上的总量。,时期指标和时点指标的特点,时期指标数值的大小与时期的长短有直接关系,各时期数值可以直接相加,其资料搜集要通过经常性调查取得。,时点指标数值的大小与现象活动过程的长短没有直接关系,各时点指标数值不能直接相加,其资料搜集是通过一次性调查来完成的。,总量指标,(,3,)总量指标按计量单位的不同,可分为实物指标、价值指标和劳动量指标。,实物指标是根据事物的自然属性和物理属性单位计量的统计指标。它使用的计量单位有自然单位、度量衡单位、双重单位或复合单位、标准实物单位。,价值指标是以货币作为价值尺度计量社会物质财富或劳动成果的统计指标。,劳动量指标是以劳动时间作为计量单位的统计指标,一般用工时、工日表示。,总量指标,3,总量指标的计算,(,1,)直接计量法。,(,2,)推算和估算法。,因素关系推算法:是利用社会经济现象的各个影响因素之间的关系,根据已知因素来推算未知因素的资料的方法。,比例关系推算法:是利用各种相关资料的比例关系进行推算的一种方法。,平衡关系推算法:是利用各种平衡关系来推算未知指标的方法。,相对,指标,1,相对指标的概念和作用,相对指标也称相对数是用两个有联系的指标进行对比的比值来反映现象数量特征和数量关系的综合指标。,相对指标,相对指标的主要作用有以下几个方面:,(,1,)说明总体内在的结构特征,为深入分析事物的性质提供依据。,(,2,)现象的绝对差异抽象化,使原来不能直接比较的总量指标可以进行比较。,(,3,)对指标说明现象的相对水平,表明现象的发展过程和程度,反映事物发展变化的趋势。,相对指标的表现形式,相对指标的具体数值大多采用系数(倍数)、成数、百分数和千分数等表示,也有一些相对指标用复合单位表示,。,相对,指标的种类,(,1,)计划完成相对数,计划完成相对数也称计划完成百分数,它是将某一时期的实际完成数与同期计划数进行对比,反映计划执行情况的相对揩标,一般用百分数表示。计算公式如下:,例,1,某房地产公司某年计划商品房销售额为,16000,万元,实际完成,15300,万元,则计划完成情况相对指标为:,对于计划完成程度的评价,实际完成数超过计划好,还是低于计划好,这要根据计划指标的性质和内容而定。,相对,指标的种类,在经济现象的分析研究中,计划任务数不仅可以用总量指标表示,而且可以用相对指标和平均指标表示。当计划指标为相对指标时,其计算公式为:,相对,指标的种类,(,2,)结构相对数,结构相对数是总体内某一部分数值与总体全部数值对比的比值,反映总内部的构成和类型特征,一般用百分数或系数表示。,相对,指标的种类,企业,销售量(套),市场占有率(,%,),A,430,50.00,B,280,32.56,C,110,12.79,D,40,4.65,合计,860,100.00,相对,指标的种类,(,3,)比例相对数,比例相对数是总体内某一部分数值与另一部分数值对比所得到的相对数,常用系数或倍数表示。计算公式为:,相对,指标的种类,例,某房地产开公司一个新的开发项目中,可销售建筑总面积为,320500,,其中,普通小高层面积为,308205,,联排别墅面积为,12295,,普通小高层面积与联排别墅面积之间的比例为:,相对,指标的种类,(,4,)比较相对数,比较相对数也称静态相对数,它是将某一总体的指标与另一总体同类指标对比的比值,反映同类事物在同一时间不同空间的差异程度,目的是观察同类现象之间的对比关系。计算公式为:,相对,指标的种类,例,根据最近几年某房地产公司与行业竞争对手之间的销售额资料,计算比较相对数,如表所示。,年份,销售额(万元),本公司,竞争对手,对比(,%,),2003,250000,180000,139,2004,380000,220000,173,2005,500000,300000,167,相对,指标的种类,(,5,)强度相对数,强度相对数是将两个有联系但不同的指标对比而得到的比值,反映现象的强度、密度和普及程度。,强度相对数是一种特殊形式的相对数,一般采取复名数单位表示。计算公式为:,相对,指标的种类,有些强度相对数的分子和分母可以互换,因而有正指标与逆指标两种形式。,正指标比值的大小与其反映的强度、密度和普及程度成正比;,逆指标比值的大小与其反映的强度、密度和普及程度成反比。,相对,指标的种类,例,某地区,2005,年总人口为,1200,万人,有,60000,个零售商业机构,则该地区零售商业网点密度指标为:,某地区零售商业网点密度 (个万人),某地区零售商业网点密度 (个万人),相对,指标的种类,相对指标的种类,(,6,)动态相对数,动态相对数是将总体不同时期的同一类指标对比而计算的比值,说明事物发展变化的程度。通常将作为比较基础的时期称为基期,与基期对比的时期称为报告期。计算公式为,相对指标的种类,例,某房地产公司商品房销售额,2005,年为,500000,万元,,2004,年为,380000,万元,其发展速度为:,应用,相对指标的原则,(,1,)可比性原则,(,2,)总量指标与相对指标结合运用原则,(,3,)多种相对指标综合运用原则,4.1,集中趋势的度量,4.1.1,分类数据:众数,4.1.2,顺序数据:中位数和分位数,4.1.3,数值型数据:平均数,4.1.4,众数、中位数和平均数的比较,集中趋势,(central tendency),一,组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,分类数据:众数,众数,(,mode,),一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可用于顺序数据和数值型数据,众数,(,不惟一性,),无众数,原始数据,: 10 5 9 12 6 8,一个众数,原始数据,: 6,5,9 8,5 5,多于一个众数,原始数据,: 25,28 28,36,42 42,分类数据的众数,(,例题分析,),不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比,(%),果汁,矿泉水,绿茶,其他,碳酸饮料,6,10,11,8,15,0.12,0.20,0.22,0.16,0.30,12,20,22,16,30,合计,50,1,100,解,:,这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值,所调查的,50,人中,购买碳酸饮料的人数最多,为,15,人,占总被调查人数的,30%,,因此众数为“可口可乐”这一品牌,即,M,o,碳酸饮料,顺序数据的众数,(,例题分析,),解:,这里的数据为顺序数据。变量为“回答类别”,甲城市中对住房表示不满意的户数最多,为,108,户,因此众数为“不满意”这一类别,即,M,o,不满意,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,合计,300,100.0,顺序数据:中位数和分位数,中位数,(,median,),排序后处于中间位置上的值,M,e,50%,50%,不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小,即,中位数,(,位置和数值的确定,),位置确定,数值确定,顺序数据的中位数,(,例题分析,),解:,中位数的位置为,(300+1)/2,150.5,从累计频数看,中位数在“一般”这一组别中,中位数为,M,e,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的中位数,(9,个数据的算例,),【,例,】,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750 780 850 960,1080,1250 1500 1630 2000,位 置,:,1 2 3 4,5,6 7 8 9,中位数,1080,数值型数据的中位数,(10,个数据的算例,),【,例,】,:,10,个家庭的人均月收入数据,排 序,:,660,750 780 850,960 1080,1250 1500 1630 2000,位 置,:,1 2 3 4,5 6,7 8 9 10,四分位数,(,quartile,),排序后处于,25%,和,75%,位置上的值,不受极端值的影响,计算公式,Q,L,Q,M,Q,U,25%,25%,25%,25%,顺序数据的四分位数,(,例题分析,),解:,Q,L,位置,=,(300)/4,=,75,Q,U,位置,=,(3300)/4,=,225,从累计频数看,,Q,L,在“不,满意”这一组别中;,Q,U,在,“一般”这一组别中,四分位数为,Q,L,=,不满意,Q,U,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的四分位数,(9,个数据的算例,),【,例,】,:,9,个家庭的人均月收入数据,(4,种方法计算,),原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750,780 850,960 1080,1250 1500,1630 2000,位 置,:,1,2 3,4 5,6,7,8 9,数值型数据:平均数,平均数,(,mean,),也称为均值,集中趋势的最常用测度值,一组数据的均衡点所在,体现了数据的必然性特征,易受极端值的影响,有简单平均数和加权平均数之分,根据总体数据计算的,称为平均数,记为,;根据样本数据计算的,称为样本平均数,记为,x,x,简单平均数,(Simple mean),设一组数据为:,x,1,,,x,2,,,,,x,n,(,总体数据,x,N,),样本平均数,总体平均数,加权平均数,(Weighted mean),设各组的组中值为:,M,1,,,M,2,,,,,M,k,相应的频数为:,f,1,,,f,2,,,,,f,k,样本,加权平均,总体,加权平均,加权平均数,(,例题分析,),某电脑公司销售量数据分组表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),M,i,f,i,140,150,150,160,160,170,170,180,180,190,190,200,200,210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,580,1395,2640,4725,3700,3315,2050,1720,900,1175,合计,120,22200,几何平均数,(,geometric mean,),n,个变量值乘积的,n,次方根,适用于对比率数据的平均,主要用于计算平均增长率,计算公式为,5.,可看作是平均数的一种变形,几何平均数,(,例题分析,),【,例,】,一位投资者购持有一种股票,在,2000,、,2001,、,2002,和,2003,年收益率分别为,4.5%,、,2.1%,、,25.5%,、,1.9%,。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,众数、中位数和平均数的比较,众数、中位数和平均数的关系,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,众数、中位数、平均数的,特点和应用,众数,不受极端值影响,具有不惟一性,数据分布偏斜程度较大且有明显峰值时应用,中位数,不受极端值影响,数据分布偏斜程度较大时应用,平均数,易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用,3,2,平均指标,3,2,2,平均指标的计算,1,算术平均数,算术平均数的基本形式是总体单位某一数量标志值之和(总体标志总量)除以总体单位数,其计算公式为:,算术平均数与强度相对数之间的区别:,强度相对数是两个有联系的不同总体的总量指标对比,这两个总量指标之间没有依附关系,只是在经济内容上存在客观联系。,算术平均数则是一个总体内的标志总量与单位总数的对比,用来说明总体单位某一标志的一般水平。,(,1,)简单算术平均数,根据未分组的原始统计资料,将总体各单位的标志值简单加总形成总体标志总量,而后除以总体单位总数,这种方法为简单算术平均法。计算公式为:,(,2,)加权算术平均数,根据分组整理而形成的变量数列计算算术平均数的方法,称为加权算术平均法。计算公式为:,家庭月收入,(,元,),组中值,人数(人),3000,4000,4000,5000,5000,6000,6000,7000,7000,8000,3500,4500,5500,6500,7500,14,17,10,5,4,49000,76500,55000,32500,30000,合 计,50,243000,简单算术平均数只反映一个因素,即变量值的影响,而加权算术平均数则反映两个因素,即变量值和次数的共同影响。,当标志值较大而次数也较多时,平均数就接近于标志值大的一方;当标志值比较小,而次数较多时,平均数就接近于标志值小的一方,在变量值既定的情况下,次数对平均数的大小起着权衡轻重的作用,所以在计算加权算术平均数时,通常把次数称为权数。,当各组次数相同时,次数就失去权数的作用,此时加权算术平均数与简单算术平均数相等。,加权算术平均数的权数有两种表现形式:一种是绝对数,另一种是相对数。但两种权数的性质相同,由此而计算的平均指标也相同。以相对权数计算平均指标的公式为:,家庭月收入,(,元,),组中值,人数(人),3000,4000,4000,5000,5000,6000,6000,7000,7000,8000,3500,4500,5500,6500,7500,14,17,10,5,4,0.28,0.34,0.20,0.10,0.08,980,1530,1100,650,600,合 计,50,1.00,4860,2,调和平均数,调和平均数是标志值倒数的算术平均数的倒数,又称倒数平均数。有简单调和平均数和加权调和平均数两种。,(,1,)简单调和平均数,如果掌握的资料是未分组的总体各单位的标志值和标志总量,则用简单调和平均法计算平均指标。其计算公式为:,例,在市场上购买某种建筑材料,甲级每千克,2.0,元,乙级每千克,1.8,元,丙级每千克,1.0,元,,现各花,1,元购买各级材料,则平均每千克的价格为:,(,2,)加权调和平均数,如果掌握的资料是分组的总体各单位的标志值和标志总量,而未掌握各组单位数,则用加权调和平均法计算平均指标。其计算公式为:,例,某房地产公司销售三批商品房,三批商品房的价格和销售额资料如下表所示,试计算这三批商品房的平均价格。,批次,价格(元),销售额(元),第一批,第二批,第三批,4000,4500,4800,20000000,18000000,21600000,5000,4000,4500,合计,-,59600000,13500,3,、几何平均数,几何平均数是个变量值乘积的次方根。几何平均数常用于发展速度,比率等变量的平均,因为这类比率的变量,变量值的连乘积等于总比率,故不能用算术平均方法,而只能用几何平均方法计算其平均指标。,(,1,)简单几何平均,简单几何平均是个变量值乘积的次方根。简单几何平均的计算公式如下:,例,房屋的构造主要由基础、墙和柱、楼底层、屋顶、楼梯、门窗六大构件所组成,现对某房地产开发公司所开发的一批商品房进行质量检测,其各个部件的优良率如表所示,试求这批商品房的平均优良率。,房屋构件,基础,墙和,楼底层,屋顶,楼梯,门窗,优良率(,%,),98,97,96,95,94,99,(,2,)加权几何平均,当各个变量值出现的次数不等时,计算几何平均数应采用加权的形式,加权几何平均的计算公式如下:,例,投资银行某笔投资的年利率是按复利计算的,若将过去,25,年的年利率资料整理为如表所示的变量数列,求,25,年的平均年利率。,年利率(,%,),本利率(,%,),年数,3,4,8,10,15,103,104,108,110,115,1,4,8,10,2,合计,25,4,中位数,中位数是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志值。它把全部标志值分成两部分,一半标志值比它小,一半标志值比它大。,(,1,)由未分组资料计算中位数,(,2,)由分组资料计算中位数,由组距数列求中位数,同样要先按中位数的位置,=,的公式确定中位数所在组,然后按照下限公式或上限公式计算中位数。,例,根据某房地产公司对,50,名购房消费者家庭月收入调查资料,计算购房消费者家庭月收入的中位数。,家庭月收入,(,元,),人数(人),比率(,%,),向上累计,向下累计,人数(人),比率(,%,),人数(人),比率(,%,),3000,4000,4000,5000,5000,6000,6000,7000,7000,8000,14,17,10,5,4,28,34,20,10,8,14,31,41,46,50,28,62,82,92,100,50,36,19,9,4,100,72,38,18,8,合 计,50,100,5,众数,众数是总体中各单位在某一标志上出现次数最多的变量值。,由单项数列计算众数时,把次数最多的组定为众数组,该组的变量值即为众数。,由组距数列计算众数,也要先确定众数组,然后利用上限公式或下限公式计算众数。,例,根据某房地产公司对,50,名购房消费者家庭月收入调查资料,计算购房消费者家庭月收入的众数。,次数最多的组是第二组,即第二组为众数所在组,将有关数据代入上述两公式计算众数。根据下限公式计算:,6,算术平均数、中位数、众数的特点,算术平均数、中位数、众数这,三种平均数都可以表明总体单位的一般水平,但是三种平均数也具有不同的特点,,从而使它们可以应用于不同的场合。,而算术平均数的大小受总体中极端数值的影响。,中位数只是考虑各单位数值在总体中的顺序变化,因此,它受极端数值的影响不大。,众数是总体中出现次数最多的数值,它只考虑总体中各数值出现频数的多少,不受极端数值的影响,但当总体中出现多个众数时,众数便没有意义。,4.2,离散程度的度量,4.2.1,分类数据:异众比率,4.2.2,顺序数据:四分位差,4.2.3,数值型数据:方差和标准差,4.2.4,相对离散程度:离散系数,离中趋势,数据分布的另一个重要特征,反映各变量值远离其中心值的程度,(,离散程度,),从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值,分类数据:异众比率,异众比率,(,variation ratio,),1.,对分类数据离散程度的测度,2.,非众数组的频数占总频数的比例,3.,计算公式为,4.,用于衡量众数的代表性,异众比率,(,例题分析,),解:,在所调查的,50,人当中,购买其他品牌饮料的人数占,70%,,异众比率比较大。因此,用“碳酸饮料”代表消费者购买饮料品牌的状况,其代表性不是很好,不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比,(%),果汁,矿泉水,绿茶,其他,碳酸饮料,6,10,11,8,15,0.12,0.20,0.22,0.16,0.30,12,20,22,16,30,合计,50,1,100,顺序数据:四分位差,四分位差,(,quartile deviation,),对顺序数据离散程度的测度,也称为内距或四分间距,上四分位数与下四分位数之差,Q,d,=,Q,U,Q,L,反映了中间,50%,数据的离散程度,不受极端值的影响,用于衡量中位数的代表性,四分位差,(,例题分析,),解:,设非常不满意为,1,不满意为,2,一般为,3,满意为,4,非常满意为,5,。 已知,Q,L,=,不满意,=,2,Q,U,=,一般,=,3,四分位差为,Q,d,=,Q,U,-,Q,L,=,3 2,=,1,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据:方差和标准差,极差,(,range,),一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,R,= max(,x,i,) - min(,x,i,),计算公式为,平均差,(,mean deviation,),各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,平均差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,2
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!