数据的描述统计数值法课件

上传人:txadgkn****dgknqu... 文档编号:241320285 上传时间:2024-06-17 格式:PPTX 页数:52 大小:2.74MB
返回 下载 相关 举报
数据的描述统计数值法课件_第1页
第1页 / 共52页
数据的描述统计数值法课件_第2页
第2页 / 共52页
数据的描述统计数值法课件_第3页
第3页 / 共52页
点击查看更多>>
资源描述
数据的描述数据的描述统计统计数数值值法法数据的描述统计数值法3-2Chapter Outline3.1数据集中趋势的度量3.2数据离散程度的度量3.3百分位数、四分位数与盒式图3.4加权平均与分组数据数值3.5几何平均数3.6 偏度与峰度3-2Chapter Outline3.1数据集中趋势的度3-33.1 描述集中趋势n除了数据的分布外,我们也想知道数据的集中趋势n数据的集中趋势反映了数据的中心n当代美国人的平均人是女人,每个女人平均有2.1个孩子,且这些女人住在平均价值是80000美元的住房中。3-33.1 描述集中趋势除了数据的分布外,我们也想知道数据3-4参数与统计量n参数:总体的描述性测度,n总体的均值(期望值)n总体方差n总体概率n统计量:样本的函数且不含有未知总体参数,关于样本的描述性测度,n样本均值、方差n样本比例3-4参数与统计量参数:总体的描述性测度,3-5集中趋势测度量Mean,均值Median,Md中位数Mode,Mo众数3-5集中趋势测度量Mean,均值3-6均值Population X1,X2,XNm总体均值(Population Mean)Sample x1,x2,xn样本均值(Sample Mean)3-6均值Population X1,X2,XNm3-7Example:汽车里程油耗案例计算如下5个数的平均数30.8,31.7,30.1,31.6,32.13-7Example:汽车里程油耗案例计算如下5个数的平3-8中位数n将数据从小到大排序,排在正中间的数,即有50%的数大于它,有50%的数小于它n如果数据个数是奇数,中位数就是排在正中间的数n如果数据个数是偶数,中位数是两个中间数的均值3-8中位数将数据从小到大排序,排在正中间的数,即有50%的3-9Example:汽车里程油耗案例n计算以下5个数的中位数:30.8,31.7,30.1,31.6,32.1n排序:30.1,30.8,31.6,31.7,32.1n奇数,中位数是31.63-9Example:汽车里程油耗案例计算以下5个数的中位3-10众数n总体或样本中出现次数最多的变量值n频数分布图中最大频数所对应的变量值n最高频数可以多次出现n当有两个众数时,数据称为双峰分布n当有多个众数时,数据称为多峰分布n定性数据(分类数据),其众数是某种类别n众数用来描述定性数据时更有用3-10众数总体或样本中出现次数最多的变量值3-11三者之间的关系Figure 3.33-11三者之间的关系Figure 3.33-123.2 离散程度的测量Figure 3.133-123.2 离散程度的测量Figure 3.133-13四种常用的统计量Range 极差极差Variance 方差方差Standard 标准差标准差DeviationCoefficient 变异系数变异系数of variant 3-13四种常用的统计量Range 极差3-14极差n最大值与最小值间的差n测度数据的波动幅度n温差n股票的振幅3-14极差最大值与最小值间的差3-15方差3-15方差3-16标准差3-16标准差3-17Example:Chriss Class Sizes This Semester3-17Example:Chriss Class Siz3-18Example:Sample Variance and Standard Deviation3-18Example:Sample Variance a3-19正态分布总体的经验法则Figure 3.143-19正态分布总体的经验法则Figure 3.143-20 经验法则表明:当一组数据近似正态分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 3-20 经验法则表明:当一组数据近似正态分布时3-21标准分(z Scores)n计算公式n对某一个数值在一组数据中相对位置的度量n可用于判断一组数据是否有离群点n无量纲及标准化处理3-21标准分(z Scores)计算公式高考的标准分n T=500+100Z考号 姓名 语文 数学 外语 物理 理综 综合分10050516 张华 592 598 642 581 619 636 百分等级 821 837 922 791 883 913 高考的标准分考号 姓名 语文23IQ分数的标准分含义nIQ分数具有正态分布,其均值为100,标准差为15 nIQ分数在85-115之间的人士占多大百分比nIQ分数超过125的人士占多大百分比 23IQ分数的标准分含义IQ分数具有正态分布,其均值为100变异系数(coefficient of variation)n标准差与其相应的均值之比n对数据相对离散程度的测度n用于对不同组别数据离散程度的比较n可以用来度量风险n计算公式为变异系数(coefficient of variation案例:哪种基金的收益波动大?nRS internet age 基金的平均年收益率10.93%,标准差是41.96%;nFranklin income A基金的平均年收益率13%,标准差是9.36%;nJacob internet基金的平均年收益率34.45%,标准差是41.16%3-25案例:哪种基金的收益波动大?RS internet age 变异系数计算nRS Internet Age:41.96/10.93=3.839nFranklin Income A:9.36/13=0.72nJacob Internet:41.14/34.45=1.194nRS Internet 风险最大,Jacob 次之,Franklin风险最小3-26变异系数计算RS Internet Age:41.96 基尼系数(Gini coefficient)3-27基尼系数基尼系数=A/(A+B)基尼系数(Gini coefficient)3-27基尼系数3-28世界的基尼系数:20093-28世界的基尼系数:20093-29中国的基尼系数:1978-20083-29中国的基尼系数:1978-20083-303-303-313.3 百分位数、四分位数与盒式图n将数据递增排序,对于某个数值X,如果有p%的数据小于它,则称X为第p百分位数(percentile)n第10百分位数n第90百分位数3-313.3 百分位数、四分位数与盒式图将数据递增排序,对n第25百分位数称为下四分位数或第一四下四分位数或第一四分位数(分位数(first quartile)记为)记为Q1 n中位数、第50百分位数、第二四分位数n第75百分位数称为上四分位数或第三四四分位数或第三四分位数(分位数(third quartile)记为)记为Q3 n(Q3-Q1)内距 或四分位差(interquartile range)记为)记为 IQR3-32第25百分位数称为下四分位数或第一四分位数(first qu3-33计算百分位数1.将数据按递增排序2.计算指数i=(p/100)n,n为样本容量3.如果i不是整数,取比i的整数,这个整数表示p百分位数的位置4.如果i是整数,则p百分位数是递增顺序排列中位置i与i+1的平均值3-33计算百分位数将数据按递增排序3-34Example(p=10th Percentile)ni=(10/100)12=1.2n不是整数,取2n第10百分位数为11,0707,52411,07018,21126,81736,55141,28649,31257,28372,81490,416 135,540 190,2503-34Example(p=10th Percentile3-35五数概括法1.最小值2.第一四分位数Q13.中位数Md4.第三四分位数Q35.最大值3-35五数概括法最小值 盒子-胡须图(Box-and-Whiskers Plots)n五数概括的一种扩展,用Q1、Md、Q3以及四分位差绘制n随机抽取20顾客对某品牌电脑的满意度进行评分(1-10分)3-36135578888889999910101010 盒子-胡须图(Box-and-Whiskers Plot计算nQ1=7.5,Md=8,Q3=9,IQR=1.5n内栏(inner fence):(Q1-1.5IQR)至(Q3+1.5IQR)区间n外栏(outer fence):(Q1-3IQR)至(Q3+3IQR)区间n胡须的画法:找到Q1到内栏间的最小值以及Q3到内栏间的最大值3-37计算Q1=7.5,Md=8,Q3=9,IQR=1.53-37找出异常值n轻微异常值(mild outlier):内栏与外栏间的数值n极端异常值(extreme outlier):外栏之外的数值3-38找出异常值轻微异常值(mild outlier):内栏与外栏3-39Figure 3.193-39Figure 3.193-40MegaStat绘制的盒式图3-403-413.4 加权与分组数据n某些数值相对于其它数值可能更重要n变量值的重要程度,通常称为权重(weight)n加权均值与加权方差3-413.4 加权与分组数据某些数值相对于其它数值可能更重案例:支持率的计算民调地区民调地区选民(百万)选民(百万)支持率支持率东北部26.940.1%南部50.647.2%中南部34.645.1%西部32.539.2%3-42案例:支持率的计算民调地区选民(百万)支持率东北部26.943-43分组数据的统计描述n概括成频数分布或直方图的数据n原始数据无法观测到,只能看到每组的上下限和频数n利用组中值和频数计算均值和方差n属于加权形式3-43分组数据的统计描述概括成频数分布或直方图的数据3-44分组数据的均值和方差3-44分组数据的均值和方差453.5 几何平均数(geometric mean)1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均,尤其是时序数据3.主要用于计算平均增长率、平均收益率4.计算公式为5.可看作是均值的一种变形453.5 几何平均数(geometric mean)n 46n一位投资者购持有一种股票,在2000、2001、2002和 2003年 收 益 率 分 别 为 4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 算算术术平均:平均:几何平均:几何平均:案例:股票投资平均收益率46一位投资者购持有一种股票,在2000、2001、200247平均发展速度、增长速度通常用几何平均法求得。计算公式为:47平均发展速度、增长速度通常用几何平均法求得。计算公式为:案例:人口2000年-2007年平均增长率2000年2001年2002年2003年2004年2005年2006年2007年1267431276271284531292271299881307561314481321293-48案例:人口2000年-2007年平均增长率2000年2001493.6 偏度与峰度1.统计学家Pearson于1895年首次提出偏度(skewness)2.数据分布偏斜程度的测度n偏态系数=0为对称分布n偏态系数 0为右偏分布n偏态系数 0为左偏分布493.6 偏度与峰度统计学家Pearson于1895年50偏态系数(skewness coefficient)1.根据原始数据计算2.根据分组数据计算50偏态系数(skewness coefficient)51峰态(kurtosis)1.统计学家Pearson于1905年首次提出2.数据分布相对于正态分布的尾部薄厚程度的测度3.峰态系数=3峰度适中4.峰态系数3为厚尾分布51峰态(kurtosis)统计学家Pearson于19052峰态系数(kurtosis coefficient)1.根据原始数据计算2.根据分组数据计算52峰态系数(kurtosis coefficient)
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!