《样本特征数》PPT课件.ppt

上传人:tia****nde 文档编号:13120511 上传时间:2020-06-05 格式:PPT 页数:25 大小:206KB
返回 下载 相关 举报
《样本特征数》PPT课件.ppt_第1页
第1页 / 共25页
《样本特征数》PPT课件.ppt_第2页
第2页 / 共25页
《样本特征数》PPT课件.ppt_第3页
第3页 / 共25页
点击查看更多>>
资源描述
第四章样本特征数,第一节集中位置量数一、定义:集中位置量数:反映一群性质相同的观察值的平均水平或集中趋势的统计指标。二、集中位置量数的种类(一)众数一组数据中出现频数最多的变量值,称为众数mode,Mo表示。众数主要用于测度分类数据的集中趋势,一般情况下载数据量较大的情况下,众数才有意义。,例:计算“饮料品牌”的众数Excel数据五种不同可乐的比例.xls。(二)中位数和分位数1、中位数(1)定义:一组数据排序后处于中间位置上的变量值,称为中位数(median),用Me表示。(2)作用:主要用于测度顺序数据或数值型数据的集中趋势。,(1)计算方法中位数位置=(n+1)/2若n为奇数时正好是位于正中间的那个变量值;n为偶数时则是正中间那两个变量值得平均值。例:对于数值型数据60.263.563.866.268.168.869.9则,第四个数66.2为中位数。对于数值型数据10.210.3510.8410.6810.9211.0511.2111.38则中位数=(10.68+10.92)/2=10.8,2、四分位数(1)定义:一组数据排序后处于25%和75%位置上的值,称为四分位数,也称四分位点。(2)计算方法:设下四分位数为QL,上四分位数为QU,根据四分位数的定义有:QL位置=n4QU位置=3n4例4.1.1:在某城市随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)计算人均月收入的四分位数。,数据如下:1500;750;780;1080;850;960;2000;1250;1630首先进行排序:750;780;850;960;1080;1250;1500;1630;2000解:QL位置=n4=2.25,即QL在第二个数值(780)和第三个数(850)之间0.25的位置上,因此QL=780+(850-780)0.25=797.5,QU=3n4=394=6.75,即在第六个数值(1250)和第七个数(1500)之间0.75的位置上,因此QL=1250+(1500-1250)0.75=1437.5(3)作用在排序数据中,至少有25%的数据将小于QL,至少有75%的数据将小于QU,而至少有25%将大于QU,大约有一半的数据在QL与QU之间。通过四分位数我们可以对数据的分布有一个大概的了解。.Excel数据计算四分位数数据.xls,(三)平均数(mean)(1)定义:一组数据相加后除以数据的个数而得到的结果,称为平均数,也称均值。意义:平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,只适用于数值型数据。(2)种类简单的平均数(simplemean).Excel数据100名学生1500米成绩.xls,加权平均数(weightedmean)根据分组数据计算平均数。设原始数据被分成k组,各组的组中值分别用M1,M2,Mk表示,各组变量出现的频数分别用f1,f2,fk表示,fi为样本容量,则加权平均数的计算公式为:例:.Excel数据加权平均数的计算.xls,几何平均数(geometricmean)计算公式:作用几何平均数主要用于比率的计算,在实际应用中,几何平均数主要用于计算平均增长率。例4.1.2:某水泥厂生产企业1999年水泥为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年比2001年相比增长率为20%。求各年的年平均增长率。,解:由公式可得114.91-100%=14.91%,第二节离中位置量数,集中趋势是数据分布的一个特征,它所反映的是各变量向其中心值的聚集程度。而各变量之间差异程度如何,则需要考察数据的分散程度。数据的分散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值得程度,因此也称离中趋势。,一、分类数据:异众比率定义:非众数组的频数占总频数的比率,称异众比率(variationratio)。用Vr表示。异众比的计算公式:Vr=(fi-fm)/fi=1-fm/fifi表示变量值的总频数,fm表示众数组的频数。例4.2.1:五种不同饮料的异众比。分类数据的整理.xls,Vr=(50-15)50=0.7=70%说明在调查的50人中购买其他品牌饮料的人数占70%,异众比较大,因此,用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性不是很好。二、顺序数据:四分位差定义:上四分位数与下四分位之差,称为四分位差(quartiledeviation)。用Qd表示。,计算公式:Qd=Qu-QL例4.2.2:利用上述公式计算第一节中家庭人均月收入的四分位差。根据例4.1.1:QL=797.5,Qu=1437.5四分位差为:Qd=1437.5-797.5=640意义:四分位差反映了中间50%数据的离散程度,其数值越小,说明中间数据越集中,数据越大,说明中间数据越分散。,三、数值型数据:方差和标准差(一)极差定义:一组数据的最大值与最小值之差,称为极差(range)也称全距用R表示。R=max(xi)-min(xi)(二)平均差定义:各变量值与其平均数离差绝对值的平均数,也称为平均差(meandeviation),用Md表示。,计算公式:例4.2.3100名学生1500米成绩.xls(三)方差定义:各变量值与其平均数离差平方的平均数,称为方差(variance)。计算公式:100名学生1500米成绩.xls,标准差方差的平方根,称为标准差(standdeviation)样本标准差的计算计算样本标准差的函数为:STDEV。例4.2.4某电脑公司四个月销售数据.xls(四)相对离散程度:离散系数定义:一组数据的标准差与其相应的平均数之比,称为离散系数(coefficientofvariation),也称变异系数,用Vs表示。,计算公式:例4.2.5:某管理局抽查了所属的8家企业,其产品销售数据如下表,试比较产品销售额与销售利润的离散程度。某管理局所属8家企业的产品销售数据.xls,第三节偏度与峰度的统计度量,导入集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称,偏斜的程度以及分布的扁平程度。偏态和峰态就是对分布形状的测度。,一、偏态及其测度定义:数据分布的不对称性,称为偏态(skewness)定义数据分布不对称性的度量值,称为偏态系数(coefficientofskewness),记作SK。计算公式:例4.3.1100名学生1500米成绩.xls结论:若SK=0则数据分布为对称;若SK0,则数据分布向平均数右侧偏斜;若SK0,则数据分布向平均数左侧偏斜;若-0.5SK0时为尖峰分布;当K0时为平峰分布。,例4.3.2试计算某电脑公司销售分布的峰态。某电脑公司四个月销售数据.xls数据分析工具:描述统计本章介绍的数据分布特征的各种测度值,其中多数可以通过Excel【数据分析】工具中【描述统计】命令得出计算结果。例4.3.3试用上述命令计算100名学生1500米成绩分布的各种特征测度值。100名学生1500米成绩.xls,Excel中描述统计的各种命令函数AVEDEV计算平均差AVERAGE计算平均数GEOMEAN计算几何平均数KURT计算峰度系数MODE计算众数MEDIAN计算中位数QUARTILE计算百分位数SKEW计算偏态系数STDEV计算样本标准差STDEVP计算总体标准差TRIMMEAN计算切尾均值,小结,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!