第3章--数据特征描述课件

上传人:仙*** 文档编号:241612290 上传时间:2024-07-09 格式:PPT 页数:51 大小:979.50KB
返回 下载 相关 举报
第3章--数据特征描述课件_第1页
第1页 / 共51页
第3章--数据特征描述课件_第2页
第2页 / 共51页
第3章--数据特征描述课件_第3页
第3页 / 共51页
点击查看更多>>
资源描述
140 150210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190200180160 170220 230240频频数数(天天)25201510530第 4章 数据的概括性度量数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数中位数中位数均均均均 值值值值离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰 态态态态四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率偏偏偏偏 态态态态众数不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100众数(Mo)特点1.不唯一性1.无众数2.一个众数3.数个众数2.不受极端值的影响3.适用于所有数据类型1.分类数据2.顺序数据3.数值数据中位数n【例例】:9个家庭的人均月收入数据n原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630n排排 序序:750 780 850 960 1080 1250 1500 1630 2000n位 置:1 2 3 4 5 6 7 8 9n【例】:10个家庭的人均月收入数据n排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000n位位 置置:1 2 3 4 5 6 7 8 9 10中位数(Me)特点n不受极端值的影响n不能用于分类数据同样道理:四分位数n【例例】:9个家庭的人均月收入数据n原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630n排排 序序:750 780 850 960 1080 1250 1500 1630 2000n位位 置置:1 2 3 4 5 6 7 8 9n【例例】:10个家庭的人均月收入数据n排 序:660 750 780 850 960 1080 1250 1500 1630 2000n位 置:1 2 3 4 5 6 7 8 9 10QQL LQQMMQQU U25%25%25%25%均值设设一组数据为:一组数据为:x x1 1,x x2 2,x xn n各组的组中值为:各组的组中值为:M M1 1,M M2 2,M Mk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k1.1.简单均值简单均值缺点:容易受极端值影响缺点:容易受极端值影响已改至此!已改至此!某某电脑电脑公司公司销销售量数据分售量数据分组组表表按按销销售量分售量分组组组组中中值值(Mi)频频数数(fi)Mi fi 14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084558013952640472537003315205017209001175合合计计120222002.加权均值加权均值3.几何平均数几何平均数n 【例例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 算术平均:算术平均:算术平均:算术平均:几何平均(增长率计算):几何平均(增长率计算):几何平均(增长率计算):几何平均(增长率计算):众数、中位数和均值的关系左偏分布左偏分布均值均值均值 中位数中位数中位数 众数众数众数对称分布对称分布 均值均值均值=中位数中位数中位数=众数众数众数右偏分布右偏分布众数众数众数 中位数中位数中位数均值均值均值数据箱线图最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.5170.5170.5上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数中位数中位数均均均均 值值值值离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰 态态态态四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率偏偏偏偏 态态态态离散程度(离中趋势)1.离散程度离散程度1.反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度2.反映集中趋势的代表程度反映集中趋势的代表程度1.异众比率n非众数组的频数占总频数的比率n n用于衡量众数的代表性异众比率不同品牌饮料的频数分布 饮料品牌频数比例百分比(%)可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露15119690.300.220.180.120.183022181218合计5011002.四分位差1.极差1.一组数据的最大值与最小值之差2.四分位差1.上四分位数与下四分位数之差 QD=QU QL1.离散度:中间50%数据四分位差解:设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5 已知 QL=不满意=2 QU =一般=3四分位差:QD=QU =QL =3 2 =1顺序数据问题甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计3003.方差未分组数据组距分组数据1.平均差1.全面准确反映离散状况2.数学性质较差平均差某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计1202040平均差 含义:每一天的销售量平均数相比,平均相差17台改进:方差和标准差1.数据离散程度的最常用测度值1.总体方差或标准差;2.样本方差或标准差总体方差和标准差未分组数据组距分组数据样本方差和标准差n未分组数据:组距分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式样本标准差某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计12055400样本标准差 相对位置的度量:标准分数n 计算公式为n n也称标准化值q均值0q标准差1n用于对变量的标准化处理标准分数的性质n只是线性变换,并没有改变:q一个数据在改组数据中的位置q也没有改变该组数分布的形状n只将数据变为(例,一组数据标准差6,均值34)q均值为0,q标准差为1。经验法则n经验法则表明:当一组数据对称分布时n约有68%的数据在平均数加减1个标准差的范围之内n约有95%的数据在平均数加减2个标准差的范围之内n约有99%的数据在平均数加减3个标准差的范围之内 切比雪夫不等式n一对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2)个数据落在k个标准差之内。n对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落在平均数加减4个标准差的范围之内4.离散系数:相对离散程度n标准差与其相应的均值之比 q消除了数据水平高低和计量单位的影响q用于对不同组别数据离散程度的比较n计算公式为离散系数某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数结结论论:计算结果表明,v1 0为右偏分布q偏态系数 0为左偏分布偏态系数 某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台)组中值组中值(Mi)频数频数 fi140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合计合计120540000 70100000 偏态系数结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微电脑销售量为轻微右偏右偏分布,即销售量较少的天分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数数占据多数,而销售量较多的天数则占少数峰态系数(kurtosis coefficient)1.根据原始数据计算2.根据分组数据计算峰态1.数据分布扁平程度的测度1.峰态系数=0扁平峰度适中2.峰态系数0为尖峰分布峰态系数结论:结论:结论:结论:偏态系数为负值,但与偏态系数为负值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微电脑销售量为轻微扁平扁平分布分布偏态与峰态(从直方图上观察)结论:结论:结论:结论:1.1.为右偏分布为右偏分布 2.2.峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240结结 束束本章回顾数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数中位数中位数均均均均 值值值值离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰 态态态态四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率偏偏偏偏 态态态态样本方差和标准差n未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式众数、中位数和均值的关系左偏分布左偏分布左偏分布均值均值均值 中位数中位数中位数 众数众数众数对称分布对称分布对称分布 均值均值均值=中位数中位数中位数=众数众数众数右偏分布右偏分布右偏分布众数众数众数 中位数中位数中位数均值均值均值箱线图最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.5170.5170.5上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图补充n函数功能qMODEqMEDIANqQUARTILEqSTDEVn样本标志差qSKEWqKURTnEXCEL描述分析功能,例3.6
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!