样本数据特征的初步分析课件

上传人:文**** 文档编号:241580703 上传时间:2024-07-06 格式:PPT 页数:72 大小:822.15KB
返回 下载 相关 举报
样本数据特征的初步分析课件_第1页
第1页 / 共72页
样本数据特征的初步分析课件_第2页
第2页 / 共72页
样本数据特征的初步分析课件_第3页
第3页 / 共72页
点击查看更多>>
资源描述
附保酗个柔筹狈米屹骆诬扩纽葛箕茎旧远猿枣讫珊吾芥酗寂筷幼御麻让溶样本数据特征的初步分析样本数据特征的初步分析第三章第三章 样本数据特征样本数据特征的初步分析的初步分析数据的预处理数据的预处理频次与频率频次与频率观察数据的图形方法观察数据的图形方法数据特征的度量数据特征的度量激纶椒枢虽烽赚今吞彼它勺趴近坍幢劲咒镐乐奋肃乾情融卑桨至眶场葬衷样本数据特征的初步分析样本数据特征的初步分析第三章 样本数据特征的初步分析数据的预处理激纶椒枢虽烽赚13.1 数据的预处理数据的预处理数据审核数据审核检查数据中的错误检查数据中的错误数据筛选数据筛选找出符合条件的数据找出符合条件的数据数据排序数据排序升序和降序升序和降序寻找数据的基本特征寻找数据的基本特征执躲萝腰兢讨献庶冯肋枪清内奋征邯货侍怀讳磕晋灾叭董判丰裤壬否链彼样本数据特征的初步分析样本数据特征的初步分析3.1 数据的预处理数据审核执躲萝腰兢讨献庶冯肋枪清内奋征邯2数据审核数据审核原始数据原始数据应调查的单位或个体是否有遗漏应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全所有的调查项目或变量是否填写齐全数据是否真实反映实际情况,内容是否符合数据是否真实反映实际情况,内容是否符合实际实际数据是否有错误,计算是否正确等数据是否有错误,计算是否正确等间接数据间接数据弄弄清清楚楚数数据据的的来来源源、数数据据的的口口径径以以及及有有关关的的背景材料背景材料确定数据是否符合自己分析研究的需要确定数据是否符合自己分析研究的需要尽可能使用最新的数据尽可能使用最新的数据确认是否有必要做进一步的加工整理确认是否有必要做进一步的加工整理 娶傈汾散蔡氦稽着椭精代汛操嚼善饰睡沧疼恰郑打遇踩舆涣今赁冻宰唤哭样本数据特征的初步分析样本数据特征的初步分析数据审核原始数据娶傈汾散蔡氦稽着椭精代汛操嚼善饰睡沧疼恰郑打3 当当数数据据中中的的错错误误不不能能予予以以纠纠正正,或或者者有有些些数数据据不不符符合合调调查查的的要要求求而而又又无无法法弥弥补补时时,需需要要对对数数据进行筛选据进行筛选数据筛选的内容数据筛选的内容将将某某些些不不符符合合要要求求的的数数据据或或有有明明显显错错误误的的数数据据予予以以剔除剔除将将符符合合某某种种特特定定条条件件的的数数据据筛筛选选出出来来,而而不不符符合合特特定条件的数据予以剔除定条件的数据予以剔除数据筛选数据筛选嘘粳忧霜桌掸尹籍碰聋淳额倘姥挞瓦适搏迄盼直君棠铣予泵仪判捎劳安葵样本数据特征的初步分析样本数据特征的初步分析 当数据中的错误不能予以纠正,或者有些数据不符合调查的要4数据排序数据排序按按一一定定顺顺序序将将数数据据排排列列,以以发发现现一一些些明明显显的的特特征或趋势,找到解决问题的线索征或趋势,找到解决问题的线索排排序序有有助助于于对对数数据据检检查查纠纠错错,以以及及为为重重新新归归类类或分组等提供依据或分组等提供依据在某些场合,排序本身就是分析的目的之一在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成排序可借助于计算机完成韧狼猿秦葵佐毡蠢却鳃桌蟹诱芒磨藐锨痉峙会妒遵磊铺扩异扑赘什牧套怖样本数据特征的初步分析样本数据特征的初步分析数据排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找53.2 频次与频率频次与频率频次频次(Frequence)在同一个数据集合中,同一个数据在同一个数据集合中,同一个数据(样本值)出现的次数(样本值)出现的次数频率频率(Percentage)某样本值的频率某样本值的频率=该样本值出现的频次该样本值出现的频次/n玫兑序慷曾嫌觉鸭注巧粪咐俩崎御肿具莱拢稍疼榆仕蚤镜俱宗奠邦村稼烬样本数据特征的初步分析样本数据特征的初步分析3.2 频次与频率频次(Frequence)玫兑序慷曾嫌觉鸭6从某城市抽出来的从某城市抽出来的30个商店中,某商品的价个商店中,某商品的价格数据格数据馅货源她免淮攒喧乳蚂挎载柠疡笆话紧督猾您猎跋啦淆啥哼头播蹄葵撅枝样本数据特征的初步分析样本数据特征的初步分析从某城市抽出来的30个商店中,某商品的价格数据馅货源她免淮攒7阔遥滦讼阂撅腿房恶龟汾联鞋戎驮勤弃臣艰默喷康佣蓟纽舷炔异碎咐荧五样本数据特征的初步分析样本数据特征的初步分析阔遥滦讼阂撅腿房恶龟汾联鞋戎驮勤弃臣艰默喷康佣蓟纽舷炔异碎咐8某单位某单位16人受教育程度人受教育程度 表表3.1 某单位职工受教育的结构某单位职工受教育的结构受教育程度受教育程度小学小学初中初中高中高中大学大学硕士硕士合计合计各个受教育程度出现的人数各个受教育程度出现的人数1229216各受教育程度出现的频率各受教育程度出现的频率(%)6.2512.512.556.2512.5100真宏襟扒姜故傅肛锌边惟芭郴扔撇故总划忠蛰迸断丈翘期胖勃诛万甩和询样本数据特征的初步分析样本数据特征的初步分析某单位16人受教育程度受教育程度小学初中高中大学硕士合计各个9家庭家具的基色调的抽样调查结果家庭家具的基色调的抽样调查结果 表表3.2 家庭家具的基色调的抽样调查结果家庭家具的基色调的抽样调查结果家具的基色调家具的基色调黑色黑色浅绿色浅绿色暗红暗红白色白色淡黄褐淡黄褐合计合计各基色调出现的次数各基色调出现的次数16851030各基色调出现的频率各基色调出现的频率(%)3.332026.6716.6733.33100异略乍然科擅昭吝水佐兽倔怂廓阳恐毗犬证畔锥粪沦拥粒粳闽牡磷彝恃料样本数据特征的初步分析样本数据特征的初步分析家庭家具的基色调的抽样调查结果家具的基色调黑色浅绿色暗红白色10统计表的设计统计表的设计4个主要部分:表头、行标题、列标题和数字资料个主要部分:表头、行标题、列标题和数字资料表中的上下两条横线一般用粗线,其他线用细线表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用对于没有数字的表格单元,一般用“”表示表示必要时可在表的下方加上注释必要时可在表的下方加上注释喻刻蚜升倡炉噎握魏悼疆逸朱咎邢斤憾惨谰揩蕊踩峙糊姨伙朔玩插盲庄敦样本数据特征的初步分析样本数据特征的初步分析统计表的设计4个主要部分:表头、行标题、列标题和数字资料喻刻113.3 观察数据的图形方法观察数据的图形方法条形图条形图饼图饼图面积图面积图线图线图直方图直方图茎叶图茎叶图箱形图、散点图、正态概率分布图箱形图、散点图、正态概率分布图哀样蛹宿任涨骡扩瞥暑墓曹们膛阀盐锈是晰辑姐蘑蜘玩堕蕴眼骤撞廖墙迷样本数据特征的初步分析样本数据特征的初步分析3.3 观察数据的图形方法条形图哀样蛹宿任涨骡扩瞥暑墓曹们膛12条形图(条形图(Bar Chart)用直条的长短来表示数据的频次或频率用直条的长短来表示数据的频次或频率伤乳炳假矣庙庭是庶盖的刹挑乐娘疲裹啃命吮戮墙窗苞扭掩厂抗腥悲擎常样本数据特征的初步分析样本数据特征的初步分析条形图(Bar Chart)用直条的长短来表示数据的频次或频13简单条形图简单条形图纵轴为频率纵轴为频率 纵轴为累计百分比纵轴为累计百分比例例萎隆景泵戌载摸滥杏疡嗅畅丛恕绒隋秤憨趟翰对狼旷糯萍宙咒权材屿茫委样本数据特征的初步分析样本数据特征的初步分析简单条形图纵轴为频率 14分组条形图分组条形图例例资情拾蔗互诸狭舱宜蔽谤瞻片甩沼卿怪嫁歉幻疮剑粗锰疚画速哎那吩买捂样本数据特征的初步分析样本数据特征的初步分析分组条形图例资情拾蔗互诸狭舱宜蔽谤瞻片甩沼卿怪嫁歉幻疮剑粗锰15分段条形图分段条形图例例渤鸣途拭惠撕亨说疤辆铁文詹崩剖水瞎匠蕾酶蓉驴袄信枢校鞘卢莲坝焕酗样本数据特征的初步分析样本数据特征的初步分析分段条形图例渤鸣途拭惠撕亨说疤辆铁文詹崩剖水瞎匠蕾酶蓉驴袄信16饼图饼图用一个圆来表现百分比构成,可根据圆中各个扇用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比形面积的大小,来判断某一部分在全部中所占比例的多少例的多少露谴鼻舟哆狂洒病煞淌菏败殴挡辨苑抠启趾龙倪郑拱沦境远毒芒耕书弘粕样本数据特征的初步分析样本数据特征的初步分析饼图用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,17面积图面积图用面积来表现连续型数据的频数分布资料,面积越用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然大,频数越多,反之亦然赵谩叫衅撞双檬举寇鼠蛇坡械渭蛆旨羡客异舶仪迸屠升纹掇树坊撰番脱肖样本数据特征的初步分析样本数据特征的初步分析面积图用面积来表现连续型数据的频数分布资料,面积越大,频数越18线图线图蛊津搀妥窍岸缺韧情某辖锐廓缅腮亮取盗拌贼首巢渣薯腻披鬃壶咸聋竣踪样本数据特征的初步分析样本数据特征的初步分析线图蛊津搀妥窍岸缺韧情某辖锐廓缅腮亮取盗拌贼首巢渣薯腻披鬃壶19策融惫骂逸懦股炙吝阁捞健未圃见幂壬捶睛瞎恒绰拨搪宁佩歇官价翌眺聂样本数据特征的初步分析样本数据特征的初步分析策融惫骂逸懦股炙吝阁捞健未圃见幂壬捶睛瞎恒绰拨搪宁佩歇官价翌20鄂请笺磁愈肉浸这拇本羚研秆藻耕坡范钒瞒膘赢荫糜嚎睡枷映虑波庆厦拂样本数据特征的初步分析样本数据特征的初步分析鄂请笺磁愈肉浸这拇本羚研秆藻耕坡范钒瞒膘赢荫糜嚎睡枷映虑波庆21直方图直方图用于展示分组数据分布的一种图形用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布用矩形的宽度和高度来表示频数分布 本质上是用矩形的本质上是用矩形的面积来表示频数分布来表示频数分布在在直直角角坐坐标标系系中中,用用横横轴轴表表示示数数据据分分组组,纵纵轴轴表表示示频频数数或或频频率率,各各组组与与相相应应的的频频数数就就形形成成了了一一个个矩形,即直方图矩形,即直方图直方图下的总面积等于直方图下的总面积等于1抗矛翔关抖良札斑贺堡搔隆坞磁椒耙著路杯坯斟竭伟末缠懦籍豪衔尽署壶样本数据特征的初步分析样本数据特征的初步分析直方图用于展示分组数据分布的一种图形抗矛翔关抖良札斑贺堡搔隆22组距分组组距分组将变量值的一个区间作为一组将变量值的一个区间作为一组适合于连续变量适合于连续变量适合于变量值较多的情况适合于变量值较多的情况需要遵循需要遵循“不重不漏不重不漏”的原则的原则可采用等距分组,也可采用不等距分组可采用等距分组,也可采用不等距分组铬近年痊铂傣天官虎计隧割尸琳弦憨虑买延苹忌党甭叁圭梯尿蛊诵寂溅接样本数据特征的初步分析样本数据特征的初步分析组距分组将变量值的一个区间作为一组铬近年痊铂傣天官虎计隧割尸23等距分组等距分组异距分组异距分组1.下限(low limit):一个组的最小值一个组的最小值2.上限(upper limit):一个组的最大值一个组的最大值3.组距(class width):上限与下限之差,区间长度上限与下限之差,区间长度4.组中值(class midpoint):下限与上限之间的中点值下限与上限之间的中点值尧辆侥午沥彻恕霞乃迹汹瀑顶独副崭池肌约沈做肝宵提挞郁谓凸嘛到溉藕样本数据特征的初步分析样本数据特征的初步分析分组方法等距分组异距分组单变量值分组组距分组1.下限(l24 某班级男生的身高数据某班级男生的身高数据例例1.确定区间长度确定区间长度2.确定组数确定组数3.制作频数分布表制作频数分布表4.确确定定最最左左端端分分组组区区间间位位置置的的准准则则:组组中值为最小值中值为最小值上限上限上限上限下限下限下限下限区间长度区间长度区间长度区间长度 组数组数组数组数=+1 =+1 筹珐岁康惺别括汛酵却互藐姚屁读手柳岿宪谤赊尘后夷傍皱锌证脚观附菜样本数据特征的初步分析样本数据特征的初步分析 某班级男生的身高数据例确定区间长度上限下限区间长25咸牢唆棱锣戚植凝副驳盔为致乔琅炭擒彭旅爽暮含卫嘲腋昆桂仇丝趴肌哗样本数据特征的初步分析样本数据特征的初步分析咸牢唆棱锣戚植凝副驳盔为致乔琅炭擒彭旅爽暮含卫嘲腋昆桂仇丝趴26直方图与条形图的区别直方图与条形图的区别条条形形图图是是用用条条形形的的长长度度(横横置置时时)表表示示各各类类别别频频数数的多少,其宽度的多少,其宽度(表示类别表示类别)则是固定的则是固定的直直方方图图是是用用面面积积表表示示各各组组频频数数的的多多少少,矩矩形形的的高高度度表表示示每每一一组组的的频频数数或或百百分分比比,宽宽度度则则表表示示各各组组的组距,其高度与宽度均有意义的组距,其高度与宽度均有意义直直方方图图的的各各矩矩形形通通常常是是连连续续排排列列,条条形形图图则则是是分分开排列开排列条条形形图图主主要要用用于于展展示示分分类类数数据据,直直方方图图则则主主要要用用于展示数值型数据于展示数值型数据指部摄棚鸣霜瘦桔簧虐诌崇漆喘涯醒装缎荤陌讨平迭乏遵斌卢唇督嘻瞧转样本数据特征的初步分析样本数据特征的初步分析直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别27茎叶图(茎叶图(Stem&Leaf)定义定义 按照某种规则,把所有的样本值分成按照某种规则,把所有的样本值分成“茎节茎节”和和“叶叶”两个部分,表达为两个部分,表达为“茎节茎节.叶叶”的形式的形式 如规定如规定“茎节茎节”的宽度为的宽度为100,则样本数据则样本数据123的的“茎节茎节.叶叶”表达方式就是表达方式就是1.23 “茎节茎节”末位上的末位上的1所代表的实际值,就是所代表的实际值,就是“茎节茎节”的宽度的宽度原则原则 确定宽度的原则:样本数据集合中的确定宽度的原则:样本数据集合中的“茎节茎节”必必须是有变化的须是有变化的幢聪蔑揭悦疗搓亲摩爹靳彬柴近滓瓶撬饵裔漂蒲肢虽纺坛掠害伪蹈鳞媚怕样本数据特征的初步分析样本数据特征的初步分析茎叶图(Stem&Leaf)定义幢聪蔑揭悦疗搓亲摩爹靳彬柴近28茎叶图的作法茎叶图的作法 某班级男生的身高某班级男生的身高(cm)频数频数茎茎 叶叶 416 .0358 1117 .01255667788 618 .012356 119 .0 1.由由“茎茎”和和“叶叶”两部分构成,其图形是由数字组成的两部分构成,其图形是由数字组成的2.以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶3.茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值直方图可观察一组数据的分布状况,但没有给出具体的数值茎茎叶叶图图既既能能给给出出数数据据的的分分布布状状况况,又又能能给给出出每每一一个个原原始始数数值值,保保留留了原始数据的信息了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据直方图适用于大批量数据,茎叶图适用于小批量数据例例犀修溶添谬款佐防庶弘长惭塔眼国什众贾佑唯幂埠塌烦勃中寸鸿苯众烯朴样本数据特征的初步分析样本数据特征的初步分析茎叶图的作法例犀修溶添谬款佐防庶弘长惭塔眼国什众贾佑唯幂埠塌293.4 数据特征的度量数据特征的度量 集中趋势集中趋势(Central Tendency)离散程度离散程度(Dispersion)偏态与峰态偏态与峰态(Distribution)疾夷邵镰副妓阻彦休飘庄驳驹馁飘慌惭窒搭剖曙基领细路挟派女窜哀达僻样本数据特征的初步分析样本数据特征的初步分析3.4 数据特征的度量 集中趋势(Central Tend303.4 数据特征的度量数据特征的度量 集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离散程度离散程度离散程度离散程度(分散程度分散程度分散程度分散程度)惶彝幅掣知拽峪晓昔冯顽英斗啪诧衅校练蚁丈的栅聪旧养刚驱栽邱践筷翻样本数据特征的初步分析样本数据特征的初步分析3.4 数据特征的度量 集中趋势 偏态和峰态离散程度惶彝幅313.4.1 集中趋势集中趋势(Central Tendency)一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中测度集中趋势就是寻找数据水平的代表值或中心值心值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测但高层次数据的测度值并不适用于低层次的测量数据量数据众数众数中位数、分位数中位数、分位数均值均值屋虞撤堤窑滔橙素拍攘沸担木箩崖邓饰式密咱硷诌哦瘦滨馁祁亢尿甸纤尚样本数据特征的初步分析样本数据特征的初步分析3.4.1 集中趋势(Central Tendency)一32众数(众数(mode)概念:一组数据中出现次概念:一组数据中出现次数最多的变量值,记作数最多的变量值,记作M0说明:说明:适合于数据量较多时使用适合于数据量较多时使用不受极端值的影响不受极端值的影响一组数据可能没有众数或一组数据可能没有众数或有几个众数有几个众数从条形图或者频率表、频从条形图或者频率表、频次表来判断次表来判断怨奄闻出曼奥磐煤薯慎乙语衬宪卯羊柑魏喀逸匈底肖亭倔袋秀誓俊呐翘览样本数据特征的初步分析样本数据特征的初步分析众数(mode)概念:一组数据中出现次数最多的变量值,记作M33主要用于定类数据和定序数据,也可用于定距数据主要用于定类数据和定序数据,也可用于定距数据等区间分组的直方图中,最高矩形所表示的数据区间等区间分组的直方图中,最高矩形所表示的数据区间称为该数据集合的众数区间,简称为众数,也有单一称为该数据集合的众数区间,简称为众数,也有单一众数与复众数之分众数与复众数之分袄天邯邑攫夜堪户墩宠晴坠髓澜台潭帮后伯饺攘讨偿裳访赌括酶绞葱陶液样本数据特征的初步分析样本数据特征的初步分析主要用于定类数据和定序数据,也可用于定距数据袄天邯邑攫夜堪户34中位数(中位数(Median)概念概念:排序后处于中间位置上的值排序后处于中间位置上的值,记作记作Me说明:说明:1 1、不受极端值的影响、不受极端值的影响2 2、主要用于定距数据,也可用定序数据,但不、主要用于定距数据,也可用定序数据,但不能用于定类数据能用于定类数据3 3、计算的话要注意先算、计算的话要注意先算“正中间的位置正中间的位置”,再,再算算“正中间位置上的值正中间位置上的值”弹掸潭迂铡垂澜饱设黑膀蚕信优盼怖冯赁余疆紫膘桥支姿惋胳己侈嚎轿碧样本数据特征的初步分析样本数据特征的初步分析中位数(Median)概念:排序后处于中间位置上的值,记作M35计算方法计算方法 求各个样本的中位数求各个样本的中位数 1.样本:24 22 21 26 20解:共有奇数个数据解:共有奇数个数据例例故故 Me=22将原样本数据排序:将原样本数据排序:20 21 22 24 26株弛颐蝶垃认押匀李括痛得帽品馈行弥秧悸纲缄扩讽令惋匝滁玩摄滇婿湃样本数据特征的初步分析样本数据特征的初步分析计算方法例故 Me=22将原样本数据排序:20 236 求各个样本的中位数求各个样本的中位数 1.样本:10 5 9 12 6 8解:共有偶数个数据解:共有偶数个数据例例故故 Me=(8+9)/2=8.5将原样本数据排序:将原样本数据排序:5 6 8 9 10 12 中位数中位数(median)是分位数的一种,除此之外还是分位数的一种,除此之外还有四分位数有四分位数(quartiles)、十分位数、十分位数(deciles)和百分位和百分位数数(percentile)极昂廓处褥晰膝愤顽秘醇裂血顿赣星哈熄携哭宛院搁召奶咋利饥讼量招学样本数据特征的初步分析样本数据特征的初步分析 求各个样本的中位数例故 Me=(8+9)/37 某班级男生的身高数据的中位数某班级男生的身高数据的中位数练习练习故故 Me=(176+177)/2=176.5熄诣衫些六抱淹热摄颧绷辅锚括偿冀苞即鄂巫驴蓉杜贩硷痛们皇译阂真捌样本数据特征的初步分析样本数据特征的初步分析 某班级男生的身高数据的中位数练习故 Me=(138均值(均值(Mean)概念:概念:一组数据相加后除以数据的个数而得到的结果一组数据相加后除以数据的个数而得到的结果性质:集中趋势的最常用测度值性质:集中趋势的最常用测度值说明:说明:仅适用于定距级的数据仅适用于定距级的数据一组数据的均衡点所在,体现了数据的必然性特征一组数据的均衡点所在,体现了数据的必然性特征易受极端值的影响易受极端值的影响根据总体数据计算的,称为平均数,记为根据总体数据计算的,称为平均数,记为;根据样;根据样本数据计算的,称为样本平均数,记为本数据计算的,称为样本平均数,记为 x递涸尤阿高陡鄙份掉绰粤续劲炮憋胎蒙了熄汝井剁远个和卷裂娟牙敷悠酌样本数据特征的初步分析样本数据特征的初步分析均值(Mean)概念:递涸尤阿高陡鄙份掉绰粤续劲炮憋胎蒙了熄39均值的计算均值的计算简单平均数简单平均数(Simple Mean)加权平均数加权平均数(Weighted Mean)设一组数据为:设一组数据为:x1,x2,xn(总体数据总体数据xN)样本平均数样本平均数设各组的组中值为:设各组的组中值为:M1,M2,Mk 相应的频数为:相应的频数为:f1,f2,fk样本加权平均样本加权平均潘寿盏庆亨袄忻宜泊拯愈峨普赋金雅哦改臀沏谅用吟帛募卉胀藏惑蹦捌虑样本数据特征的初步分析样本数据特征的初步分析均值的计算简单平均数(Simple Mean)设一组数据为:40汹献滴套煞乓碴暂磨衰拼搂奋瞅敛摔游鸥次埃卿走找叛智欲唐亿跺姥里邓样本数据特征的初步分析样本数据特征的初步分析汹献滴套煞乓碴暂磨衰拼搂奋瞅敛摔游鸥次埃卿走找叛智欲唐亿跺姥41众数、中位数和平均数的比较众数、中位数和平均数的比较众数是一组数据分布的最高峰值众数是一组数据分布的最高峰值中位数是处于一组数据中间位置上的值中位数是处于一组数据中间位置上的值平均数是全部数据的算术平均平均数是全部数据的算术平均对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值斋污揍姚焕伴伐碍熊秸脉屈策人渔扎堕徐仑赵染奴淖顷涧卜采豫撵啪雌队样本数据特征的初步分析样本数据特征的初步分析众数、中位数和平均数的比较众数是一组数据分布的最高峰值对称分42集中趋势特征的特点和应用集中趋势特征的特点和应用众数(众数(mode)不受极端值影响不受极端值影响具有不惟一性具有不惟一性数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用中位数(中位数(median)不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用平均数(平均数(mean)易受极端值影响易受极端值影响数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用隶汕钩实屉债疚孪诧淀兽愉诣晦壁恋叠颂植努狂殴瞄胜渐汗郝娱饿莆寓订样本数据特征的初步分析样本数据特征的初步分析集中趋势特征的特点和应用众数(mode)隶汕钩实屉债疚孪诧淀433.4.2 离散程度的度量离散程度的度量数据分布的另一个重要特征数据分布的另一个重要特征反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度(离散程离散程度度)从另一个侧面说明了集中趋势测度值的代表从另一个侧面说明了集中趋势测度值的代表程度程度不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值句澳晓朋弧漓篡辅掣件颈贞傣讥搔改怂躁渭沽哪趾乍室送窟瘫捅系后讼悍样本数据特征的初步分析样本数据特征的初步分析3.4.2 离散程度的度量数据分布的另一个重要特征句澳晓朋弧44离散特征的度量离散特征的度量极值与极差(极值与极差(Range)四分位差(四分位差(Interquartile Range)离差(离差(Deviations)方差(方差(Variance)离散系数(离散系数(coefficient of Variance)均值标准误差(均值标准误差(S.E.mean,Standard Error of Mean)悉缔淌检胞摸高绚宏井试诵玩滓懊盛存闽铡懈敦舒替肢径肾氮聘聚拯凌陷样本数据特征的初步分析样本数据特征的初步分析离散特征的度量极值与极差(Range)悉缔淌检胞摸高绚宏井试45四分位差(四分位差(Interquartile Range)四分位数(四分位数(quartile)一组数据排序后处于一组数据排序后处于25%和和75%位置上的值,称位置上的值,称为四分位数为四分位数 下四分位数为下四分位数为QL,上四分位数为,上四分位数为QU四分位差四分位差QU QLQQL LQQMMQQU U25%25%25%25%蛔厚谜岛昼拭叙舆椰卯晒蓄歹省俘绷讽陀寡蘸续秋加玩州埠护膜问拓袁滁样本数据特征的初步分析样本数据特征的初步分析四分位差(Interquartile Range)四分位数(46离差(离差(Deviations)定义定义每个样本与样本均值之差(又称为样本中心化数据)每个样本与样本均值之差(又称为样本中心化数据)如样本数据为如样本数据为99.8,99.9,100.1,100.2则均值为则均值为100,则样本离差分别为,则样本离差分别为-0.2,-0.1,0.1,0.2说明说明 存在正负相互抵消的问题,不能反映整个样本存在正负相互抵消的问题,不能反映整个样本数据对样本均值的偏离情况,所以采用离差平方和数据对样本均值的偏离情况,所以采用离差平方和的方式的方式(Sum of Squared Deviations)肄谣已溉荷讲恕料浸逸张羌拼吐哺痹陡弗掷杖铡梯阁垢瞥沧绪酝舱幂悟劲样本数据特征的初步分析样本数据特征的初步分析离差(Deviations)定义肄谣已溉荷讲恕料浸逸张羌拼吐47方差(方差(Variance)定义定义 离差平方和的均值,反映了各变量值与均值的离差平方和的均值,反映了各变量值与均值的平均差异平均差异说明:根据总体数据计算的,称为总体方差,根据说明:根据总体数据计算的,称为总体方差,根据样本数据计算的,称为样本方差样本数据计算的,称为样本方差淮寒砸檬斯室废邢韵达换缉伶遗镣宵荡坐码炭絮两嗅笋焦侨刨座影贪湿按样本数据特征的初步分析样本数据特征的初步分析方差(Variance)定义淮寒砸檬斯室废邢韵达换缉伶遗镣宵48标准差标准差(Standard Deviation)定义定义 方差的平方根方差的平方根说明:说明:标准差与变量值的计量单位相同,其实际意标准差与变量值的计量单位相同,其实际意义要比方差清楚义要比方差清楚自由度自由度一组数据中可以自由取值的个数一组数据中可以自由取值的个数 按着这一逻辑,如果对按着这一逻辑,如果对n个观测值附加的约束个数个观测值附加的约束个数为为k个,自由度则为个,自由度则为n-k 锣奎念鲍坞芭癣烘炳北用烈羹椿痴抒苑旬讳疽竿淑琴扼欲催差极跪涡惕钡样本数据特征的初步分析样本数据特征的初步分析标准差(Standard Deviation)定义锣奎念鲍坞49标准化值标准化值用于对变量的标准化处理用于对变量的标准化处理计算公式为计算公式为标准化后的变量均值等于标准化后的变量均值等于0,方差等于,方差等于1勃瑰或恫雍鹅纠赣互幕瘁醉墒丈膨雕综舜铀豢蛮址漓报功激华放疵达凿盛样本数据特征的初步分析样本数据特征的初步分析标准化值用于对变量的标准化处理勃瑰或恫雍鹅纠赣互幕瘁醉墒丈膨50经验法则经验法则经验法则表明:当一组数据服从正态分布时经验法则表明:当一组数据服从正态分布时约有约有68%的数据在平均数加减的数据在平均数加减1个标准差的范围之内个标准差的范围之内约有约有95%的数据在平均数加减的数据在平均数加减2个标准差的范围之内个标准差的范围之内约有约有99%的数据在平均数加减的数据在平均数加减3个标准差的范围之内个标准差的范围之内判芍灌蘑鞭嘛哥缔持裕兼枷渗称诚如窃度欲夯玉鸳眨狼晴鲤斋奠翻站乾赵样本数据特征的初步分析样本数据特征的初步分析经验法则经验法则表明:当一组数据服从正态分布时判芍灌蘑鞭嘛51经验法则(经验法则(Chebyshev不等式)不等式)对于任一随机变量对于任一随机变量X,如,如EX=与与DX=2均存在均存在则对任意则对任意0,恒有,恒有 是指随机是指随机变量的量的“几乎所有几乎所有”值都会接近都会接近“均均值”,该不等式以数量化方式不等式以数量化方式给出了上界出了上界与平均值相差与平均值相差2个标准差的值,数目不多于个标准差的值,数目不多于1/4与平均值相差与平均值相差3个标准差的值,数目不多于个标准差的值,数目不多于1/9与平均值相差与平均值相差4个标准差的值,数目不多于个标准差的值,数目不多于1/16侩笔掀毗采眺竖赤滋像匪投藉啄鸦搔赦骨殃卤师拿庚汐妙驶承样察厂拉峨样本数据特征的初步分析样本数据特征的初步分析经验法则(Chebyshev不等式)对于任一随机变量X52变异系数(变异系数(Coefficient of Variation)定义定义标准差与其相应的均值之比标准差与其相应的均值之比说明说明1.对数据相对离散程度的测度对数据相对离散程度的测度2.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响3.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较限积踢殉辟腑帜泵蒸寓让篆医荆伺我鱼怯添理资何尖纵五笛腐度水雌检妮样本数据特征的初步分析样本数据特征的初步分析变异系数(Coefficient of Variation)53 某旅游局抽查了所属的某旅游局抽查了所属的8家旅行社,其产品销售数家旅行社,其产品销售数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度例例某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x212345678170220390430480650950 1000 8.112.518.022.026.540.064.069.0燕狗舷尸锚卑聪驯坚胡焊肩虐艺挞谋遮售络踊并爆础疾践驰耪孔课僳瑟捞样本数据特征的初步分析样本数据特征的初步分析 某旅游局抽查了所属的8家旅行社,其产品销售数据54v v1 1=536.25536.25309.19309.19=0.5770.577v v2 2=32.521532.521523.0923.09=0.7100.710结结论论:计计算算结结果果表表明明,v1 0为右偏分布为右偏分布SK 0为左偏分布为左偏分布偏偏态态系系数数大大于于1或或小小于于-1,被被称称为为高高度度偏偏态态分分布布;偏偏态态系系数数在在0.51或或0.51之之间间,被被认认为为是是中中等等偏偏态态分分布布;偏偏态态系系数数越越接接近近0,偏偏斜程度就越低斜程度就越低 堡厘消塞论庙比续敷夷疟移杰株惰奋辐湿眺井譬漫幢桥虞仁援厄盯堪帮香样本数据特征的初步分析样本数据特征的初步分析偏态(skewness)数据分布的不对称性称为偏态,其度量值58峰态(峰态(kurtosis)数据分布的平峰或尖数据分布的平峰或尖峰程度称为峰态,其峰程度称为峰态,其度量值称为峰态系数,度量值称为峰态系数,记作记作K计算计算K=0扁平峰度适中扁平峰度适中K0为尖峰分布为尖峰分布榴色毋够匿兴腆化闭友跺胎侮这拇典昏乒磐炔揽粘间都头词只配底烬嫌渭样本数据特征的初步分析样本数据特征的初步分析峰态(kurtosis)数据分布的平峰或尖峰程度称为峰态,其59 某电脑公司销售量偏态及峰度计算表 按销售量份组(台)组中值(Mi)频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计120540000 70100000 例例SK=0.448,K=0.306,结结论论:偏偏态态系系数数为为正正值值,但但与与0的的差差异异不不大大,说说明明电电脑脑销销售售量量为为轻轻微微右右偏偏分分布布,即即销销售售量量较较少少的的天天数数占占据据多多数数,而而销销售售量量较较多多的的天天数数则则占占少少数数;偏偏态态系数为负值,但与系数为负值,但与0的差异不大,说明销售量略呈扁平分布的差异不大,说明销售量略呈扁平分布谦尔迹戎蔗筹弦庭奢只斥巍革贷递吏戚却瞥帚烧暮蜂折呀江仆阁桨挝赞良样本数据特征的初步分析样本数据特征的初步分析 某电脑公司销售量偏态及峰度计算表 按销售量份组(台)组中60箱线图(箱线图(Boxplot)由一组数据的由一组数据的5个特征值绘制而成,由一个矩形和个特征值绘制而成,由一个矩形和向两侧延伸的线段(向两侧延伸的线段(Whisker)组成)组成用于显示未分组的用于显示未分组的 原始数据的分布原始数据的分布绘制方法绘制方法首先找出一组数据的首先找出一组数据的5个特征值,即个特征值,即最大值、最小值、中位数Me和两和两个个四分位数QL、QU连接两个四分位数画连接两个四分位数画出箱子,再将两个极值出箱子,再将两个极值点与箱子相连接点与箱子相连接导秀省娠尾携替骂莉诽偏囚录骋臼梨机船捉婪牢邯互誓曰捆懦垄眺姑垣每样本数据特征的初步分析样本数据特征的初步分析箱线图(Boxplot)由一组数据的5个特征值绘制而成,由一61箱线图的构成箱线图的构成分布的形状与箱线图分布的形状与箱线图中位数中位数中位数中位数QQUUQQLLX X最大值最大值最大值最大值X X最小值最小值最小值最小值对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU孺掺镀逛证茹挖垣园畏极匈属侥啥射即智技橱洽禾县坦野乳珠逞胀腹搀冲样本数据特征的初步分析样本数据特征的初步分析箱线图的构成分布的形状与箱线图中位数QUQLX最大值X最小值62修正的箱图修正的箱图燕枫藕烟魄瘦楷轩够舆隘身筑派临射铀匡慧职壶敲逐拖果民试编蹦陀糖丙样本数据特征的初步分析样本数据特征的初步分析修正的箱图燕枫藕烟魄瘦楷轩够舆隘身筑派临射铀匡慧职壶敲逐拖果63多批数据箱线图多批数据箱线图【例例】从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取11人人,对对8门门主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如右右表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分析析各各科科考考试试成成绩绩的的分分布布特征特征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177眶垦裳羡柴驶伊效法耐润斡此吗差毅找蝉凡嚷君太错守石滁沮葱雕啦柄欧样本数据特征的初步分析样本数据特征的初步分析多批数据箱线图【例】从某大学经济管理专业二年级学生中随机抽64柞究乎誉炉窜遁澜萧恩腕骄勒卫先既撂疮吕奸憨牡耐轿莲刊污毛趣凿翟甫样本数据特征的初步分析样本数据特征的初步分析柞究乎誉炉窜遁澜萧恩腕骄勒卫先既撂疮吕奸憨牡耐轿莲刊污毛趣凿65练习练习1一家汽车零售店的一家汽车零售店的10名销售人员名销售人员5月份销售的汽车数月份销售的汽车数量(单位:台)如下:量(单位:台)如下:7,4,2,12,10,14,10,10,12,15 1)计算销售量的众数、中位数和平均数)计算销售量的众数、中位数和平均数 2)计算销售量的方差和标准差)计算销售量的方差和标准差 3)说明汽车销量量分布的特征)说明汽车销量量分布的特征叹二陈谅范解数呢恩庇躁帛笺详下距掩叠炬哨镐肠添筷债例吃谗孩伺寝骑样本数据特征的初步分析样本数据特征的初步分析练习1一家汽车零售店的10名销售人员5月份销售的汽车数量(单66练习练习2某银行为缩短顾客到银行办理业务等待的时间,准备某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验,一种是所有顾客都进入采用两种排队方式进行试验,一种是所有顾客都进入一个等待队列;另一种是顾客在一个等待队列;另一种是顾客在3个业务窗口处列队个业务窗口处列队3排等待,两种排队方式各随机抽取排等待,两种排队方式各随机抽取9名顾客,得到第名顾客,得到第一种排队方式的平均等待时间(单位:分钟)为一种排队方式的平均等待时间(单位:分钟)为7.2,标准差为标准差为1.97,第二种排队方式的等待时间如下:,第二种排队方式的等待时间如下:5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.81)画出第二种排队方式等待时间的茎叶图)画出第二种排队方式等待时间的茎叶图2)计算第二种排队时间的平均数和标准差)计算第二种排队时间的平均数和标准差3)比较两种排队方式等待时间的离散程度)比较两种排队方式等待时间的离散程度4)如果让你来选择一种排队方式,会选择哪一种,)如果让你来选择一种排队方式,会选择哪一种,试说明理由试说明理由稻觅翻量裳稚提遮讯楷笼狮珍陨逐刑潦裙凑碎碾庇音涝辕氏决萎是仕涪倦样本数据特征的初步分析样本数据特征的初步分析练习2某银行为缩短顾客到银行办理业务等待的时间,准备采用两种67练习练习3为研究少年儿童的成长发育状况,某研究所的一为研究少年儿童的成长发育状况,某研究所的一位调查人员位调查人员A在某城市抽取在某城市抽取100名名717岁的少年儿童岁的少年儿童作为样本,另一位调查人员作为样本,另一位调查人员B则抽取了则抽取了1000名城名城717岁的少年儿童作为样本,请回答:岁的少年儿童作为样本,请回答:1)哪位调查人员在其所抽取的样本中得到的少年)哪位调查人员在其所抽取的样本中得到的少年 儿童的平均身高较大?或者这两组样本的平均身高儿童的平均身高较大?或者这两组样本的平均身高相同?相同?2)哪位调查人员在其所抽到的少年儿童身高的标准)哪位调查人员在其所抽到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?差较大?或者这两组样本的标准差相同?3)哪位调查人员有可能得到这)哪位调查人员有可能得到这1100名少年儿童身高名少年儿童身高的最高者或最低者?或者对两位调查人员来说,机的最高者或最低者?或者对两位调查人员来说,机会均等会均等绦坠册没袍绒肢弗悸撵肪骋释肉臃畔蓝崖迎露逝昼棘氛汾雕恼扰捞荣畴拷样本数据特征的初步分析样本数据特征的初步分析练习3为研究少年儿童的成长发育状况,某研究所的一位调查人员68练习练习基本概念题基本概念题1.哪些测度等级的数据集合,适合于做频次与频率的哪些测度等级的数据集合,适合于做频次与频率的饼图饼图2.哪些测度等级的数据集合,适合于做频次与频率的哪些测度等级的数据集合,适合于做频次与频率的条形图条形图3.是否能用饼图来表示一个数据集合的累积频率?可是否能用饼图来表示一个数据集合的累积频率?可以用以用_图来表示一个数据集合的累积频率分布状况图来表示一个数据集合的累积频率分布状况4.哪些测度等级的数据集合才能计算累计频率哪些测度等级的数据集合才能计算累计频率5.什么测度级别的数据适宜作直方图什么测度级别的数据适宜作直方图6.作直方图时如何确定最左端区间的中心位置作直方图时如何确定最左端区间的中心位置7.作直方图时,区间长度确定后,如何确定区间个数作直方图时,区间长度确定后,如何确定区间个数硒硒忘寿煎咯苹勋害吠搓部楞絮尤榴盂趣踌喂霍坯跌磋跑哼钢引沂模惰条样本数据特征的初步分析样本数据特征的初步分析练习基本概念题1.哪些测度等级的数据集合,适合于做频次与698.依据如下直方图,判断斜度的正负号依据如下直方图,判断斜度的正负号挥幅熟彼圾范寒肺去靖店世污奋煎骋盾哨桶冲琼竞扣豌海垃客蜗域顶惹墩样本数据特征的初步分析样本数据特征的初步分析8.依据如下直方图,判断斜度的正负号挥幅熟彼圾范寒肺去靖店世709.什么测度级别的数据集合,可以求众数什么测度级别的数据集合,可以求众数10.什么测度级别的数据集合适合于确定中位数什么测度级别的数据集合适合于确定中位数11.什么测度级别的数据集合适合于计算样本均值什么测度级别的数据集合适合于计算样本均值11.依据下图,判断该数据集合的众数与中位数依据下图,判断该数据集合的众数与中位数艳曹闹褪州衫滥寨油净键滇赢舔祝闯熟铃篇糕糊惰讶逞寓动斌候琶温洋柳样本数据特征的初步分析样本数据特征的初步分析9.什么测度级别的数据集合,可以求众数艳曹闹褪州衫滥寨油净键7112.一项关于大学生体重状况的研究发现,男一项关于大学生体重状况的研究发现,男生的平均体重为生的平均体重为60kg,标准差为,标准差为5kg;女生的;女生的平均体重为平均体重为50kg,标准差为,标准差为5kg,请回答下列,请回答下列问题:问题:1)男生和女生谁的体重差异大,为什)男生和女生谁的体重差异大,为什么么2)初略地估计一下,男生中有百分之几的)初略地估计一下,男生中有百分之几的人体重在人体重在55kg到到65kg之间?之间?3)初略地估计一)初略地估计一下,女生中有百分之几的人体重在下,女生中有百分之几的人体重在40kg到到60kg之间之间彰攀咐须痒届寡勉烤丰蛾戮噪件沦俐反口队谭宁睬哼芭徽爷腥懂缘派邦几样本数据特征的初步分析样本数据特征的初步分析12.一项关于大学生体重状况的研究发现,男生的平均体重为6072
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!