《统计学:思想、方法与应用》第3章 分类数据的描述分析

上传人:e****s 文档编号:240709424 上传时间:2024-05-02 格式:PPTX 页数:40 大小:1.21MB
返回 下载 相关 举报
《统计学:思想、方法与应用》第3章 分类数据的描述分析_第1页
第1页 / 共40页
《统计学:思想、方法与应用》第3章 分类数据的描述分析_第2页
第2页 / 共40页
《统计学:思想、方法与应用》第3章 分类数据的描述分析_第3页
第3页 / 共40页
点击查看更多>>
资源描述
一张好图胜过千言万语一张好图胜过千言万语00:561第第3章章分类数据的描述分析分类数据的描述分析数据的预处理数据的预处理3.2频数表频数表3.3统计图统计图3.4列联表列联表00:562学习目标学习目标用频数表描述数据的分布;用频数表描述数据的分布;用条形图、饼图、百分条图等图形来展用条形图、饼图、百分条图等图形来展示数据;示数据;用列联表分析两个分类指标之间的关系;用列联表分析两个分类指标之间的关系;相关理论在统计软件中的应用;相关理论在统计软件中的应用;相应统计分析结果的解读。相应统计分析结果的解读。00:563用哪些图形展示奖牌?用哪些图形展示奖牌?在在2021年年伦伦敦敦奥奥运运会会上上,中中国国队队以以38金金27银银22铜铜位位列列奥奥运运金金牌牌榜榜和和奖奖牌牌榜榜第第二二位位,这这也也是是中中国国境境外外参参赛赛以以来来取取得得的的最最好好成成绩绩,美美国国队队以以46金金29银银29铜铜104奖奖牌牌高高居居榜榜首首。东道主英国位居第三东道主英国位居第三00:564用哪些图形展示奖牌?用哪些图形展示奖牌?根根据据上上面面的的数数据据,你你认认为为可可以以选选择择哪哪些些图图形形来来展展示示三三个个国国家家所所获获得得的的奖奖牌牌情情况况?学学完完本本章的图表展示技术,这样的问题就会迎刃而解章的图表展示技术,这样的问题就会迎刃而解排名排名国家及地区国家及地区男子男子女子女子混合混合金金银银铜铜金金银银铜铜金金银银铜铜1 1美国美国1717151513132929141415150 00 01 12 2中国中国17178 811112020181812121 11 10 03 3英国英国17179 913139 96 65 53 32 21 100:565数据分析包括三种形式数据分析包括三种形式为数据画一个图为数据画一个图制作一个表制作一个表计算一些我们感兴趣的东西计算一些我们感兴趣的东西00:566数据的预处理数据的预处理主要包括:数据的审核、筛选、排队主要包括:数据的审核、筛选、排队1数据的审核与筛选数据的审核与筛选a、对对第一手资料直接调查或试验取得:审核其完整性与第一手资料直接调查或试验取得:审核其完整性与准确性准确性完整性完整性应调查的单位或个体是否有遗漏;所调查的工程应调查的单位或个体是否有遗漏;所调查的工程是否填齐全。是否填齐全。准确性准确性内容是否符合实际;计算是否正确。内容是否符合实际;计算是否正确。如:文化程度:小学如:文化程度:小学职业:大学教师职业:大学教师对第二手资料获取他人的资料:审核其完整性、准确对第二手资料获取他人的资料:审核其完整性、准确性、适用性、时效性性、适用性、时效性00:567b、筛选:、筛选:剔除不符合要求的数据或有明显错误的数据;剔除不符合要求的数据或有明显错误的数据;将符合特定条件的数据筛选出来。将符合特定条件的数据筛选出来。00:5682数据的排序数据的排序 数据排序数据排序是按一定顺序将数据排列是按一定顺序将数据排列。排序排序方式方式:数字型数据数字型数据/字母型数据字母型数据升序或降序升序或降序 汉字型数据汉字型数据多种多种排序排序目的目的:a、通过浏览数据发现一些明显的特征、通过浏览数据发现一些明显的特征趋势趋势或或解决问题的线索;解决问题的线索;b、有助于数据的检查、有助于数据的检查纠错纠错;c、为分组提供依据。、为分组提供依据。00:569统计分组统计分组是将预处理过的数据按照是将预处理过的数据按照某种特征或标某种特征或标准准分成不同的组别。分成不同的组别。统计分组变量统计分组变量:分组时所依据的特征或标准,有:分组时所依据的特征或标准,有定性变量定性变量和和定量变量定量变量。频数分布表频数分布表:对分组后的数据,计算各组中数据对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。出现的次数或频数所形成的汇总表。预处理数据分组计算频数描述统计描述统计3.2频数分布表频数分布表00:56103.2频数分布表定性数据频数分布表定性数据1.列出各类别列出各类别3.3.计算各类别的频数计算各类别的频数3.生成频数分布表生成频数分布表不重不漏不重不漏搜索引擎搜索引擎访问量访问量访问比例访问比例Google5062954.34%Direct2217323.80%Yahoo72727.80%MSN31663.40%SnapLink9461.02%其他其他898789879.65%总计总计9317393173100%定义:选择一个定义:选择一个变量变量对对总体分组,并计算落在总体分组,并计算落在各组中的频数所形成的各组中的频数所形成的分布。分布。分组频数00:5611频数分布表频数分布表1.频数频数frequency:落在各类别中的数据:落在各类别中的数据个数个数2.比例比例proportion:某一类别数据个数占:某一类别数据个数占全部数据个数的比值全部数据个数的比值3.百分比百分比percentage:将比照的基数作为:将比照的基数作为100而计算的比值而计算的比值00:5612用用Excel生成频数分布表生成频数分布表态度态度频数频数不知道不知道9 9既不反对也不赞成既不反对也不赞成173173完全不赞成完全不赞成5050完全赞成完全赞成235235有些不赞成有些不赞成8282有些赞成有些赞成223223总计总计77277200:5613使用数据透视表使用数据透视表实例实例3.3统计图统计图如果想获得更生动的展示,我们可以使用统计图。如果想获得更生动的展示,我们可以使用统计图。统计图是用几何图形或具体事物的形象来表现统统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。计数据的一种形式。统计图既可以节省大量文字表达,又可便于数据统计图既可以节省大量文字表达,又可便于数据的比照分析与积累。利用统计图表现统计数据,能的比照分析与积累。利用统计图表现统计数据,能更为鲜明醒目、一目了然、形象具体地显示现象之更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。间的相互关系。按照图形的形式,统计图大体上可以分为几何图、按照图形的形式,统计图大体上可以分为几何图、象形图和统计地图三种。象形图和统计地图三种。00:56143.3 3.3 统计图统计图1几何图。几何图是利用几何的形和线来说明统计数据的几何图。几何图是利用几何的形和线来说明统计数据的图形,包括条形图、饼图等。图形,包括条形图、饼图等。2象形图。象形图是以表示现象本身形象的长度、大小、象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。多少来表示数值大小的一种图形。3统计地图。统计地图是用不同的颜色或纹理表示变量或统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律,用以显示不同地域事物某种指标在地域上的分布特征及规律,用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。如右图所示:某种产品的生产情况。如右图所示:00:5615条形图条形图1.用用宽宽度度相相同同的的条条形形的的高高度度或或长长短短来来表表示示各各类别数据类别数据2.各各类类别别可可放放在在纵纵轴轴,称称为为条条形形图图,可可以以放放在在横横轴轴,称称为为柱柱形形图图columnchart00:5616帕累托图帕累托图-关键的少数和次要的多数关键的少数和次要的多数1.按按各各类类别别数数据据出出现现的的频频数数多多少少排排序序后后绘绘制制的的柱柱形图形图2.用用于于展展示示分分类类数数据据的的分分布布该帕累托图说明:对网站的访问主要途径依靠该帕累托图说明:对网站的访问主要途径依靠Google和和Direct,KEEN公司需要在这两个途径上进行加强和改进。公司需要在这两个途径上进行加强和改进。图图3.8不同类型搜索引擎的频数分布表绘制的帕累托图不同类型搜索引擎的频数分布表绘制的帕累托图00:5619关键的少数关键的少数次要的多数次要的多数简单饼图简单饼图用圆形及用圆形及圆内扇形的圆内扇形的角度来表示角度来表示数值大小的数值大小的图形,主要图形,主要用于表示一用于表示一个样本或个样本或总体中各总体中各组成局部的组成局部的数据占全部数据占全部数据的比例数据的比例用于研究用于研究结构问题结构问题00:5620复合饼图例如复合饼图例如环形图环形图1.环环形形图图中中间间有有一一个个“空空洞洞,样样本本或或总总体中的每一局部数据用环中的一段表示体中的每一局部数据用环中的一段表示2.与饼图类似,但又有区别与饼图类似,但又有区别3.饼饼图图只只能能显显示示一一个个总总体体各各局局部部所所占占的的比比例例4.环环形形图图那那么么可可以以同同时时绘绘制制多多个个样样本本或或总总体体的的数数据据系系列列,每每一一个个样样本本或或总总体体的的数数据系列为一个环据系列为一个环5.用于结构比较研究用于结构比较研究00:5621环形图环形图多个总体的结构多个总体的结构00:5622多变量数据多变量数据雷达图雷达图实例实例【例例】甲甲乙乙两两班班成成绩绩如如下下。试试绘绘制制雷达图。雷达图。成绩成绩甲班人数甲班人数 乙班人数乙班人数优优3 36 6良良6 61515中中18189 9及及9 98 8不及格不及格4 42 200:5623多变量数据多变量数据雷达图雷达图00:56243.4列联表列联表之之初始初始数据数据一般,假设总体中的个体可按两个属性一般,假设总体中的个体可按两个属性A与与B分分类,类,A有有r个等级个等级A1,A2,,Ar;B有有个等级个等级B1,B2,,Bc,从总体中抽取大小为,从总体中抽取大小为n的样本,设其中的样本,设其中有有nij个属于等级个属于等级Ai和和Bj,nij称为频数,将称为频数,将r个个nij(i=1,2,,r;j=1,2,,)排列为一个排列为一个r行行列的二列的二维列联表,简称维列联表,简称r表表00:56253.4列联表列联表之之初始初始数据数据为了解不同地区或市场对一款新凉鞋款式的接受为了解不同地区或市场对一款新凉鞋款式的接受程度,程度,调查了调查了5个国家个国家772名顾客名顾客收集两个变量:态度和国家收集两个变量:态度和国家态度有态度有“完全赞成、有些赞成、既不反对也不赞完全赞成、有些赞成、既不反对也不赞成、有些不赞成、完全不赞成、不知道成、有些不赞成、完全不赞成、不知道6个水平个水平国家类别有国家类别有5个国家,表示该变量有个国家,表示该变量有5个水平个水平00:5626见练习初始数据见练习初始数据【例例2-1】对对初初始始数数据据前前面面数数据据生生成成频频数数分分布布表表,观观察察不同国家的顾客及态度分布状况,并进行描述性分析不同国家的顾客及态度分布状况,并进行描述性分析3.4列联表列联表之频数分布表之频数分布表00:5627态度态度汇总汇总比例比例累积比例累积比例不知道不知道91.2%100.0%既不反对也不赞成既不反对也不赞成 17323.4%98.8%完全不赞成完全不赞成506.5%76.4%完全赞成完全赞成23530.4%69.9%有些不赞成有些不赞成8210.6%39.5%有些赞成有些赞成22328.9%28.9%能否看出不同国家的人态度是否不同?使用数据透视表例3.4列联表列联表表表3.7对新凉鞋的接受态度的调查数据表列联表对新凉鞋的接受态度的调查数据表列联表对新凉鞋的态度对新凉鞋的态度完全赞完全赞成成有些赞成有些赞成既不反对既不反对也不赞成也不赞成有些不赞有些不赞成成完全不赞完全不赞成成不知道不知道 总计总计国国家家中国中国5258251231151法国法国3548402192154印度印度9628137100154英国英国21415023183156美国美国31484519103156总计总计23522317382509772列联表列联表contingencytable是由两个或两个以上变量进行交叉分是由两个或两个以上变量进行交叉分类得到的频数分布表。类得到的频数分布表。列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数频数或计数count。构成列联表的变量都是分类变量或顺序变量。一个构成列联表的变量都是分类变量或顺序变量。一个r行行c列的列联表列的列联表称为称为rc列联表,一般的把列联表,一般的把22的二维列联表又称为交叉表。的二维列联表又称为交叉表。列联表可以有很多维。维数多的叫做高维列联表。列联表可以有很多维。维数多的叫做高维列联表。00:56 28能否看出不同国家的人态度是否不同?3.4列联表列联表之之总的百分数总的百分数为了更便于理解,我们可以把对应于总的百分数的这为了更便于理解,我们可以把对应于总的百分数的这局部数据单独拿出来,见表。局部数据单独拿出来,见表。表表3.9展示总的百分数的列联表展示总的百分数的列联表对新凉鞋的态度对新凉鞋的态度完全赞成完全赞成 有些赞成有些赞成既不反对既不反对也不赞成也不赞成有些不赞成有些不赞成 完全不赞成完全不赞成 不知道不知道总计总计国国家家中国中国6.74%7.51%3.24%1.55%0.39%0.13%19.56%法国法国4.53%6.22%5.18%3.72%1.17%0.26%19.95%印度印度 13.44%3.63%1.68%0.91%1.30%0.00%19.95%英国英国3.72%5.31%6.48%3.98%3.33%0.39%20.21%美国美国4.02%6.22%5.83%3.46%1.30%0.39%20.21%总计总计 30.44%28.89%23.41%10.62%6.48%1.17%100%3.4列联表列联表使用列联表更感兴趣的问题是了解变量之间有使用列联表更感兴趣的问题是了解变量之间有没有关联。没有关联。比方,我们希望知道中国人完全赞成新款式的比方,我们希望知道中国人完全赞成新款式的比例与美国人完全赞成新款式的比例有没有区别,比例与美国人完全赞成新款式的比例有没有区别,换句话说,被调查者对新款式的赞成是否依赖于被换句话说,被调查者对新款式的赞成是否依赖于被调查者所在的国家。调查者所在的国家。可以从两方面看这个问题。首先,每个国家的可以从两方面看这个问题。首先,每个国家的对新凉鞋态度的分布是怎样的,这需要看表的行百对新凉鞋态度的分布是怎样的,这需要看表的行百分数,于是得到表。分数,于是得到表。00:56313.4列联表列联表之条件分布之条件分布表表3.10两个国家对新凉鞋态度的条件分布两个国家对新凉鞋态度的条件分布态度态度合计合计完全赞成完全赞成有些赞成有些赞成既不反对也不赞既不反对也不赞成成有些不赞成有些不赞成完全不赞完全不赞成成不知道不知道中国中国占比占比%52525858252512123 31 115115134.4%34.4%38.4%38.4%16.6%16.6%7.9%7.9%3.0%3.0%.7%.7%100%100%美国美国占比占比%313148484545191910103 315515519.9%19.9%30.8%30.8%28.8%28.8%13.2%13.2%6.4%6.4%1.9%1.9%100%100%00:563200:5633中美态度条形比照图中美态度条形比照图00:563400:5635哪个环代表哪个环代表中国中国/美国美国?中美态度环形比照图中美态度环形比照图3.4列联表列联表之案例之案例列联表中的一个经典例子就是著名的泰坦尼列联表中的一个经典例子就是著名的泰坦尼克号邮轮的海难数据。克号邮轮的海难数据。该数据有该数据有4个定性变量:个定性变量:1仓位等级仓位等级Class:分一等舱:分一等舱1st、二等舱二等舱2nd、三等舱、三等舱3rd、船员、船员Crew四个水平;四个水平;2性别性别Sex:有男:有男Male、女、女Female两个水平;两个水平;3年龄:有儿童年龄:有儿童Child、成年人、成年人Adult两个水平;两个水平;4是否生还是否生还Survived:分否:分否No、是是Yes两个水平。两个水平。00:5636该数据最简单的表格是该数据最简单的表格是两维两维的表格。下面是的表格。下面是基于性别与否生还两个变量得到的基于性别与否生还两个变量得到的22表格。表格。从表中可以看出男性生还的人数比女性多从表中可以看出男性生还的人数比女性多23个,但男性死亡的比女性多个,但男性死亡的比女性多1138个。个。是否生还是否生还否否是是性别性别男性男性1364367女性女性12634400:56373.4列联表列联表之案例之案例如果把四个变量都选入,就得到如果把四个变量都选入,就得到4222表。表。显然这样的表格看起来就罗唆多了。显然这样的表格看起来就罗唆多了。仓位登记仓位登记一等舱一等舱二等舱二等舱三等舱三等舱四等舱四等舱性别性别年龄年龄是否生还是否生还否否是是否否是是否否是是否否是是男性男性儿童儿童05011351300成年人成年人11857154 1438775670192女性女性儿童儿童01012171400成年人成年人41401380897632000:56383.4列联表列联表之案例之案例辛普森悖论辛普森悖论女生女生男生男生商学院商学院法学院法学院合计合计商学院商学院法学院法学院合计合计录取人数录取人数(人)(人)49150151025报考人数报考人数(人)(人)1002012020100120录取率录取率 (%)49%5%42%75%10%21%00:5639在某些情况下分在某些情况下分组占优势的一方,组占优势的一方,在总评中反而失势在总评中反而失势总结总结1、频数分布表、频数分布表2、条形图、条形图用于描述已经用频数或频率汇用于描述已经用频数或频率汇总了的定性变量。复式条形图总了的定性变量。复式条形图3、饼图:适用于显示总体各组成局部的个、饼图:适用于显示总体各组成局部的个体数量占总体的比例。体数量占总体的比例。圆环图圆环图4、百分条图:适用于多组百分比的比较、百分条图:适用于多组百分比的比较5、帕累托图:关健的少数和次要的多数、帕累托图:关健的少数和次要的多数6、列联表:了解变量之间是否有关联、列联表:了解变量之间是否有关联00:5640
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 幼儿教育


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!