第九章--属性(分类)数据分析课件

上传人:txadgkn****dgknqu... 文档编号:242018587 上传时间:2024-08-10 格式:PPT 页数:46 大小:446.80KB
返回 下载 相关 举报
第九章--属性(分类)数据分析课件_第1页
第1页 / 共46页
第九章--属性(分类)数据分析课件_第2页
第2页 / 共46页
第九章--属性(分类)数据分析课件_第3页
第3页 / 共46页
点击查看更多>>
资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,STAT,STAT,SAS软件与统计应用教程,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,STAT,STAT,SAS软件与统计应用教程,第九章 属性(分类)数据分析,9.1 属性数据及其分析,9.2 SAS中的属性数据分析,第九章 属性(分类)数据分析9.1 属性数据及其分析,1,9.1 属性数据及其分析,9.1.1 属性数据分析与列联表,9.1.2 属性变量关联性分析,9.1.3 属性变量关联度计算,9.1.4 有序变量关联性分析,9.1 属性数据及其分析,2,9.1.1 属性数据分析与列联表,1.属性变量与属性数据分析,从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。,对属性数据进行分析,将达到以下几方面的目的:,1)产生汇总分类数据列联表;,2)检验属性变量间的独立性(无关联性);,3)计算属性变量间的关联性统计量;,4)对高维数据进行分层分析和建模。,9.1.1 属性数据分析与列联表,2.列联表,列联表(contingency table)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。,2.列联表,表9-1 关于改革方案的调查结果(单位:人),表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为2,4表。,一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,68,75,57,79,279,反对该方案,32,45,33,31,141,合计,100,120,90,110,420,表9-1 关于改革方案的调查结果(单位:人)一分公司二分公,交叉表的基本形式如图9-1所示。,这是一张具有,r,行和,c,列的一般列联表,称它为,r,c,表。其中,第,i,行第,j,列的单元表示为单元,ij,。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用,n,表示,在单元,ij,中的观测个数表示为,n,ij,,称为单元频数。,列,行,第1列,第2列,第c列,行边缘频数,第1行,n,11,n,12,n,1,c,第2行,n,21,n,22,n,2,c,第,r,行,n,r,1,n,r,2,n,rc,列边缘频数,交叉表的基本形式如图9-1所示。列行第1列第2列第,9.1.2 属性变量关联性分析,对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。,属性变量关联性检验的假设为,H,0,:变量之间无关联性;H,1,:变量之间有关联性,由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:,H,0,:变量之间独立;H,1,:变量之间不独立,9.1.2 属性变量关联性分析,1.,2,检验,在双向表的情形下,如果行变量与列变量无关联性的原假设H,0,成立,则列联表中各行的相对分布应近似相等,即,(,j,=1,2,,c,),或,(,j,=1,2,,c,),其中,m,ij,称为列联表中单元,ij,在无关联性假设下的期望频数,而,n,ij,是单元,ij,的观测频数。,1.2检验,为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是,2,检验。,2,统计量为:,在H,0,成立的条件下,当观测数据较大时,,2,统计量的分布近似服从自由度为(,r,-1)(,c,1)的,2,分布。,为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元,由于,2,分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的,2,值往往偏大,相应的,p,值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正,2,,用,C,2,表示。,注:通常要求,2,检验应满足的条件是:,n,40且所有单元的期望频数均不小于5。,2,校正的条件:,n,40但有单元的期望频数小于5。,由于2分布是一种连续性分布,而属性数据是不连续的,故上式只,2.Fisher精确检验,Fisher精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。,Fisher精确检验计算在H,0,成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率,p,之和,对于双边检验,,A,是具有概率,p,小于或等于观测表概率的表的集合;对于左(右)边检验,,A,是这样一些表的集合,其中每个表的单元,ij,中频数小于(大于)或等于观测表中相应的频数。,2.Fisher精确检验,9.1.3 属性变量关联度计算,1.系数,系数是描述2,2表数据关联程度最常用的一种相关系数。其计算公式为:,其中,,2,即,2,统计量。,|,|的取值范围是在0 1之间,,的绝对值越大,说明行变量与列变量的关联程度越高。,=0,表示变量之间相互独立;|,|,=1,表示变量之间完全相关,此时列联表某个方向对角线上的值全为0。,当列联表,r,c,中的行数,r,或列数,c,大于2时,,系数将随着,r,或,c,变大而变大,且,无上界。此时可用列联系数。,9.1.3 属性变量关联度计算,2.列联系数,列联系数(Contingency coefficient)简称为c系数,主要用于大于2,2表的情况。c系数的计算公式为:,c系数的取值范围:1 c A2且B1B2,或A1A2且B1B2则称该对观测是不一致的。,9.1.4 有序变量关联性分析,用,P,表示所有观测对中一致对的个数,,Q,表示所有观测对中不一致对的个数。,统计量(Gamma)的定义为:,b,统计量(Kendal Tau-b)的定义为:,c,统计量(Kendal Tau-c)的定义为:,其中,m,=min(,r,,,c,)。,这三个统计量的取值均在-1.0到1.0之间,值接近于1.0表示正关联,接近于-1.0表示负关联,等于0表示没有相关关系。,用P表示所有观测对中一致对的个数,Q表示所有观测对中,9.2 SAS中的属性数据分析,9.2.1 2,2表的分析,9.2.2 r,c表的分析,9.2.3 分层列联表分析,9.2.4 有序变量的关联性分析,9.2 SAS中的属性数据分析,17,9.2.1 2,2表的分析,【例9-1】为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:,表9-2 吸烟与慢性支气管炎的关系调查表,设想有两个随机变量:,x,表示吸烟与否,,y,表示患慢性支气管炎与否。检验吸烟与患慢性支气管炎有无关系,即检验,x,与,y,是否相互独立。数据集mylib.zqgy如图:,原假设H,0,:,x,与,y,相互独立,患慢性支气管炎,未患慢性支气管炎,吸烟,43,162,不吸烟,13,121,9.2.1 22表的分析患慢性支气管炎未患慢性支气管炎吸,表9-2中数据使用如下代码存入数据集mylib.bron,形式如图9-2所示。,data mylib.bron;,input x$y$numcell;,label x=吸烟 y=慢性支气管炎;,cards;,吸烟 患病 43,吸烟 未患 162,不吸烟 患病 13,不吸烟 未患 121,;,Run;,表9-2中数据使用如下代码存入数据集mylib.br,1.分析步骤,1)在“分析家”中,打开数据集Mylib.bron;,2)选择菜单:,“Statistics”“Table Analysis”,打开“Table Analysis”对话框;,3)选中变量smoke,单击“Row”按钮,将其移到行变量框中;选中变量bron,单击按钮“Column”,将其移到列变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;,1.分析步骤 3)选中变量smoke,单击“Row,4)为了使用,2,统计量检验变量的关联性,单击“Statistics”按钮,打开“Table Analysis:Statistics”对话框,选中“Statistics”栏下的“Chi-square Statistics”复选框,如图9-4所示。,图9-4 “Table Analysis:Statistics”对话框,单击“OK”按钮,返回。,4)为了使用2统计量检验变量的关联性,单击“St,5)为了在列联表中显示各种频数、百分数,单击“Tables(列联表)”按钮,打开“Table Analysis:Tables”对话框。选中“Frequencies(频数)”栏下的“Expected(期望)”复选框,取消“Percentages(百分数)”栏下的复选框,如图9-5所示。,图9-5 “Table Analysis:Tables”对话框,两次单击“OK”按钮,得到分析结果。,5)为了在列联表中显示各种频数、百分数,单击“Ta,2.结果分析,列联表中列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行),可以看出,吸烟人中患病的观测频数比期望频数大(图9-6所示),说明吸烟与患病又一定关系。,2.结果分析,进一步检验的结果只要看后面(图9-7)统计量部分的Chi Square一行,其值为7.4688,,p,值为0.0063,所以应拒绝原假设,作出结论:吸烟与患慢性支气管炎是有关联的。当然,这个关联度不是很大,三个关联度系数均在0.15左右。,对于两行两列的表格FREQ过程自动给出Fisher精确检验的结果,其双侧检验,p,值为0.0069,应拒绝原假设。,进一步检验的结果只要看后面(图9-7)统计量部分的C,9.2.2 r,c表的分析,【例9-2】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如表9-3所示。要求检验各个地区和原料质量之间是否存在依赖关系。,表9-3 原料抽样的结果,一级,二级,二级,甲地区,52,64,24,乙地区,60,59,52,丙地区,50,65,74,9.2.2 r c表的分析一级二级二级甲地区52642,设表9-3数据已经存放在数据集mylib.yldj中,如图9-9所示。,图9-9 数据集mylib.yldj,检验的原假设为H0:地区和原料等级之间是独立的(不存在依赖关系)。,设表9-3数据已经存放在数据集mylib.yldj中,如图9,1.分析步骤,1)在“分析家”中,打开数据集Mylib.yldj;,2)选择菜单“Statistics”“Table Analysis”,打开“Table Analysis”对话框;,3)选中变量x,单击“Row”按钮,将其移到行变量框中;选中变量y,单击按钮“Column”,将其移到列变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;,1.分析步骤,4)为了使用,2,统计量检验变量的关联性,单击“Statistics”按钮,打开“Table Analysis:Statistics”对话框,选中“Statistics”栏下的“Chi-square Statistics”复选框;考虑对列联表作Fisher精确检验,选中“Exact test”栏下的“Exact test for(r x c)table”复选框,如图所示。,图9-11 “Table Analysis:Tables”对话框,单击“OK”按钮,返回。,4)为了使用2统计量检验变量的关联性,单击“St,5)为了在列联表中显示各种频数、百分数,单击“Tables(列联表)”按钮,打开“Table Analysis:Tables”对话框。选中“Frequencies(频数)”栏下的“Expected(期望)”复选框,取消“Percentages(百分数)”栏下的复选框,如图9-11所示。,两次单击“OK”按钮,得到分析结果。,5)为了在列联表中显示各种频数、百分数,单击“Ta,2.结果分析,列联表(图9-12)中列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行)。,2.结果分析,进一步检验的结果要看(图左)统计量部分的Chi Square一行,其值为19.8225,,p,值为0.0005,所以应拒绝原假设,作出结论:地区与原料等级是有关联的。这里的关联度系数取值分别是0.1991、0.1953、0.1408。,图右给出Fisher精确检验结果,其双侧检验,p,值远小于0.05,也应拒绝原假设。,进一步检验的结果要看(图左)统计量部分的Chi Sq,9.2.3 分层列联表分析,【例9-3】对294人进行性别(sex)、饮酒(drink)与抑郁症(cases)关系的调查,结果见表9-4。要求检验三者之间是否存在关联性。,表9-4 性别、饮酒与抑郁症关系的调查,设表9-4的数据已经存放在数据集mylib.cesd中,形式如图9-15所示。,饮酒,不饮,性别,正常,患病,正常,患病,男,87,8,14,2,女,106,33,37,7,9.2.3 分层列联表分析饮酒不饮性别正常患病正常患病男8,1.分析步骤,1)在“分析家”中,打开数据集Mylib.cesd;,2)选择菜单“Statistics”“Table Analysis”,打开“Table Analysis”对话框;,3)选中变量sex,单击“Row”按钮,将其移到行变量框中;选中变量cases,单击按钮“Column”,将其移到列变量框中;选中变量drink,单击按钮“Strata”,将其移到分层变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;,1.分析步骤 3)选中变量sex,单击“Row”按,4)单击“Select Tab(选择表)”按钮,打开“Table Analysis:Select Tab”对话框。在“Select tables(选择列联表或分层表)”选项区域中选择“SEX*CASES,DRINK*SEX*CASES”两项,如图9-17所示。,单击“OK”按钮返回。,4)单击“Select Tab(选择表)”按钮,打,5)单击“Statistics”按钮,打开“Table Analysis:Statistics”对话框,选中“Statistics”栏下的“Chi-square Statistics”复选框,如图左所示。单击“OK”按钮返回。,6)单击“Tables”按钮,打开“Table Analysis:Tables”对话框。选中“Frequencies”栏下的“Expected”复选框,取消“Percentages”栏下的复选框,如图9-19所示。,5)单击“Statistics”按钮,打开“Tab,2.结果分析,结果分为三个部分:不论饮酒与否、只考虑饮酒者、只考虑不饮酒者。,1)不论饮酒与否:,列联表(图9-20左)列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行)。可以看出女性患抑郁症的频数大于期望频数,因此有可能女性比男性更易患抑郁症。,2.结果分析,进一步检验的结果要看,2,检验与Fisher精确检验结果。由图看出,2,统计量的值为8.0815,,p,值为0.0045;Fisher精确检验的双侧检验,p,值为0.040,所以应拒绝原假设,作出结论:男女性别与患抑郁症与否是有关联的。但是,对于2,2表来说,这里的,系数为-0.1658,说明性别与患抑郁症的关联度不是很大。,进一步检验的结果要看2检验与Fisher精确检验结,2)只考虑不饮酒者(Controlling for DRINK=不饮):,从列联表(图左)和检验统计量(图右)可以看出虽然女性患抑郁症的频数略大于期望频数,但,2,统计量的值为0.1070,,p,值为0.7436;Fisher精确检验的双侧检验,p,值为1.0000,所以无法拒绝原假设,即对于不饮酒者来说,患抑郁症与性别因素无关联。,2)只考虑不饮酒者(Controlling for,3)只考虑饮酒者(Controlling for DRINK=饮酒):,从列联表(图左)和检验统计量(图右)可以看出女性患抑郁症的频数大于期望频数,因此有可能女性比男性更易患抑郁症。,3)只考虑饮酒者(Controlling for,进一步检验的结果图9-22右看出,2,统计量的值为9.1649,,p,值为0.0025;Fisher精确检验的双侧检验,p,值为0.0027,所以应拒绝原假设,作出结论:对于饮酒者来说,男女性别与患抑郁症与否是有关联的,女性饮酒者更容易患抑郁症。,进一步检验的结果图9-22右看出2统计量的值为9.1649,9.2.4 有序变量的关联性分析,【例9-4】研究奶牛种群大小与其患某种细菌性疾病的关系。牛的患病程度(disease)分为没有(0)、低(1)、高(2),牛群大小(herdsize)分为小(1)、中(2)、大(3)。根据患病程度和牛群大小记录的九个类中动物的头数见表。,表9-5 奶牛疾病与牛群大小的数据,设表9-5的数据已经存放在数据集mylib.cows中,形式如图9-23所示。,没有(0),低(1),高(2),小,9,5,9,中,18,4,19,大,11,88,136,9.2.4 有序变量的关联性分析没有(0)低(1)高(2),1.分析步骤,1)在“分析家”中,打开数据集Mylib.cows;,2)选择菜单“Statistics”“Table Analysis”,打开“Table Analysis”对话框;,3)选中变量herdsize,单击“Row”按钮,将其移到行变量框中;选中变量disease,单击按钮“Column”,将其移到列变量框中;选中变量numcell,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;,1.分析步骤 3)选中变量herdsize,单击“,4)单击“Statistics(统计量)”按钮,打开“Table Analysis:Statistics”对话框,选中“Statistics”栏下的“Chi-square Statistics”与“Measures of association”复选框,如图9-25所示。,单击“OK”按钮返回。,4)单击“Statistics(统计量)”按钮,打,5)单击“Tables(列联表)”按钮,打开“Table Analysis:Tables”对话框。选中“Frequencies(频数)”栏下的“Expected(期望)”复选框,取消“Percentages(百分数)”栏下的复选框,如图9-26所示。,两次单击“OK”按钮,得到分析结果。,5)单击“Tables(列联表)”按钮,打开“Ta,2.结果分析,列联表(图)列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行)。从列联表中实际频数与期望频数的对比可以看出,小的种群患病比期望频数轻,大的种群患病比期望频数重,即患病程度与种群大小有正的关联。,2.结果分析,2,统计量的值为67.0411,,p,值为0.0001,所以应拒绝原假设,作出结论:患病程度与种群大小是有关联的。而且,这里的,c,系数达0.4280,说明患病程度与种群大小的关联度是相当大的。,2统计量的值为67.0411,p值为0.0001,,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!