独立性检验的基本思想及其初步应用-课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,上节学习了回归分析的基本方法线性回归模型,y,bx,a,e,不同于一次函数,y,bx,a,，含有,_,，其中,x,为,_,，,y,为,_.,温故夯基,随机误差,e,解释变量,预报变量,样本点的中心,残差平方和,1上节学习了回归分析的基本方法线性回归模型ybxa,1.2,独立性检验的基本思想,及初步应用,1.2,1,、两个相关的概念,对于性别变量，其取值为男和女两种，这种变量的,不同“值”表示个体,所属的不同类别,，像这样的变量称为,分类变量，也称为,属性变量或定性变量,，它们的取值一定是,离散的,，而且不同的取值仅表示个体所属的类别。,（,1,）分类变量：,定量变量的取值一定是实数，它们的取值大小有,特定的含义，不同取值之间的运算也有特定的含义。,（,2,）定量变量：,例如身高、体重、考试成绩等，张明的身高是,180cm,，李立的,身高是,175cm,，说明张明比李立高,180-175=5,（,cm,）。,1、两个相关的概念对于性别变量，其取值为男和,独立性检验,本节研究的是,两个分类变量的独立性检验问题,。,在日常生活中，我们常常关心,分类变量的之间是否有关系,独立性检验,独立性检验,独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,问题,:,为了调查吸烟是否对肺癌有影响，某肿瘤研究所随机地调查了,9965,人，得到如下结果（单位：人）,列联表,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,说明：吸烟者和不吸烟者患肺癌的可能性存在差异，吸烟者患肺癌的可能性大,0.54%,2.28%,与表格相比，三维柱形图和二维条形图能更直观地反映出相关数据的总体状况。,吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟77754278,1),通过图形直观判断两个分类变量是否相关：,三维柱状图,1)通过图形直观判断两个分类变量是否相关：三维柱状图,2),通过图形直观判断两个分类变量是否相关：,二维条形图,2)通过图形直观判断两个分类变量是否相关：二维条形图,3),通过图形直观判断两个分类变量是否相关：,患肺癌,比例,不患肺癌,比例,等高条形图,3)通过图形直观判断两个分类变量是否相关：患肺癌不患肺癌等高,独立性检验,H,0,：,吸烟,和,患肺癌,之间没有关系,H,1,：,吸烟,和,患肺癌,之间有关系,通过数据和图表分析，得到结论是：,吸烟与患肺癌有关,结论的可靠程度如何？,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,独立性检验H0：吸烟和患肺癌之间没有关系通过数据和图表分,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟c,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟与患肺癌的列联表：,如果,“,吸烟与患肺癌没有关系,”,，则,在吸烟者中不患肺癌,的比例应该与,6,中相应的,比例应差不多,，即,|ad-bc|,越小，说明吸烟与患肺癌之间关系越弱；,|ad-bc|,越大，说明吸烟与患肺癌之间关系越强,.,不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb,引入一个随机变量,作为检验在,多大程度上,可以认为,“,两个变量有关系,”,的标准。,0.50,0.40,0.25,0.15,0.10,0.455,0.708,1.323,2.072,2.706,0.05,0.025,0.010,0.005,0.001,3.841,5.024,6.635,7.879,10.828,0.05,0.025,0.010,0.005,0.001,3.841,5.024,6.635,7.879,10.828,0.50,0.40,0.25,0.15,0.10,0.455,0.708,1.323,2.072,2.706,引入一个随机变量作为检验在多大程度上可以认为“两个变,独立性检验,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,通过公式计算,独立性检验吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟77,在,H,0,成立的情况下，统计学家估算出如下的概率：,也就是说，在,H,0,成立的情况下，对随机变量,K,2,进行多次观测，,观测值超过,6.635,的频率约为,0.01,，是一个小概率事件,.,现在,K,2,的观测值为,56.632,，远远大于,6.635,，所以,有理由断定,H,0,不成立,，即认为,“,吸烟与患肺癌有关系,”,但这种判断会犯错误，,犯错误的概率不会超过,0.01,，即我们,有,99,的把握认为“吸烟与患肺癌有关系”,.,在H0成立的情况下，统计学家估算出如下的概率：也就是说，在H,利用随机变量,K,2,来确定在,多大程度上,可以认为,“,两个分类变量有关系,”,的方法称为两个分类变量的,独立性检验,.,独立性检验：,如果，就判断,H,0,不成立；,否则,就判断,H,0,成立,.,即在成立的情况下，,K,2,大于,6.635,概率非常小，近似为,0.01,利用随机变量K2来确定在多大程度上可以认为“两个分类,独立性检验的基本思想：,(,类似于数学上的反证法，对“两个分类变量有关系”这一结论成立可信程度的判断,),：,（,1,）假设该结论不成立，即假设结论,“,两个分类变量,没有关系,”,成立,.,（,2,）在假设条件下，计算构造的随机变量,K,2,，如果由观测数据计算得到的,K,2,很大，则在一定程度上说明假设不合理,.,（,3,）根据随机变量,K,2,的含义，可以通过（,2,）式评价假设不合理的程度，由实际计算出的,k6.635,，说明假设不合理的程度约为,99%,，,即,“两个分类有关系”这一结论成立的可信程度约为,99%.,独立性检验的基本思想：,利用独立性检验来考察两个分类变量是否有关系，能较精确地给出这种判断的可靠程度,.,具体作法是：,（,1,）根据实际问题需要的可信程度确定临界值,k,0,；,（,2,）由观测数据计算得到随机变量,K,2,的观测值,k,；,（,3,）如果,k6.635,，就以,1-P(K,2,6.635)100%,的把握认为“,X,与,Y,有关系”；否则就说样本观测数据没有提供“,X,与,Y,有关系”的充分证据,.,利用独立性检验来考察两个分类变量是否有关系，能较精确地,设要判断的结论为：,H,1,：“,X,与,Y,有关系”,1,、通过三维柱形图和二维条形图，可以粗略地判断两个变量是否有关系。,（,1,）在三维柱形图中，主对角线上两个柱形高度的乘积,ad,与副对角线上的乘积,bc,相差越大，,H,1,成立的可能性就越大。,（,2,）在二维条形图中，,(x,1,y,1,),个体所占的比例与,(x,2,y,1,),个体所占的比例,两个比例相差越大，,H,1,成立的可能性就越大。,2,、可以利用独立性检验来考察两个分类变量是否有关系，并且能较精确地给出这种判断的可靠程度。,独立性检验的一般步骤：,2x2,列联表,y,1,y,2,总计,x,1,a,b,a+b,x,2,c,d,c+d,总计,a+c,b+d,a+b+c+d,设要判断的结论为：H1：“X与Y有关系”,10.828,7.879,6.635,5.024,3.841,2.706,2.072,1.323,0.708,0.445,k,0.001,0.005,0.010,0.025,0.05,0.10,0.15,0.5,0.40,0.50,（,1,）如果,k10.828,，就有,99.9%,的把握认为,“,X,与,Y,有关系,”,；,（,2,）如果,k7.879,，就有,99.5%,的把握认为,“,X,与,Y,有关系,”,；,（,3,）如果,k6.635,，就有,99%,的把握认为“,X,与,Y,有关系”；,（,4,）如果,k5.024,，就有,97.5%,的把握认为,“,X,与,Y,有关系,”,；,（,5,）如果,k3.841,，就有,95%,的把握认为,“,X,与,Y,有关系,”,；,（,6,）如果,k2.706,，就有,90%,的把握认为,“,X,与,Y,有关系,”,；,（,7,）如果,k=2.706,，就认为没有充分的证据显示,“,X,与,Y,有关系,”,.,临界值,10.8287.8796.6355.0243.8412.70,分类变量之间关系,条形图,柱形图,列联表,独立性检验,背景分析,分类变量之间关系条形图柱形图列联表独立性检验背景分析,例,1.,秃头与患心脏病,在某医院，因为患心脏病而住院的,665,名男性病人中，有,214,人秃顶；而另外,772,名不是因为患心脏病而住院的男性病人中有,175,人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏,病是否有关系？你所得的结论在什么范围内有效？,解：根据题目所给数据得到如下列联表,1-13,：,患心脏病,不患心脏病,总计,秃顶,214,175,389,不秃顶,451,597,1048,总计,665,772,1437,根据联表,1-13,中的数据，得到,所以有,99%,的把握认为“秃顶患心脏病有关”。,例1.秃头与患心脏病在某医院，因为患心脏病而,为考察高中生的性别与是否喜欢数学课程之间的,关系，在某城市的某校高中生中随机抽取,300,名学生，,得到如下联表：,喜欢数学课程,不喜欢数学课程,总计,男,37,85,122,女,35,143,178,总计,72,228,300,解：在假设“性别与是否喜欢数学课程之间没有关系”的前提,下,K,2,应该很小，并且,例,2.,性别与喜欢数学课,由表中数据计算,K,2,的观测值,k 4.513,。在多大程度上可以认,为高中生的性别与是否喜欢数学课程之间有关系？为什么？,而我们所得到的,K,2,的观测值,k 4.513,超过,3.841,，这就意味着,“性别与是否喜欢数学课程之间有关系”这一结论错误的可能,性约为,0.05,，即有,95%,的把握认为“性别与是否喜欢数学课程,之间有关系”。,为考察高中生的性别与是否喜欢数学课程之间的喜欢数,思考：,例,1,、,2,的结论是否适用于普通的对象？,在掌握了两个分类变量的独立性检验方法,之后，就可以模仿例,1,中的计算解决实际问,题，而没有必要画相应的图形。,图形可帮助向非专业人士解释所得结果；,也可以帮助我们判断所得结果是否合理,例,1,这组数据来自住院的病人，因此所得到的结论适合住院,的病人群体例,2,的结论只适合被调查的学校。,大家要注意统计结果的适用范围（这由样本的代表性所决定）,思考：例1、2的结论是否适用于普通的对象？在掌,独立性检验基本的思想类似,反证法,(,1),假设结论不成立,即,“,两个分类变量没有关系,”,.,(2),在此假设下随机变量,K,2,应该很能小,如果由观测数据,计算得到,K,2,的观测值,k,很大,则在一定程度上说明假设,不合理,.,(3),根据随机变量,K,2,的含义,可以通过,评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为,99.9%,即,“,两个分类变量有关系,”,这一结论成立的可信度为约为,99.9%.,独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个,知新益能,1,22,列联表与等高条形图,(1),分类变量的定义,变量的不同,“,值,”,表示个体所属的

展开阅读全文

独立性检验的基本思想及其初步应用-课件

最新文档