资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,上节学习了回归分析的基本方法线性回归模型,y,bx,a,e,不同于一次函数,y,bx,a,,含有,_,,其中,x,为,_,,,y,为,_.,温故夯基,随机误差,e,解释变量,预报变量,样本点的中心,残差平方和,1上节学习了回归分析的基本方法线性回归模型ybxa,1.2,独立性检验的基本思想,及初步应用,1.2,1,、两个相关的概念,对于性别变量,其取值为男和女两种,这种变量的,不同“值”表示个体,所属的不同类别,,像这样的变量称为,分类变量,也称为,属性变量或定性变量,,它们的取值一定是,离散的,,而且不同的取值仅表示个体所属的类别。,(,1,)分类变量:,定量变量的取值一定是实数,它们的取值大小有,特定的含义,不同取值之间的运算也有特定的含义。,(,2,)定量变量:,例如身高、体重、考试成绩等,张明的身高是,180cm,,李立的,身高是,175cm,,说明张明比李立高,180-175=5,(,cm,)。,1、两个相关的概念 对于性别变量,其取值为男和,独立性检验,本节研究的是,两个分类变量的独立性检验问题,。,在日常生活中,我们常常关心,分类变量的之间是否有关系,独立性检验,独立性检验,独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,问题,:,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了,9965,人,得到如下结果(单位:人),列联表,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大,0.54%,2.28%,与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况。,吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟77754278,1),通过图形直观判断两个分类变量是否相关:,三维柱状图,1)通过图形直观判断两个分类变量是否相关:三维柱状图,2),通过图形直观判断两个分类变量是否相关:,二维条形图,2)通过图形直观判断两个分类变量是否相关:二维条形图,3),通过图形直观判断两个分类变量是否相关:,患肺癌,比例,不患肺癌,比例,等高条形图,3)通过图形直观判断两个分类变量是否相关:患肺癌不患肺癌等高,独立性检验,H,0,:,吸烟,和,患肺癌,之间没有关系,H,1,:,吸烟,和,患肺癌,之间有关系,通过数据和图表分析,得到结论是:,吸烟与患肺癌有关,结论的可靠程度如何?,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,独立性检验H0:吸烟和患肺癌之间没有关系通过数据和图表分,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟c,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟与患肺癌的列联表:,如果,“,吸烟与患肺癌没有关系,”,,则,在吸烟者中不患肺癌,的比例应该与,6,中相应的,比例应差不多,,即,|ad-bc|,越小,说明吸烟与患肺癌之间关系越弱;,|ad-bc|,越大,说明吸烟与患肺癌之间关系越强,.,不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb,引入一个随机变量,作为检验在,多大程度上,可以认为,“,两个变量有关系,”,的标准。,0.50,0.40,0.25,0.15,0.10,0.455,0.708,1.323,2.072,2.706,0.05,0.025,0.010,0.005,0.001,3.841,5.024,6.635,7.879,10.828,0.05,0.025,0.010,0.005,0.001,3.841,5.024,6.635,7.879,10.828,0.50,0.40,0.25,0.15,0.10,0.455,0.708,1.323,2.072,2.706,引入一个随机变量 作为检验在多大程度上可以认为“两个变,独立性检验,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,通过公式计算,独立性检验 吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟77,在,H,0,成立的情况下,统计学家估算出如下的概率:,也就是说,在,H,0,成立的情况下,对随机变量,K,2,进行多次观测,,观测值超过,6.635,的频率约为,0.01,,是一个小概率事件,.,现在,K,2,的观测值为,56.632,,远远大于,6.635,,所以,有理由断定,H,0,不成立,,即认为,“,吸烟与患肺癌有关系,”,但这种判断会犯错误,,犯错误的概率不会超过,0.01,,即我们,有,99,的把握认为“吸烟与患肺癌有关系”,.,在H0成立的情况下,统计学家估算出如下的概率:也就是说,在H,利用随机变量,K,2,来确定在,多大程度上,可以认为,“,两个分类变量有关系,”,的方法称为两个分类变量的,独立性检验,.,独立性检验:,如果 ,就判断,H,0,不成立;,否则,就判断,H,0,成立,.,即在 成立的情况下,,K,2,大于,6.635,概率非常小,近似为,0.01,利用随机变量K2来确定在多大程度上可以认为“两个分类,独立性检验的基本思想:,(,类似于数学上的反证法,对“两个分类变量有关系”这一结论成立可信程度的判断,),:,(,1,)假设该结论不成立,即假设结论,“,两个分类变量,没有关系,”,成立,.,(,2,)在假设条件下,计算构造的随机变量,K,2,,如果由观测数据计算得到的,K,2,很大,则在一定程度上说明假设不合理,.,(,3,)根据随机变量,K,2,的含义,可以通过(,2,)式评价假设不合理的程度,由实际计算出的,k6.635,,说明假设不合理的程度约为,99%,,,即,“两个分类有关系”这一结论成立的可信程度约为,99%.,独立性检验的基本思想:,利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度,.,具体作法是:,(,1,)根据实际问题需要的可信程度确定临界值,k,0,;,(,2,)由观测数据计算得到随机变量,K,2,的观测值,k,;,(,3,)如果,k6.635,,就以,1-P(K,2,6.635)100%,的把握认为“,X,与,Y,有关系”;否则就说样本观测数据没有提供“,X,与,Y,有关系”的充分证据,.,利用独立性检验来考察两个分类变量是否有关系,能较精确地,设要判断的结论为:,H,1,:“,X,与,Y,有关系”,1,、通过三维柱形图和二维条形图,可以粗略地判断两个变量是否有关系。,(,1,)在三维柱形图中,主对角线上两个柱形高度的 乘积,ad,与副对角线上的乘积,bc,相差越大,,H,1,成 立的可能性就越大。,(,2,)在二维条形图中,,(x,1,y,1,),个体所占的比例与,(x,2,y,1,),个体所占的比例,两个比例相差越大,,H,1,成立的可能性就越大。,2,、可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。,独立性检验的一般步骤:,2x2,列联表,y,1,y,2,总计,x,1,a,b,a+b,x,2,c,d,c+d,总计,a+c,b+d,a+b+c+d,设要判断的结论为:H1:“X与Y有关系”,10.828,7.879,6.635,5.024,3.841,2.706,2.072,1.323,0.708,0.445,k,0.001,0.005,0.010,0.025,0.05,0.10,0.15,0.5,0.40,0.50,(,1,)如果,k10.828,,就有,99.9%,的把握认为,“,X,与,Y,有关系,”,;,(,2,)如果,k7.879,,就有,99.5%,的把握认为,“,X,与,Y,有关系,”,;,(,3,)如果,k6.635,,就有,99%,的把握认为“,X,与,Y,有关系”;,(,4,)如果,k5.024,,就有,97.5%,的把握认为,“,X,与,Y,有关系,”,;,(,5,)如果,k3.841,,就有,95%,的把握认为,“,X,与,Y,有关系,”,;,(,6,)如果,k2.706,,就有,90%,的把握认为,“,X,与,Y,有关系,”,;,(,7,)如果,k=2.706,,就认为没有充分的证据显示,“,X,与,Y,有关系,”,.,临界值,10.8287.8796.6355.0243.8412.70,分类变量之间关系,条形图,柱形图,列联表,独立性检验,背景分析,分类变量之间关系条形图柱形图列联表独立性检验背景分析,例,1.,秃头与患心脏病,在某医院,因为患心脏病而住院的,665,名男性病人中,有,214,人秃顶;而 另外,772,名不是因为患心脏病而住院的男性病人中有,175,人秃顶。分别利用 图形和独立性检验方法判断秃顶与患心脏,病是否有关系?你所得的结论在 什么范围内有效?,解:根据题目所给数据得到如下列联表,1-13,:,患心脏病,不患心脏病,总计,秃顶,214,175,389,不秃顶,451,597,1048,总计,665,772,1437,根据联表,1-13,中的数据,得到,所以有,99%,的把握认为“秃顶患心脏病有关”。,例1.秃头与患心脏病 在某医院,因为患心脏病而,为考察高中生的性别与是否喜欢数学课程之间的,关系,在某城市的某校高中生中随机抽取,300,名学生,,得到如下联表:,喜欢数学课程,不喜欢数学课程,总计,男,37,85,122,女,35,143,178,总计,72,228,300,解:在假设“性别与是否喜欢数学课程之间没有关系”的前提,下,K,2,应该很小,并且,例,2.,性别与喜欢数学课,由表中数据计算,K,2,的观测值,k 4.513,。在多大程度上可以认,为高中生的性别与是否喜欢数学课程之间有关系?为什么?,而我们所得到的,K,2,的观测值,k 4.513,超过,3.841,,这就意味着,“性别与是否喜欢数学课程之间有关系”这一结论错误的可能,性约为,0.05,,即有,95%,的把握认为“性别与是否喜欢数学课程,之间有关系”。,为考察高中生的性别与是否喜欢数学课程之间的喜欢数,思考:,例,1,、,2,的结论是否适用于普通的对象?,在掌握了两个分类变量的独立性检验方法,之后,就可以模仿例,1,中的计算解决实际问,题,而没有必要画相应的图形。,图形可帮助向非专业人士解释所得结果;,也可以帮助我们判断所得结果是否合理,例,1,这组数据来自住院的病人,因此所得到的结论适合住院,的病人群体例,2,的结论只适合被调查的学校。,大家要注意统计结果的适用范围(这由样本的代表性所决定),思考:例1、2的结论是否适用于普通的对象?在掌,独立性检验基本的思想类似,反证法,(,1),假设结论不成立,即,“,两个分类变量没有关系,”,.,(2),在此假设下随机变量,K,2,应该很能小,如果由观测数据,计算得到,K,2,的观测值,k,很大,则在一定程度上说明假设,不合理,.,(3),根据随机变量,K,2,的含义,可以通过,评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为,99.9%,即,“,两个分类变量有关系,”,这一结论成立的可信度为约为,99.9%.,独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个,知新益能,1,22,列联表与等高条形图,(1),分类变量的定义,变量的不同,“,值,”,表示个体所属的
展开阅读全文