资源描述
1.2 独立性检验的基本思想及其初步应用,定量变量,的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义,.,如身高、体重、考试成绩、温度等等,.,变量,定量变量,分类变量,两个定量变量的相关关系分析:回归分析(画散点图、相关指数,R,2,、残差分析),(定性变量),对于性别变量,其取值为男和女两种,这种变量的不同“,值,”表示个体所属的不同类别,像这样的变量称为,分类变量,.,在日常生活中,主要考虑,分类变量之间是否有关系,:,如是否吸烟、宗教信仰、是否患肺癌、国籍等等,.,例如,吸烟是否与患肺癌有关系?,性别是否对于喜欢数学课程有影响?等等,.,分类变量也称为,属性变量,或,定性变量,,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,两个分类变量的相关关系的分析:,通过图形直观判断两个分类变量是否相关;,独立性检验.,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,由列联表可以粗略估计出,在不吸烟者中,有,0.54%,患有肺癌;在吸烟者中,有,2.28%,患有肺癌。因此,直观上可以得到结论:,吸烟者和不吸烟者患肺癌的可能性存在差异,.,与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况,.,为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了,9965,人,得到如下结果(单位:人):,吸烟与患肺癌,列联表,(列出两个分类变量的频数表):,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,1,、列联表,2,、三维柱形图,3,、二维条形图,不患肺癌,患肺癌,吸烟,不吸烟,不患肺癌,患肺癌,吸烟,不吸烟,0,8000,7000,6000,5000,4000,3000,2000,1000,从三维柱形图能清晰看出各个频数的相对大小,.,从二维条形图能看出,吸烟者中,患肺癌的比例高于不患肺癌的比例,.,不吸烟,吸烟,患肺癌,比例,不患肺癌,比例,4,、等高条形图,等高条形图更清晰地表达了两种情况下患肺癌的比例,.,上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?这需要用,统计观点,来考察这个问题,.,现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设:,H,0,:吸烟与患肺癌没有关系,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,把数字用字母代替,得到如下用字母表示的列联表:,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟与患肺癌的列联表:,如果“吸烟与患肺癌没有关系”,则在吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例应差不多,即,|ad-bc|,越小,说明吸烟与患肺癌之间关系越弱;,|ad-bc|,越大,说明吸烟与患肺癌之间关系越强,.,为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量,若,H,0,成立,即“吸烟与患肺癌没有关系”,则,K,2,应很小,.,由列联表中数据,利用公式(,1,)计算得,K,2,的观测值为:,(,1,),其中,n=a+b+c+d,为样本容量,.,在,H,0,成立的情况下,统计学家估算出如下的概率:,也就是说,在,H,0,成立的情况下,对随机变量,K,2,进行多次观测,观测值超过,6.635,的频率约为,0.01,,是一个小概率事件,.,现在,K,2,的观测值为,56.632,,远远大于,6.635,,所以有理由断定,H,0,不成立,,即认为“吸烟与患肺癌有关系”,但这种判断会犯错误,犯错误的概率不会超过,0.01,,即我们有,99,的把握认为“吸烟与患肺癌有关系”,.,利用随机变量,K,2,来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验,.,独立性检验:,如果 ,就判断,H,0,不成立;否则就判断,H,0,成立,.,独立性检验的基本思想:,类似于数学上的反证法,对“两个分类变量有关系”,这一结论成立的可信程度的判断:,(,1,)假设该结论不成立,即假设结论“两个分类变量,没有关系”成立,.,(,2,)在假设条件下,计算构造的随机变量,K,2,,如果由观测数据计算得到的,K,2,很大,则在一定程度上说明假设不合理,.,(,3,)根据随机变量,K,2,的含义,可以通过(,2,)式评价假设不合理的程度,由实际计算出的,k6.635,,说明假设不合理的程度约为,99%,,即“两个分类有关系”这一结论成立的可信程度约为,99%.,y,1,y,2,总计,x,1,a,b,a+b,x,2,c,d,c+d,总计,a+c,b+d,a+b+c+d,一般地,假设有两个分类变量,X,和,Y,,它们的可能取值分别为,x,1,x,2,和,y,1,y,2,其样本频数列联表(称为,2x2,列联表)为:,利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度,.,具体作法是:,(,1,)根据实际问题需要的可信程度确定临界值,k,0,;,(,2,)由观测数据计算得到随机变量,K,2,的观测值,k,;,(,3,)如果,k6.635,,就以,1-P(K,2,6.635)100%,的把握认为“,X,与,Y,有关系”;否则就说样本观测数据没有提供“,X,与,Y,有关系”的充分证据,.,10.828,7.879,6.635,5.024,3.841,2.706,2.072,1.323,0.708,0.445,k,0.001,0.005,0.010,0.025,0.05,0.10,0.15,0.5,0.40,0.50,(,1,)如果,k10.828,,就有,99.9%,的把握认为“,X,与,Y,有关系”;,(,2,)如果,k7.879,,就有,99.5%,的把握认为“,X,与,Y,有关系”;,(,3,)如果,k6.635,,就有,99%,的把握认为“,X,与,Y,有关系”;,(,4,)如果,k5.024,,就有,97.5%,的把握认为“,X,与,Y,有关系”;,(,5,)如果,k3.841,,就有,95%,的把握认为“,X,与,Y,有关系”;,(,6,)如果,k2.706,,就有,90%,的把握认为“,X,与,Y,有关系”;,(,7,)如果,k=2.706,,就认为没有充分的证据显示,“,X,与,Y,有关系”,.,临界值,例,1,在某医院,因为患心脏病而住院的,665,名男性病人中,有,214,人秃顶;而另外,772,名不是因为患心脏病而住院的男性病人中有,175,人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?,秃头,不秃头,解:根据题目所给数据得到如下列联表,1-13,:,患心脏病,不患心脏病,总计,秃顶,214,175,389,不秃顶,451,597,1048,总计,665,772,1437,根据联表,1-13,中的数据,得到,所以有,99%,的把握认为“秃顶患心脏病有关”。,因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体,例,2,为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取,300,名学生,得到如下联表:,喜欢数学课程,不喜欢数学课程,总计,男,37,85,122,女,35,143,178,总计,72,228,300,由表中数据计算,K,2,的观测值,k4.513,。在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?为什么?,而我们所得到的,K,2,的观测值,k4.513,超过,3.841,,这就意味着“性别与是否喜欢数学课程之间的关系”这一结论错误的可能性,约为,0.05,(或小于,0.05,),,即有,95%,(或大于,95%,)的把握认为“性别与是否喜欢数学课程之间有关系”。,解:在假设“性别与是否喜欢数学课程之间的关系”的前提下,K,2,应该很小,并且,课堂练习,课后作业,P91,第,4,、,11,题,课后作业,结束,
展开阅读全文