资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,日常生活中我们关心这样一些问题:,吸烟与患呼吸道疾病有无关系?,秃顶与心脏病之间有无关系?,性别与喜欢数学课之间有无关系?,以上问题用什么知识来解决呢?,独立性检验的基本思想,及其初步应用,第一章,统计案例,1.2,独立性检验的基本思想及其初步应用,在统计学中,独立性检验就是检验两个分类变量是,否有关系的一种统计方法。,所谓,“,分类变量,”,,就是指个体所属的类别不同,也,称为,属性变量,或,定型变量,。,在日常生活中,我们常常关心两个分类变量之间是,否有关系,例如吸烟是否与患肺癌有关系?性别是否对,于喜欢数学课程有影响等等。,吸烟与患肺癌列联表,患肺癌,不患肺癌,总计,吸烟,49,2099,2148,不吸烟,42,7775,7817,总计,91,9874,9965,探究,:,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了,9965,人,得到如下结果(单位:人),列联表,22,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,0.54%,2.28%,1),通过图形直观判断,三维柱状图,2),通过图形直观判断,二维,条形图,3),通过图形直观判断,患肺癌,比例,不患肺癌,比例,等高,(,频率,),条形图,问题,1,:判断的标准是什么?,吸烟与不吸烟,患病的可能性的大小是否有差异?,说明:,吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大,问题,2,:差异大到什么程度才能作出,“,吸烟与患病有关,”,的判断?,问题,3,:能否用数量刻画出,“,有关,”,的程度?,独立性检验,H,0,:,吸烟,和,患肺癌,之间,没有,关系,通过数据和图表分析,得到结论是:,吸烟与患肺癌有关,结论的可靠程度如何?,吸烟与患肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟的人中不患肺癌的比例:,不吸烟的人中不患肺癌的比例:,若,H,0,成立,引入一个,随机,变,量,(,卡方统计量,),随机,变,量,:p12,页划书,通过公式计算,吸烟与患肺癌列联表,患肺癌,不患肺癌,总计,吸烟,49,2099,2148,不吸烟,42,7775,7817,总计,91,9874,9965,此结果,说明,“,两个变量有关系,”,的程度 有多大呢,?,界定的标准是什么哪,?,。,已知,在,H,0,成立的情况下,(,卡方分布规律表,p13,),,,故有,99%,的把握认为,H,0,不成立,即有,99%,的把握,认为,患肺癌与吸烟有关系,现在的卡方的观测值,k=56.632,的观测值远大于,6.635,,出现这样的观测值的概率不超过,0.010=1,%,。,即在 成立的情况下,大于,6.635,概率非常小,近似为,0.010,H,0,:表示,吸烟,和,患肺癌,之间,没有,关系,随机事件,12,页划书,认为,“,患肺癌与吸烟有关系,”,犯错误的概率不会超过,.010=1%,.,a+b+c+d,b+d,a+c,总计,c+d,d,c,a+b,b,a,总计,一般地,对于两个分类变量,X,和,Y,。,X,有两类取值:,即类 和(如吸烟与不吸烟);,Y,也有两类取值:,即类 和 (如患病与不患病)。于是得到下列样,本频数的,22,列联表为:,用卡方统计量来确定在多大程度上可以认为,“,两个分类变量有关系,”,的方法称为这两个分类变,量的,独立性检验,。,要推断,“,X,和,Y,有关系,”,,可按下面的步骤进行:,(,1,)提出假设,H,0,:,X,和,Y,没有,关系;,(,3,)查对临界值,作出判断。,(,2,)根据,2,2,列联表,与公式计算 的值;,10.828,7.879,6.635,5.024,3.841,0.001,0.005,0.010,0.025,0.05,2.706,2.072,1.323,0.708,0.455,0.10,0.15,0.25,0.40,0.50,P,(),小结,反证法原理与,独立性检验,原理,反证法原理:,在一个已知假设下,如果,推出一个矛盾,,就,证明,了这个假设不成立。,独立性,检验原理:,在一个已知假设下,如果,一个与该假设矛盾的小概率事件发生,,,就,推断,这个假设不成立。,例,1.,在某医院,因为患心脏病而住院的,665,名男性病人,中,有,214,人秃顶,;,而另外,772,名不是因为患心脏病而住,院的男性病人中有,175,秃顶,.,分别利用图形和独立性检,验方法判断秃顶与患心脏病是否有关系,?,你所得的结论,在什么范围内有效,?,秃顶与患心脏病列联表,患心脏病,患其他病,总计,秃顶,214,175,389,不秃顶,451,597,1048,总计,665,772,1437,有,99%,的把握认为“秃顶与患心脏病有关”,说明:在熟悉独立性检验的原理后,可以通过直接计算,K,的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题,但是,借助图形更直观。,犯错误的概率是指将,“,秃顶与患心脏病有关系,”,错判成,“,秃顶与心脏病没有关系,”,的概率,例,2,为考察高中生的性别与是否喜欢数学课程之间的关,系。在某城市的某校高中生随机抽取,300,名学生。得到,如下列联表:,性别与喜欢数学课程列联表,喜欢,不喜欢,总计,男,37,85,122,女,35,143,178,总计,72,228,300,由表中数据计算得到,K,2,的观测值,k4.514,。能够以,95,的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?,解:在假设,“,性别与是否喜欢数学课程之间没有关系,”,的前提下,应该很小,并且,而我们所得到的 的观测值 超过,3.841,,这就,意味着,“,性别与是否喜欢数学课程之间有关系,”,这一结论,是错误的可能性约为,0.05,,即有,95%,的把握认为,“,性别与,是否喜欢数学课程之间有关系,”,。,作业:,P15,练习题,再见,练习,:,(P17),甲乙两个班级进行一门考试,按照学生考试成绩优秀和,不优秀统计后,得到如下列联表,:,优秀,不优秀,总计,甲班,10,35,45,乙班,7,38,45,总计,17,73,90,画,出列联表的条形图,并通过图形判断成绩与班级是否,有关,.,利用列联表的独立性检验估计,认为“成绩与班级,有关系”犯错误的概率是多少。,由图及表直观判断,好像,“,成绩优秀与班级有关系,”,,由表中,数据计算,得 的观察值为 。由教科书中表,1-12,,得,从而由,50%,的把握认为,“,成绩优秀与班级有关系,”,,即断言,“,成,绩优秀与班级有关系,”,犯错误的概率为,0.5,。,100%,90%,80%,70%,60%,50%,40%,30%,20%,10%,0%,优秀,不优秀,列联表的条形图:,
展开阅读全文