资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,3.2,独立性检验的基本思想及其初步应用(一),高二数学 选修,2-3,第三章 统计案例,3.2独立性检验的基本思想及其初步应用(一)高二数学 选,独立性检验,本节研究的是,两个分类变量的独立性检验问题,。,在日常生活中,我们常常关心,分类变量之间是否有关系,:,例如,吸烟是否与患肺癌有关系?,性别是否对于喜欢数学课程有影响?等等。,独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了,9965,人,得到如下结果(单位:人),列联表,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。,0.54%,2.28%,探究,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了996,1,、列联表,2,、三维柱形图,3,、二维条形图,不患肺癌,患肺癌,吸烟,不吸烟,不患肺癌,患肺癌,吸烟,不吸烟,0,8000,7000,6000,5000,4000,3000,2000,1000,从三维柱形图能清晰看出,各个频数的相对大小。,从二维条形图能看出,吸烟者中,患肺癌的比例高于不患肺癌的比例。,通过图形直观判断两个分类变量是否相关:,1、列联表2、三维柱形图3、二维条形图不患肺癌患肺癌吸烟不吸,不吸烟,吸烟,患肺癌,比例,不患肺癌,比例,4,、等高条形图,等高条形图更清晰地表达了两种情况下患肺癌的比例。,不吸烟吸烟患肺癌不患肺癌4、等高条形图等高条形图更清晰地表达,上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?,这需要用统计观点来考察这个问题。,现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,,为此先假设,H,0,:吸烟与患肺癌没有关系,.,把表中的数字用字母代替,得到如下用字母表示的列联表,用,A,表示不吸烟,,B,表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设,H,0,等价于,P(AB)=P(A)P(B).,上面我们通过分析数据和图形,得到的直观印象是吸,因此,|ad-bc|,越小,说明吸烟与患肺癌之间关系越弱;,|ad-bc|,越大,说明吸烟与患肺癌之间关系越强。,在表中,,a,恰好为事件,AB,发生的频数;,a+b,和,a+c,恰好分别为事件,A,和,B,发生的频数。由于频率接近于概率,所以在,H,0,成立的条件下应该有,因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;在表中,为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量,-,卡方统计量,(,1,),若,H,0,成立,即“吸烟与患肺癌没有关系”,则,K,2,应很小。,根据表,3-7,中的数据,利用公式(,1,)计算得到,K,2,的观测值为:,那么这个值到底能告诉我们什么呢?,(,2,),独立性检验,为了使不同样本容量的数据有统一的评判标准,基于上述,在实际应用中,要在获取样本数据之前通过下表确定临界值:,在实际应用中,要在获取样本数据之前通过下表确定临界值:,在,H,0,成立的情况下,统计学家估算出如下的概率,即在,H,0,成立的情况下,,K,2,的值大于,6.635,的概率非常小,近似于,0.01,。,也就是说,在,H,0,成立的情况下,对随机变量,K,2,进行多次观测,观测值超过,6.635,的频率约为,0.01,。,思考,答:判断出错的概率为,0.01,。,在H0成立的情况下,统计学家估算出如下的概率 也就,判断 是否成立的规则,如果 ,就判断 不成立,即认为吸烟与患肺癌有关系;否则,就判断 成立,即认为吸烟与患肺癌有关系。,独立性检验的定义,上面这种利用随机变量,K,2,来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的,独立性检验,。,在该规则下,把结论“成立”错判成“不成立”的概率不会差过,即有,99%,的把握认为 不成立。,判断 是否成立的规则如果,独立性检验的基本思想(类似,反证法,),(1),假设结论不成立,即,“,两个分类变量没有关系,”,.,(2),在此假设下我们所构造的随机变量,K,2,应该很小,如果由观测数据计算得到,K,2,的观测值,k,很大,则在一定可信程度上说明 不成立,.,即在一定可信程度上认为,“,两个分类变量有关系,”,;如果,k,的值很小,则说明由样本观测数据没有发现反对 的充分证据。,(3),根据随机变量,K,2,的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设不合理的程度为,1%,即,“,两个分类变量有关系,”,这一结论成立的可信度为约为,99%.,独立性检验的基本思想(类似反证法)(1)假设结论不成立,即,怎样判断,K,2,的观测值,k,是大还是小呢?,这仅需要确定一个正数 ,当 时就认为,K,2,的观测值,k,大。此时相应于 的判断规则为:,如果 ,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”。,-,临界值,按照上述规则,把“两个分类变量之间没有关系”错误的判断为“两个分类变量之间有关系”的概率为,P().,在实际应用中,我们把 解释为有,的把握认为“两个分类变量之间有关系”;把 解释为不能以 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据。,怎样判断K2的观测值k是大还是小呢?这仅需要确定,思考:,利用上面的结论,你能从列联表的三维柱形图中看出两个分类变量是否相关呢?,表,1-11 2x2,联表,一般地,假设有两个分类变量,X,和,Y,,它们的值域分别为,x,1,x,2,和,y,1,y,2,其样本频数列联表(称为,2x2,列联表)为:,思考:表1-11 2x2联表 一般地,假设有两个,若要判断的结论为:,H,1,:“,X,与,Y,有关系”,可以按如下步骤判断,H,1,成立的可能性:,2,、可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。,1,、通过三维柱形图和二维条形图,可以粗略地判断两个变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。,(,1,)在三维柱形图中,主对角线上两个柱形高度的乘积,ad,与副对角线上两个柱形高度的乘积,bc,相差越大,,H,1,成立的可能性就越大。,(,2,)在二维条形图中,可以估计满足条件,X=x,1,的个体中具有,Y=y,1,的个体所占的比例 ,也可以估计满足条件,X=x,2,的个体中具有,Y=y,1,的个体所占的比例 。两个比例相差越大,,H,1,成立的可能性就越大。,若要判断的结论为:H1:“X与Y有关系”,可以按如,在实际应用中,要在获取样本数据之前通过下表确定临界值:,具体作法是:,(1),根据实际问题需要的可信程度确定临界值 ;,(2),利用公式,(1),,由观测数据计算得到随机变量 的观测值;,(3),如果 ,就以 的把握认为“,X,与,Y,有关系”;否则就说样本观测数据没有提供“,X,与,Y,有关系”的充分证据。,在实际应用中,要在获取样本数据之前通过下表确定临界值:具体作,1),如果,P(,m,10.828)=0.001,表示有,99.9%,的把握认为,”,X,与,Y,”,有关系,;,2),如果,P(x27.879)=0.005,表示有,99.5%,的把握认为,”,X,与,Y,”,有关系,;,3),如果,P(x26.635)=0.01,表示有,99%,的把握认为,”,X,与,Y,”,有关系,;,4),如果,P(x25.024)=0.025,表示有,97.5%,的把握认为,”,X,与,Y,”,有关系,;,5),如果,P(x23.841)=0.05,表示有,95%,的把握认为,”,X,与,Y,”,有关系,;,6),如果,P(x22.706)=0.10,表示有,90%,的把握认为,”,X,与,Y,”,有关系,;,7),如果,P(x2,2.706),就认为没有充分的证据显示,”,X,与,Y,”,有关系,;,适用观测数据,a,、,b,、,c,、,d,不小于,5,1)如果P(m10.828)=0.001表示有99.9%,一般地,对于两个研究对象,和,,,有两类,取值,即类,A,和,B,(如吸烟与不吸烟);,也有两类,取值,即类,1,和,2,(如患病与不患病)。于是得到,下列联表所示的抽样数据:,用 统计量研究这类问题的方法称为,独立性检验,。,一般地,对于两个研究对象和,有两类用 统计量研究这类,要推断,“,和,有关系,”,,可按下面的步骤进行:,(,1,)提出假设,H,0,:,和,没有关系;,(,3,)查对临界值,作出判断。,(,2,)根据,2,2,列表与公式计算 的值;,由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用 进行独立性检验,可以对推断的正确性的概率作出估计,样本量,n,越大,估计越准确,。,要推断“和有关系”,可按下面的步骤进行:(1)提出假设H,反证法原理与假设检验原理,反证法原理:,在一个已知假设下,如果,推出一个矛盾,,就,证明,了这个假设不成立。,假设检验原理:,在一个已知假设下,如果,一个与该假设矛盾的小概率事件发生,,,就,推断,这个假设不成立。,反证法原理与假设检验原理反证法原理:在一个已知假设下,如果,
展开阅读全文