选修1-2:1.2独立性检验的基本思想及其初步应用(收藏)

上传人:su****e 文档编号:243344366 上传时间:2024-09-21 格式:PPT 页数:32 大小:1.64MB
返回 下载 相关 举报
选修1-2:1.2独立性检验的基本思想及其初步应用(收藏)_第1页
第1页 / 共32页
选修1-2:1.2独立性检验的基本思想及其初步应用(收藏)_第2页
第2页 / 共32页
选修1-2:1.2独立性检验的基本思想及其初步应用(收藏)_第3页
第3页 / 共32页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,上节学习了回归分析的基本方法线性回归模型,y,bx,a,e,不同于一次函数,y,bx,a,,含有,_,,其中,x,为,_,,,y,为,_.,温故夯基,随机误差,e,解释变量,预报变量,样本点的中心,残差平方和,1.2,独立性检验的基本思想,及初步应用,1,、两个相关的概念,对于性别变量,其取值为男和女两种,这种变量的,不同“值”表示个体,所属的不同类别,,像这样的变量称为,分类变量,也称为,属性变量或定性变量,,它们的取值一定是,离散的,,而且不同的取值仅表示个体所属的类别。,(,1,)分类变量:,定量变量的取值一定是实数,它们的取值大小有,特定的含义,不同取值之间的运算也有特定的含义。,(,2,)定量变量:,例如身高、体重、考试成绩等,张明的身高是,180cm,,李立的,身高是,175cm,,说明张明比李立高,180-175=5,(,cm,)。,独立性检验,本节研究的是,两个分类变量的独立性检验问题,。,在日常生活中,我们常常关心,分类变量的之间是否有关系,独立性检验,独立性检验,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,问题,:,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了,9965,人,得到如下结果(单位:人),列联表,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大,0.54%,2.28%,与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况。,1),通过图形直观判断两个分类变量是否相关:,三维柱状图,2),通过图形直观判断两个分类变量是否相关:,二维条形图,3),通过图形直观判断两个分类变量是否相关:,患肺癌,比例,不患肺癌,比例,等高条形图,独立性检验,H,0,:,吸烟,和,患肺癌,之间没有关系,H,1,:,吸烟,和,患肺癌,之间有关系,通过数据和图表分析,得到结论是:,吸烟与患肺癌有关,结论的可靠程度如何?,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,吸烟与患肺癌的列联表:,如果,“,吸烟与患肺癌没有关系,”,,则,在吸烟者中不患肺癌,的比例应该与,6,中相应的,比例应差不多,,即,|ad-bc|,越小,说明吸烟与患肺癌之间关系越弱;,|ad-bc|,越大,说明吸烟与患肺癌之间关系越强,.,引入一个随机变量,作为检验在,多大程度上,可以认为,“,两个变量有关系,”,的标准 。,0.50,0.40,0.25,0.15,0.10,0.455,0.708,1.323,2.072,2.706,0.05,0.025,0.010,0.005,0.001,3.841,5.024,6.635,7.879,10.828,0.05,0.025,0.010,0.005,0.001,3.841,5.024,6.635,7.879,10.828,0.50,0.40,0.25,0.15,0.10,0.455,0.708,1.323,2.072,2.706,独立性检验,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,通过公式计算,在,H,0,成立的情况下,统计学家估算出如下的概率:,也就是说,在,H,0,成立的情况下,对随机变量,K,2,进行多次观测,,观测值超过,6.635,的频率约为,0.01,,是一个小概率事件,.,现在,K,2,的观测值为,56.632,,远远大于,6.635,,所以,有理由断定,H,0,不成立,,即认为,“,吸烟与患肺癌有关系,”,但这种判断会犯错误,,犯错误的概率不会超过,0.01,,即我们,有,99,的把握认为“吸烟与患肺癌有关系”,.,利用随机变量,K,2,来确定在,多大程度上,可以认为,“,两个分类变量有关系,”,的方法称为两个分类变量的,独立性检验,.,独立性检验:,如果 ,就判断,H,0,不成立;,否则,就判断,H,0,成立,.,即在 成立的情况下,,K,2,大于,6.635,概率非常小,近似为,0.01,独立性检验的基本思想:,(,类似于数学上的反证法,对,“,两个分类变量有关系,”,这一结论成立可信程度的判断,),:,(,1,)假设该结论不成立,即假设结论,“,两个分类变量,没有关系,”,成立,.,(,2,)在假设条件下,计算构造的随机变量,K,2,,如果由观测数据计算得到的,K,2,很大,则在一定程度上说明假设不合理,.,(,3,)根据随机变量,K,2,的含义,可以通过(,2,)式评价假设不合理的程度,由实际计算出的,k6.635,,说明假设不合理的程度约为,99%,,,即,“,两个分类有关系,”,这一结论成立的可信程度约为,99%.,利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度,.,具体作法是:,(,1,)根据实际问题需要的可信程度确定临界值,k,0,;,(,2,)由观测数据计算得到随机变量,K,2,的观测值,k,;,(,3,)如果,k6.635,,就以,1-P(K,2,6.635)100%,的把握认为“,X,与,Y,有关系”;否则就说样本观测数据没有提供“,X,与,Y,有关系”的充分证据,.,设要判断的结论为:,H,1,:“,X,与,Y,有关系”,1,、通过三维柱形图和二维条形图,可以粗略地判断两个变量是否有关系。,(,1,)在三维柱形图中, 主对角线上两个柱形高度的 乘积,ad,与副对角线上的乘积,bc,相差越大,,H,1,成 立的可能性就越大。,(,2,)在二维条形图中,,(x,1,y,1,),个体所占的比例与,(x,2,y,1,),个体所占的比例,两个比例相差越大,,H,1,成立的可能性就越大。,2,、可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。,独立性检验的一般步骤:,2x2,列联表,y,1,y,2,总计,x,1,a,b,a+b,x,2,c,d,c+d,总计,a+c,b+d,a+b+c+d,10.828,7.879,6.635,5.024,3.841,2.706,2.072,1.323,0.708,0.445,k,0.001,0.005,0.010,0.025,0.05,0.10,0.15,0.5,0.40,0.50,(,1,)如果,k10.828,,就有,99.9%,的把握认为,“,X,与,Y,有关系,”,;,(,2,)如果,k7.879,,就有,99.5%,的把握认为,“,X,与,Y,有关系,”,;,(,3,)如果,k6.635,,就有,99%,的把握认为,“,X,与,Y,有关系,”,;,(,4,)如果,k5.024,,就有,97.5%,的把握认为,“,X,与,Y,有关系,”,;,(,5,)如果,k3.841,,就有,95%,的把握认为,“,X,与,Y,有关系,”,;,(,6,)如果,k2.706,,就有,90%,的把握认为,“,X,与,Y,有关系,”,;,(,7,)如果,k=2.706,,就认为没有充分的证据显示,“,X,与,Y,有关系,”,.,临界值,分类变量之间关系,条形图,柱形图,列联表,独立性检验,背景分析,例,1.,秃头与患心脏病,在某医院,因为患心脏病而住院的,665,名男性病人中,有,214,人秃顶;而 另外,772,名不是因为患心脏病而住院的男性病人中有,175,人秃顶。分别利用 图形和独立性检验方法判断秃顶与患心脏,病是否有关系?你所得的结论在 什么范围内有效?,解:根据题目所给数据得到如下列联表,1-13,:,患心脏病,不患心脏病,总计,秃顶,214,175,389,不秃顶,451,597,1048,总计,665,772,1437,根据联表,1-13,中的数据,得到,所以有,99%,的把握认为“秃顶患心脏病有关”。,为考察高中生的性别与是否喜欢数学课程之间的,关系,在某城市的某校高中生中随机抽取,300,名学生,,得到如下联表:,喜欢数学课程,不喜欢数学课程,总计,男,37,85,122,女,35,143,178,总计,72,228,300,解:在假设“性别与是否喜欢数学课程之间没有关系”的前提,下,K,2,应该很小,并且,例,2.,性别与喜欢数学课,由表中数据计算,K,2,的观测值,k 4.513,。在多大程度上可以认,为高中生的性别与是否喜欢数学课程之间有关系?为什么?,而我们所得到的,K,2,的观测值,k 4.513,超过,3.841,,这就意味着,“性别与是否喜欢数学课程之间有关系”这一结论错误的可能,性约为,0.05,,即有,95%,的把握认为“性别与是否喜欢数学课程,之间有关系”。,思考:,例,1,、,2,的结论是否适用于普通的对象?,在掌握了两个分类变量的独立性检验方法,之后,就可以模仿例,1,中的计算解决实际问,题,而没有必要画相应的图形。,图形可帮助向非专业人士解释所得结果;,也可以帮助我们判断所得结果是否合理,例,1,这组数据来自住院的病人,因此所得到的结论适合住院,的病人群体例,2,的结论只适合被调查的学校。,大家要注意统计结果的适用范围(这由样本的代表性所决定),独立性检验基本的思想类似,反证法,(,1),假设结论不成立,即,“,两个分类变量没有关系,”,.,(2),在此假设下随机变量,K,2,应该很能小,如果由观测数据,计算得到,K,2,的观测值,k,很大,则在一定程度上说明假设,不合理,.,(3),根据随机变量,K,2,的含义,可以通过,评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为,99.9%,即,“,两个分类变量有关系,”,这一结论成立的可信度为约为,99.9%.,知新益能,1,22,列联表与等高条形图,(1),分类变量的定义,变量的不同,“,值,”,表示个体所属的,_,,像这样的变量称为分类变量,(2)22,列联表的定义,一般地,假设有两个分类变量,X,和,Y,,它们的取值分别为,_,和,_,,其样本频数列联表,(,称为,22,列联表,),为:,不同类别,x,1,,,x,2,y,1,,,y,2,y,1,y,2,总计,x,1,a,b,a,b,x,2,c,d,c,d,总计,a,c,b,d,a,b,c,d,(,3,)与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用,_,展示列联表数据的频率特征,.,等高条形图,a,b,c,d,打鼾不仅影响别人休息,而且还可能与患某种疾病有关,在某一次调查中,其中每一晚都打鼾的,254,人中,患心脏病的有,30,人,未患心脏病的有,224,人;在不打鼾的,1379,人中,患心脏病的有,24,人,未患心脏病的有,1355,人,利用图形判断打鼾与患心脏病有关吗,?,例,1,【,解,】,根据题目所给的数据得到如下,22,列联表:,患心脏病,未患心脏病,总计,每一晚都打鼾,30,224,254,不打鼾,24,1355,1379,总计,54,1579,1633,相应的等高条形图如图,:,图中两个深色的高分别表示每一晚都打鼾和不打鼾的人中患心脏病的频率,从图中可以看出,每一晚都打鼾样本中患心脏病的频率明显高于不打鼾样本中患心脏病的频率,因此可以认为打鼾与患心脏病有关系,.,【,题后点评,】,在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论,.,这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率,.,题型二,随机变量,K,2,的求法及应用,例,2,在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况,:,男乘客晕机的有,24,人,不晕机的有,31,人,;,女乘客晕机的有,8,人,不晕机的有,26,人,.,请你根据所给数据判定,:,在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机,?,【,题后点评,】,解决一般的独立性检验问题的步骤:,(1),通过所给列联表确定,a,,,b,,,c,,,d,,,n,的值,(2),利用,K,2,求随机变量,K,2,的观测值,k,.,(3),得出两个变量,X,与,Y,是否有关系,变式训练,某单位餐厅的固定餐椅经常有损坏,于是该单位领导决定在餐厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的损坏情况作了一个统计,具体数据如下,:,损坏餐椅数,未损坏餐椅数,总计,文明标语张贴前,39,157,196,文明标语张贴后,29,167,196,总计,68,324,392,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!