资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,统计初步:双变量描述性统计,单变量的描述统计是对单变量取值的,分布,进行描述。,双变量的描述统计是对两个变量取值的,关系,的描述。,描述单变量分布的常用的方法有:统计表、统计图(用,一组数值,描述分布),集中趋势、离散趋势(用,一个数值,描述分布),描述双变量关系的常用方法有:交互分类表(用,一组数值,描述两个变量的关系),相关系数(用,一个数值,描述两个变量的关系),2024年11月5日,4,相关,相关的概念,所谓,相关,(,association,、,correlation,),,是指两个或多个变量之间,在数量,上的共变关系。,相关系数,:表示相关强度的指标,其绝对值在,0,和,1,之间,即,0,1,或,-1,1,。,一、列联表(,contingency table,),最大志愿,频数,快乐家庭,40,理想工作,60,增广见闻,10,合计,100,条件频数(,conditional frequencies,),最大志愿,教育水平,合计,高,中,低,快乐家庭,5,30,5,40,理想工作,0,30,20,50,增广见闻,5,0,5,10,合计,10,60,30,100,边缘频数,(,marginal frequencies,),总数,表一,青年人教育水平对其志愿的影响,最大志愿,教育水平,高(,%,),中(,%,),低(,%,),快乐家庭,50.0,50.0,16.7,理想工作,0.0,50.0,66.7,增广见闻,50.0,0.0,16.7,总数,(,10,),(,60,),(,30,),低教育水平的青年多以,“,理想工作,”,为志愿,中、高教育水平的青年,则多选择,“,快乐家庭,”,,但前者同时较注重,“,理想工作,”,,后者较注重,“,增,广见闻,”,。,表二,青年人教育水平对其志愿的影响,二、相关系数,赞成,不赞成,男,0,20,女,30,0,赞成,不赞成,男,20,0,女,0,30,全相关,赞成,不赞成,男,10,10,女,15,15,赞成,不赞成,男,2,18,女,25,5,零相关,强相关,相关测量的方法有许多种,通常采用具有,PRE,意义的测量法,,PRE,即,消减误差比例,(,proportionate reduction in error,)。,例如,假如计算出相关系数,0.4,,,也即意味着,PRE,是,0.4,,即表示削减了,40%,的误差,,也即表示通过,X,去预测,Y,有,60%,的错误未能削减,但能削减,40%,的错误,,也就是说,有,40%,是正确的,如果,Y,出现,100,次,,X,出现,40,次,.,假设用,E1,表示在不知道,X,、,Y,关系的情况下,预测,Y,值产生的误差数,用,E2,表示在知道,X,、,Y,关系的情况下,由,X,值预测,Y,值的误差数。,PRE=(E1-E2)E1,2024年11月5日,10,E1=2000-1100=900,E2=(1000-900)+(1000-800)=100+200=300,=,=0.67,PRE,计算举例,具有,PRE,意义的各种相关系数,变量层次,相关系数,定类定类,Lambda (,),或者,tau-y,定序定序,Gamma,(,),或者,dy,定距定距,Pearsons,r,定类定序,Lambda (,),或者,tau-y,定类定距,E,2,(,eta,平方),定序定距,E,2,(,eta,平方),定类,定序,定距,定类,Lambda (,),或者,tau-y,Lambda (,),或者,tau-y,E,2,(,eta,平方),定序,Gamma,(,),或者,dy,E,2,(,eta,平方),定距,Pearsons r,2024年11月5日,12,复习有关变量层次的知识,测量的尺度有四种,:定类尺度,定序尺度,定距尺度,定比尺度。,相应地,,变量有四种,:定类变量,定序变量,定距变量,定比变量。,定类尺度(,nominal measurement,),定类尺度是区别变量属性的,类别属性,的尺度,这种尺度无法区别属性之间的大小、程度的差异。,举例:国籍、民族、性别、宗教信仰、媒体种类、报纸类别,数学特性:,=,,,采用定类尺度就形成定类变量,定量变量的不同取值之间互相平等,距离远近或顺序无关紧要。,定序尺度(,ordi,nal measurement,),它是指区别变量,属性的等级次序,的尺度。定序尺度除了符合定类尺度的要求之外,还能决定变量属性的次序,各个属性能进行高低或大小排列,举例:人的经济地位,文化程度,电视节目质量,数学特征:具有,与,的数学特质。,用定序尺度测量的变量叫做定序变量。,定距尺度(,interval measurement,),指除了符合上述定序尺度的要求之外,其取值间的,距离,需要具有具有实际意义。,例如:摄氏温度,考试分数,注意:定距尺度上没有绝对的零点,即,定距尺度的“,0”,不是表示“没有”。,数学特性:可以进行加减运算。,用定距尺度测量的变量叫做定距变量。,定比尺度(,ratio measurement,),它除了具有定类尺度、定序尺度、定距尺度的特征之外,还有一个特征,即具有实在意义上的,零点,。,例如:年龄,身高,体重,收入,媒体接触时间,数学特性:可以进行乘除运算。,用定比尺度测量的变量叫做定比变量。,2024年11月5日,18,SPSS,应用,Analyze Descriptive Statistics Crosstabs,Statistics,2024年11月5日,19,Lambda,系数,_,公式,2024年11月5日,20,Gamma,系数,公式,意义,在随机选取的一对观测值在任一变量均不同分的条件下,该对观测值彼此同序的概率与彼此异序的概率之差。,Gamma,系数具有,PRE,意义。,2024年11月5日,21,Gamma,系数,值域,Gamma,系数的取值范围是,-1,到,1,(含,-1,和,1,),当观察值全部集中在主对角线上时,达到最大值,1,;当观察值全部集中在次对角线上时,达到最小值,-1,;当变量彼此独立时,等于,0,,但逆命题不一定成立。与,tau-a,、,tau-b,、,tau-c,不同的是,在较弱的全相关的情况下(如非正方表中的全相关情况),,gamma,依然可能达到极值,1,或,-1,。,
展开阅读全文