定量数据的统计描述ppt课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计描述是针对原始数据进行归纳整理、用相应的统计指标（如率、均数等）来反映研究对象最鲜明的数量特征过程。数据的统计描述可以包括以下几个方面的内容：,位置参数：包括算术平均数、中位数、众数,变异指标：包括全距，四分位数间距、方差、标准差以及变异系数,形状参数：包括偏度和峰度,频数及报表,绘图,数据的统计描述,Means,过程,Summary,过程,Univariate,过程,定量数据统计指标计算的三种过程,Means,过程格式：,Proc means;,Var,变量列表；,（规定需要计算的数值变量及顺序）,Class,变量名列表；,（分组计算）,Freq,变量；,（该语句指定一个数值型的变量，它的值表示输入数据集中相应观测出现的频数。该变量的值应为正整数。若,freq,变量值,1,或缺失，相应的观测不参加计算统计量；若这个值不是正整数，取整数部分。）,Weight,变量；,（该变量的值应大于,0,若,0,或缺失，则假定该值为,0.,）,Id,变量名列表；,（该语句对,means,过程产生的输出数据集增加一个或几个附加变量，目的在于识别输出数据集里德观测）,By,变量名列表；,（分组计算，注意一定要先排序）,Output;,Means,过程,Proc means,中的其它选项包括,Maxdec=,n,;,规定输出结果中的小数部分的最大位数（,0-8,）。缺省时是,2,。,Fw=,n,；给出该过程用来打印每个统计量的域宽。缺省是,12,。,Alpha=a;,设置计算置信区间的置信水平,a,。,a,在,0-1,之间。假如，若规定,a=0.05,则得到均值的,95%,的置信区间,Missing,要求该过程把,class,变量的缺失值作为有效分组值处理,Means,过程,Proc means data=class;,Var height;,Run;,在上述用法中，没有指定输出的统计量，缺省的会对每个选定的变量计算有效记录,(N),、均值,(Mean),、标准差,(Std),、最大值,(Maximum),和最小值,(Minimum),五个统计量。,Means,过程最简单的用法,可以用,means,过程,计算的统计量分别,用关键词表示：,Proc means data=class mean var clm alpha=0.01 maxdec=3 fw=8;,Var height weight;,Output out=mclass mean=var=vh vw lclm=lc uclm=uc;,Run;,Means,过程示例,该程序要求输出的结果占,8,个字符，其中小数位为,3,。把运行结果输出到数据集,mclass,中,包括变量,height,（,height,的均值）,weight,（,weight,的均值）,vh,（,height,的方差）,vw,（,weight,的方差）,Lc(,置信度为,99%,的置信下限,),uc(,置信度为,99%,的置信上限,),1,、,统计关键字,=,代表统计值的变量名称串,Proc means data=class;,Var height weight;,Class sex;,Output out=test,mean=m_h m_w,;,Run;,Output,的四种方式,这种界定方式自动计算出,var,指令所列举之所有变量的统计值。,因此，等号右边所列举的变量，必须与,var,指令中所列举的变量前后对应而且数目相同。,2,、统计关键字（变量名称串）,=,代表统计值的变量名称串,Proc means data=class;,Var height weight;,Class sex;,Output out=test,mean=m_h m_w std(height)=v_h,;,Run;,Output,的四种方式,这种界定方式将产生,var,指令所列举之部分变量的统计值。,例如，上例文件,test,中包括变量,m_h,，,m_w,和,v_h,。,3,、统计关键字,=,Proc means data=class;,Var height weight;,Class sex;,Output out=test,mean=,;,Run;,Output,的四种方式,这种表达方式在等号右边是空白，未界定任何代表统计值的变量名称。因此，将以原变量的名称来代表。例如，在上例中，输出文件,test,中变量,height,与,weight,分别代表相应的均值。,须注意，若使用这种界定方式，则一个,var,变量，只能产生一种统计值，而不能同时产生其他统计值。这是因为一个,var,变量的名称只能同时代表一种统计值。,4,、统计关键字（变量名称串）,=,Proc means data=class;,Var height weight;,Class sex;,Output out=test mean=m_h m_w,max(height)=,;,Run;,Output,的四种方式,这种表达方式在等号右边是空白，未界定任何代表统计值的变量名称。在等号左边的括号内列举部分,var,指令中所提到的变量。因此，这些变量的统计值，仍以变量的原名表示。例如，在上例中，输出文件,test,中变量,m_h,和,m_w,分别代表,height,与,weight,的均值，,height,代表,height,的最大值。,须注意，一个在,var,指令中界定的变量名称只能代表一种统计值。因此，使用这种界定方式时，不要同一个变量重复界定在不同的统计值关键字之后。,Output,语句中,的统计,关键字,频数语句（,freq,语句）：通过不同的,sas,过程被用来指定一个变量，这个变量的值表示在相应的这个观测中其他变量值出现的频数。,当,freq,语句出现时，过程处理这个数据集就好像每个观测出现,n,次一样，其中,n,是那个观测中,freq,变量的值。,如果在某个观测中，,freq,变量的值小于,1,，这个观测在分析中不使用；如果,freq,变量的值不是整数，仅取整数部分使用。,Freq,语句,Freq,语句,对,40,名麻疹易感儿童接种麻疹疫苗一个月后，测得其血凝抑制抗体滴度如下，求其平均滴度。,抗体滴度,1:4,1:8,1:16,1:32,1:64,1:128,1:256,1:512,人数,1,5,6,2,7,10,4,5,Data a;,Input f x;,Cards;,1 4 5 8 6 16 2 32 7 64 10 128 4 256 5 512,;,Proc means;,Var x;,Freq f;,Output out=b mean(x)=m_x;Run;,By,与,class,的区别,Class sex school;,的分组结果：,组别,sex,school,1,男和女,重点和非重点,男,重点和非重点,女,重点和非重点,男和女,重点,男和女,非重点,男,重点,男,非重点,女,重点,女,非重点,By sex school;,的分组结果：,组别,sex,school,1,男,重点,男,非重点,女,重点,女,非重点,设有两个分组变量：,sex,（分男，女）及,school,（下分重点和非重点）,By,与,class,的区别,Class sex;,By school,；的分组结果：,组别,sex,school,男和女,重点,男,重点,女,重点,男和女,非重点,男,非重点,女,非重点,示例,Proc,means,data=class;,Class sex age;,var height weight;,output out=class1 mean=min=h w;,Run,;,types,：对,_type_,进行选择输出,proc means data=class;,var height;,class sex age;,types sex*age;,output out=height mean=;,run;,proc print data=height;,run;,两个过程类似，都是用来对数值变量计算单个变量的基本统计量。而且这两个过程使用的语句和选项都相同。它们的差别,缺省时，,summary,不打印输出计算结果；,means,总是打印输出计算的统计量，除非你在,proc means,过程中明确规定选项,noprint,。如果使用,summary,过程时希望打印输出统计量，必须在,proc summary,语句中规定选项,print,。,若省略,var,语句，,summary,过程只给出观测个数（,Nobs,）；而,means,过程对输入数据集中除用在,by,，,Id,，,freq,，,class,，,weight,语句之外的所有数值变量计算统计量,means,过程与,summary,过程的区别,

展开阅读全文

定量数据的统计描述ppt课件

最新文档