资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计描述是针对原始数据进行归纳整理、用相应的统计指标(如率、均数等)来反映研究对象最鲜明的数量特征过程。数据的统计描述可以包括以下几个方面的内容:,位置参数:包括算术平均数、中位数、众数,变异指标:包括全距,四分位数间距、方差、标准差以及变异系数,形状参数:包括偏度和峰度,频数及报表,绘图,数据的统计描述,Means,过程,Summary,过程,Univariate,过程,定量数据统计指标计算的三种过程,Means,过程格式:,Proc means;,Var,变量列表;,(规定需要计算的数值变量及顺序),Class,变量名列表;,(分组计算),Freq,变量;,(该语句指定一个数值型的变量,它的值表示输入数据集中相应观测出现的频数。该变量的值应为正整数。若,freq,变量值,1,或缺失,相应的观测不参加计算统计量;若这个值不是正整数,取整数部分。),Weight,变量;,(该变量的值应大于,0,若,0,或缺失,则假定该值为,0.,),Id,变量名列表;,(该语句对,means,过程产生的输出数据集增加一个或几个附加变量,目的在于识别输出数据集里德观测),By,变量名列表;,(分组计算,注意一定要先排序),Output;,Means,过程,Proc means,中的其它选项包括,Maxdec=,n,;,规定输出结果中的小数部分的最大位数(,0-8,)。缺省时是,2,。,Fw=,n,;给出该过程用来打印每个统计量的域宽。缺省是,12,。,Alpha=a;,设置计算置信区间的置信水平,a,。,a,在,0-1,之间。假如,若规定,a=0.05,则得到均值的,95%,的置信区间,Missing,要求该过程把,class,变量的缺失值作为有效分组值处理,Means,过程,Proc means data=class;,Var height;,Run;,在上述用法中,没有指定输出的统计量,缺省的会对每个选定的变量计算有效记录,(N),、均值,(Mean),、标准差,(Std),、最大值,(Maximum),和最小值,(Minimum),五个统计量。,Means,过程最简单的用法,可以用,means,过程,计算的统计量分别,用关键词表示:,Proc means data=class mean var clm alpha=0.01 maxdec=3 fw=8;,Var height weight;,Output out=mclass mean=var=vh vw lclm=lc uclm=uc;,Run;,Means,过程示例,该程序要求输出的结果占,8,个字符,其中小数位为,3,。把运行结果输出到数据集,mclass,中,包括变量,height,(,height,的均值),weight,(,weight,的均值),vh,(,height,的方差),vw,(,weight,的方差),Lc(,置信度为,99%,的置信下限,),uc(,置信度为,99%,的置信上限,),1,、,统计关键字,=,代表统计值的变量名称串,Proc means data=class;,Var height weight;,Class sex;,Output out=test,mean=m_h m_w,;,Run;,Output,的四种方式,这种界定方式自动计算出,var,指令所列举之所有变量的统计值。,因此,等号右边所列举的变量,必须与,var,指令中所列举的变量前后对应而且数目相同。,2,、统计关键字(变量名称串),=,代表统计值的变量名称串,Proc means data=class;,Var height weight;,Class sex;,Output out=test,mean=m_h m_w std(height)=v_h,;,Run;,Output,的四种方式,这种界定方式将产生,var,指令所列举之部分变量的统计值。,例如,上例文件,test,中包括变量,m_h,,,m_w,和,v_h,。,3,、统计关键字,=,Proc means data=class;,Var height weight;,Class sex;,Output out=test,mean=,;,Run;,Output,的四种方式,这种表达方式在等号右边是空白,未界定任何代表统计值的变量名称。因此,将以原变量的名称来代表。例如,在上例中,输出文件,test,中变量,height,与,weight,分别代表相应的均值。,须注意,若使用这种界定方式,则一个,var,变量,只能产生一种统计值,而不能同时产生其他统计值。这是因为一个,var,变量的名称只能同时代表一种统计值。,4,、统计关键字(变量名称串),=,Proc means data=class;,Var height weight;,Class sex;,Output out=test mean=m_h m_w,max(height)=,;,Run;,Output,的四种方式,这种表达方式在等号右边是空白,未界定任何代表统计值的变量名称。在等号左边的括号内列举部分,var,指令中所提到的变量。因此,这些变量的统计值,仍以变量的原名表示。例如,在上例中,输出文件,test,中变量,m_h,和,m_w,分别代表,height,与,weight,的均值,,height,代表,height,的最大值。,须注意,一个在,var,指令中界定的变量名称只能代表一种统计值。因此,使用这种界定方式时,不要同一个变量重复界定在不同的统计值关键字之后。,Output,语句中,的统计,关键字,频数语句(,freq,语句):通过不同的,sas,过程被用来指定一个变量,这个变量的值表示在相应的这个观测中其他变量值出现的频数。,当,freq,语句出现时,过程处理这个数据集就好像每个观测出现,n,次一样,其中,n,是那个观测中,freq,变量的值。,如果在某个观测中,,freq,变量的值小于,1,,这个观测在分析中不使用;如果,freq,变量的值不是整数,仅取整数部分使用。,Freq,语句,Freq,语句,对,40,名麻疹易感儿童接种麻疹疫苗一个月后,测得其血凝抑制抗体滴度如下,求其平均滴度。,抗体滴度,1:4,1:8,1:16,1:32,1:64,1:128,1:256,1:512,人 数,1,5,6,2,7,10,4,5,Data a;,Input f x;,Cards;,1 4 5 8 6 16 2 32 7 64 10 128 4 256 5 512,;,Proc means;,Var x;,Freq f;,Output out=b mean(x)=m_x;Run;,By,与,class,的区别,Class sex school;,的分组结果:,组别,sex,school,1,男和女,重点和非重点,男,重点和非重点,女,重点和非重点,男和女,重点,男和女,非重点,男,重点,男,非重点,女,重点,女,非重点,By sex school;,的分组结果:,组别,sex,school,1,男,重点,男,非重点,女,重点,女,非重点,设有两个分组变量:,sex,(分男,女)及,school,(下分重点和非重点),By,与,class,的区别,Class sex;,By school,;的分组结果:,组别,sex,school,男和女,重点,男,重点,女,重点,男和女,非重点,男,非重点,女,非重点,示例,Proc,means,data=class;,Class sex age;,var height weight;,output out=class1 mean=min=h w;,Run,;,types,:对,_type_,进行选择输出,proc means data=class;,var height;,class sex age;,types sex*age;,output out=height mean=;,run;,proc print data=height;,run;,两个过程类似,都是用来对数值变量计算单个变量的基本统计量。而且这两个过程使用的语句和选项都相同。它们的差别,缺省时,,summary,不打印输出计算结果;,means,总是打印输出计算的统计量,除非你在,proc means,过程中明确规定选项,noprint,。如果使用,summary,过程时希望打印输出统计量,必须在,proc summary,语句中规定选项,print,。,若省略,var,语句,,summary,过程只给出观测个数(,Nobs,);而,means,过程对输入数据集中除用在,by,,,Id,,,freq,,,class,,,weight,语句之外的所有数值变量计算统计量,means,过程与,summary,过程的区别,
展开阅读全文