第七章属性数据与FREQ过程课件

上传人:29 文档编号:242650391 上传时间:2024-08-30 格式:PPT 页数:38 大小:488.57KB
返回 下载 相关 举报
第七章属性数据与FREQ过程课件_第1页
第1页 / 共38页
第七章属性数据与FREQ过程课件_第2页
第2页 / 共38页
第七章属性数据与FREQ过程课件_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七章,属性数据分析与,FREQ,过程,第七章属性数据分析与FREQ过程,属性数据简介,在一个有三个主要大型商场的商贸中心,调查,476,个不同年龄阶段的人首先去三个商场中的哪一个。,属性数据简介在一个有三个主要大型商场的商贸中心,调查476个,我们看到市场调查表中,所得到的信息一般是被调查,对象的,分类信息,,而不是定量变量的具体值。,从例子中我们看到对观测对象通过商场和调查对象的,年龄段进行了分类,得到一个二维表格。,那么从这个数据我们是否能看出顾客的年龄段与他,所去的商场有联系吗?,我们看到市场调查表中,所得到的信息一般是被调查 从例子中我,为了了解广告是否对消费者产生影响,某广告公司在某地区连续广告一个月,和在没有进行广告宣传的地区分别随机抽取了,100,名消费者(实际的或潜在的)进行问卷调查,得到下表:,已购买,打算购买,不打算购买,看过广告,60,33,7,没看过广告,15,40,35,为了了解广告是否对消费者产生影响,某广告公司在某地区连续广告,变量的类型,按类型可以分为:字符型和数值型,,按测量水平可以分为:区间型和名义型。,数值变量,就是能用数字来计量的变量;而不能用数字来计量,的变量则称为,字符型变量,也称为属性变量,。,区间型变量,是指变量的取值可以为一个连续的数值区间,又,可,分为比率变量和间隔变量,。,名义型变量,是指变量本身本质上不能用数值表示,用数字没有,真正意义,又可分为,分类变量和有序变量,。,变量的类型 按类型可以分为:字符型和数值型, 数值变量就是能,按类型可以分为:字符型和数值型,,按测量水平可以分为:区间型和名义型。,分类变量和有序变量统称为属性变量,也称字符型变量,或定性变量。,间隔变量和比率变量则称为数值型变量,也称为定量,变量或连续型变量,按类型可以分为:字符型和数值型,分类变量和有序变量统称为属,分类变量和有序变量统称为属性变量,有时也称为字符型变量,或定性变量;,一般在属性数据分析中需要解决:,而间隔变量和比率变量则称为数值型变量,有时也称为,定量变量或连续变量。,对属性变量进行的数据分析称为属性数据分析。,(,1,)产生汇总分类数据,频数表;,(,2,)属性变量之间的独立性检验;,(,3,)在属性变量之间存在关联的情况下,计算他们之间的关联系数。,分类变量和有序变量统称为属性变量,有时也称为字符型变量一般,属性数据分析中一些常见概念与检验统计量,双向表(二维表),由两个属性变量交叉分组所得到的表。,多向表(多向交叉表或多维表),由两个以上属性变量构成的表。,单向表(一维表),由一个属性变量进行分组构成的表。,属性数据分析中一些常见概念与检验统计量 双向表(二维表) 多,双向表无关联性检验的统计量,双向表无关联性检验的统计量,双向表中行变量与列变量相关性的检验,行列变量都是有序变量时,双向表中行变量与列变量相关性的检验行列变量都是有序变量时,主要功能,FREQ,过程是,SAS,系统中用于属性数据分析的主要过程之一,可以生成单向到,N,向的频率表和交叉表。,对于双向表(二维表),该过程计算检验统计量和关联度。,对于,N,向表,该过程进行分层分析,计算每一层和交叉层的统计量。,FREQ,过程,主要功能FREQ过程,FREQ,过程的一般格式,PROC FREQ,;,BY,variable-list;,TABLES,request-list;,WEIGHT,variable;,OUTPUT,;,FREQ过程的一般格式,FREQ,过程语句说明:,(,1,),TABLES,语句:,一般格式:,TABLES,request-list;,若没有任何选项,则对,tables,语句中规定的变量的每个水平计算频数,累计频数,占总频数的百分比及累计百分数。,FREQ,过程中可包含任意多个,TABLES,语句,若没有,TABLES,语句,则生成输入数据集中每个变量的单向频数表,FREQ过程语句说明:一般格式:TABLES request,tables (a b c)*d;,等价于,tables a*d b*d c*d;,多项表由多个变量用星号连接产生,如,tables x1*x2*x3;,简洁表示形式:,tables ad;,等价于,tables a b c d;,tables (a b)*(c d);,等价于,tables a*c a*d b*c b*d;,tables a*(b c);,等价于,tables a*b a*c;,request-list,:,制表要求,单向表由单个变量产生 如,tables a b c;,双向交叉表用一个“,*,”,连接两个变量产生,如,tables a*b;,tables (a b c)*d; 等价于,常见类型,:,(,1,),ALL:,求所有由,CHISQ,,,MEASURES,和,CMH,选项给出的检验和度量;,(,2,),CHISQ:,要求对每层的齐性或独立性进行,(,3,),CMH:,计算,Cochran-Mantel-Haenszel,统计量,,用于,2,维以上表,检验行、列变量的相关。,(,4,),EXACT:,对于,大于,22,维表,进行,Fisher,精确检验。,(,5,),MEASURES:,计算相关度量和它们的渐进标准差。,(,6,),ALPHA=P,值,:,常见类型:(1)ALL:求所有由,OUT=sas-data-set:,规定输出数据集的名字,output-statistic-list,:,输出统计量列表,可用的统计量是有,PROC FREQ,产生的关于双向交叉表的统计量及概括性统计量。,(,2,),WEIGHT,variable:,每个观测对频数为对应权数变量的值。,(,3,),OUTPUT,语句:,一般格式:,OUTPUT;,创建一个包含有,PROC FREQ,计算的统计量的,SAS,数据集。,OUT=sas-data-set:规定输出数据集的名字(2),nocol norow,要求不输出行、列百分比,应用举例,例,7.1,广告是否会显著影响消费者的购买意向,data,ads;,input ad$ plan$ number;,cards;,看过 已买,60,看过 打算买,33,看过 没打算买,7,没看过 已买,25,没看过 打算买,40,没看过 没打算买,35,;,proc freq;,tables ad*plan/chisq nocol norow;,weight number;,run,;,nocol norow 要求不输出行、列百分比应用举例例7,输出,1,按是否看过广告和购买意向分组的消费者分布情况,输出1 按是否看过广告和购买意向分组的消费者分布情况,由卡方统计量,似然比卡方,以及,M-H,卡方统计量值对应概率,都小于,0.05,,从而在,0.05,的显著性水平下有行列不独立,即广告,对消费者的购买意向,有显著影响,。,输出,2,广告是否会显著影响消费者购买意向检验结果,且由,Phi,系数、,Cramer,的,V,系数为,0.4108,,列联系数为,0.38,可知这种影响是正向的,即看过广告的消费者更可能购买。,由卡方统计量,似然比卡方,以及M-H卡方统计量值对,例,7.2,顾客年龄段对首先去的商场的影响,data client;,do i=1 to 3;,do j=1 to 3;,input f ;,output;,end;,end;,cards;,80 70 45,91 86 15,41 38 10,;run;,proc freq;,weight f;,tables i*j/expected chisq nocol,norow nopercent exact;,run;,其中用,i=1,2,3,分别表示顾客的年龄段为,30,,,3150,,,51,;,用,j=1,2,3,分别表示顾客首先去的商场为商场,1,,商场,2,,商场,3,。,),例7.2 顾客年龄段对首先去的商场的影响 data cl,例,7.2,顾客年龄段对首先去的商场的影响,data client;,do i=1 to 3;,do j=1 to 3;,input f ;,output;,end;,end;,cards;,80 70 45,91 86 15,41 38 10,;run;,proc freq;,weight f;,tables i*j/expected chisq nocol,norow nopercent exact;,run;,Expected,要求给出期望频数,Chisq,进行卡方检验,Exact,进行,Fisher,精确检验,Norow,nocol,nopercent,不要求输出行、列及累计百分比,例7.2 顾客年龄段对首先去的商场的影响 data cl,输出,7.2 (A),顾客年龄和首选商场分布情况,输出7.2 (A) 顾客年龄和首选商场分布情况,由卡方统计量,似然比卡方,以及,M-H,卡方统计量值对应概率,都小于,0.05,,从而在,0.05,的显著性水平下有行列不独立,即不同,年龄段顾客对商场是有选择的。,Fisher,精确检验也说明了这一点,(双侧检验的,P,值,8.333E-04,远小于,0.05,)。,输出,7.2 (B),顾客年龄段是否会显著影响首选商场检验结果,由卡方统计量,似然比卡方,以及M-H卡方统计量值对应概率输出,由于顾客年龄段和商场编号都是有序变量,故可利用,Gamma,(,-0.1481),、,Tau-b(-0.0930),、,Tau-c(-0.0870),和,Spearman,(-0.1024),等级相关系数计算两者之间的关系,以上数值都是负的,,表明两变量之间的关系是负相关的,即随着年龄的增大,会,更倾向选择序号低的商场。,输出,7.2 (C),顾客年龄段与商场编号之间的相关系数,由于顾客年龄段和商场编号都是有序变量,故可利用Gamma输出,下表记录了某公司过去,3,个月中的顾客信息,包括顾客的性别、月收入、消费水平。试根据此表完成以下工作:,(,1,)检验顾客月收入的高低是否显著影响顾客的消费水平,给出两者之间的关联系数;,(,2,)以性别作为分层变量生成消费水平与顾客月收入之间的双向交叉表,并分析比较男女顾客收入高低人群的购买行为。,表见,P253,例,7.3,顾客年龄段是否会显著影响首选商场检验结果,下表记录了某公司过去3个月中的顾客信息,包括顾客的性别、月收,data customer;,input income purchase sex$ number;,cards;,0 0 m 35 0 0 f 55 0 1 m 8 0 1 f 34,1 0 m 58 1 0 f 40 1 1 m 15 1 1 f 31,2 0 m 37 2 0 f 44 2 1 m 38 2 1 f 36,;,proc freq;,tables purchase*income/chisq measure norow nocol nopercent;,tables sex*income*purchase/ chisq expected norow nocol;,weight number;,run;,Income,收入,,0,,,1,,,2,分别代表低收入、中等收入和,高收入,Purchase,消费水平,,0,,,1,分别代表消费额低于,300,元,和消费额高于,300,元及以上,data customer;Income 收入,0,1,2分,tables purchase*income/chisq measure norow,nocol nopercent;,由卡方统计量对应的概率都小于,0.05,,表明顾客的消费水平和,收入具有关联性。,tables purchase*income/chisq m,tables purchase*income/chisq measure norow,nocol nopercent;,由于两变量都为有序变量,且,Gamma=0.2324,,,Tau-b=0.1312,Tau-c=0.1466,,,Spearman=0.1391,,表明两者之间正相关,即,收入越高,消费越高。,tables purchase*income/chisq m,tables sex*income*purchase/ chisq expected norow nocol;,由卡方统计量对应的概率都大于于,0.05,,表明,女性顾客,的消费水,平和收入没有有关联性。,tables sex*income*purchase/ c,tables sex*income*purchase/ chisq expected norow nocol;,由卡方统计量对应的概率都小于,0.05,,表明男性顾客的消费水,平和收入具有关联性。,tables sex*income*purchase/ c,我们看一个实际的例子, “,Zagat,饭店评论”是一个提供世界各地饭店数据的服务机构,他报告饭店各种变量的数据,例如:饭店的质量等级、典型的食品价格等。质量等级是定性数据,等级类型是好、非常好和优异。食品价格是定量变量,通常的变化范围是:,10,美元,49,美元。一个样本包括洛杉矶地区的,300,家饭店,收集他们的质量等级和食品价格数据,如下表所示:,我们看一个实际的例子, “Zagat饭店评论”是一个提供世界,食品价格,质量等级,10-19,美元,20-29,美元,30-39,美元,40-49,美元,总计,好,非常好,优异,42,34,2,40,64,14,2,46,28,0,6,22,84,150,66,总计,78,118,76,28,300,食品价格质量等级10-19美元20-29美元30-39美元4,试根据上面的数据以及所给出的交叉分组表,分析饭店的质量等级和饭店的价格是否有关系,若有关系是否能说明存在怎样的关联?,试根据上面的数据以及所给出的交叉分组表,分析饭店的质量等级和,data,grade;,input class$ price number;,cards;,good 0 42 good 1 40 good 2 2 good 3 0,verygood 0 34 verygood 1 64 verygood 2 46 verygood 3 6,perfect 0 2 perfect 1 14 perfect 2 28 perfect 3 22,;,proc,freq,data=grade;,tables class*price/chisq expected nocol norow nopercent measures;,weight number;,run,;,data grade;,第七章属性数据与FREQ过程课件,第七章属性数据与FREQ过程课件,例:为了解某种药物的治疗效果,得到下面的数据:某病两种药物治疗结果,药物,疗效,有效,无效,合计,A,B,8,14,2,18,10,32,合计,22,20,42,例:为了解某种药物的治疗效果,得到下面的数据:某病两种药物治,data,test;,input drug$ result$ number;,cards;,a effect 8 a noeffect 2,b effect 14 b noeffect 18,;,proc,freq,;,tables drug*result/chisq expected norow nocol;,weight number;,run,;,data test;,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!