SAS系统和数据分析拼接和合并数据集

上传人:仙*** 文档编号:33406960 上传时间:2021-10-17 格式:DOC 页数:9 大小:236.50KB
返回 下载 相关 举报
SAS系统和数据分析拼接和合并数据集_第1页
第1页 / 共9页
SAS系统和数据分析拼接和合并数据集_第2页
第2页 / 共9页
SAS系统和数据分析拼接和合并数据集_第3页
第3页 / 共9页
点击查看更多>>
资源描述
第十二课 拼接和合并数据集数据集的连接是把两个或两个以上的数据集的观测连接成一个新的数据集。连接的方式有两种:拼接和合并。在SAS数据步中用SET语句可以拼接数据集,而用MERGE语句可以合并数据集。例如,我们有两个数据集A和B,要拼接和合并成新的数据集C,两种不同方法的程序和结果见示意图12.1 所示。图12.1 数据集的两种连接方式:拼接和合并一、 数据集的拼接数据集的拼接可分成三种主要的拼接情况:1. 相同变量的数据集拼接这是最简单的情况,在这种情况下,新生成的数据集就含有这些相同的变量,观测的数目是所有这些数据集的观测总和。例如,数据集A和B都含有两个相同的变量COMMOM和X,且都有三条观测,如图12.2 所示。图12.2 含有相同的变量COMMOM和X的两个数据集用下面程序生成新数据集C有两个相同的变量COMMOM和X,6条观测。Data A ;Input common x ;Cards ; 9801 1 9802 2 9803 3Data B ;Input common x ;Cards ; 9801 4 9802 5 9803 6Data C ;Set A B ;Proc print data=C ;Run;拼接生成的新数据集C的结果如图12.3所示。图12.3 相同变量的数据集拼接结果2. 不相同变量的数据集拼接如果两个数据集A和B含有的变量不完全相同,如上例中数据集B含有的不是COMMON和X变量而是COMMON和Y变量,如图12.4所示。用SET语句拼接A和B数据集后,新生成的数据集C就含有三个变量COMMON、X和Y,观测的数目仍然是所有这些数据集的观测总和,但原数据集中没有的变量在拼接后新数据集中为缺失值。图12.4 含有不相同的变量X和Y的两个数据集生成新数据集C的程序如下:Data C ;Set A B ;Proc print data=C ;Run ;拼接生成的新数据集C的结果如图12.5所示。图12.5 不相同变量的数据集拼接结果3. 按关键字排序后拼接数据集如果要求新生成的数据集C按共同的关键字例如COMMON排序观测,那么预先要数据集A和B也已按COMMON关键字排序好,可通过排序过程PROC SORT 和BY指明关键字。生成新数据集C的程序如下:Proc sort data= A ;By Common ;Proc sort data= B ;By Common ;Data C ;Set A B ;By Common ;Proc print data=C ;Run ;拼接生成的新数据集C的结果如图12.6所示。图12.6 按关键字排序后拼接的数据集结果 无论哪一种拼接形式,用SET语句拼接生成的新数据集的观测总数为原各输入数据集观测数之和。二、 数据集的合并数据集的合并是通过使用MERGE语句把两个或两个以上数据集中的两条观测或两条以上的观测合并为新生数据集中的一条观测。数据集的合并可分成两种主要的合并情况:l 一对一合并(不带BY语句)l 匹配合并(带有BY语句)1. 一对一合并(不带BY语句)把一个数据集中的第一条观测同另外一个数据集中第一条观测合并,第二条观测同另外一个数据集中第二条观测合并,以此类推。新生成的数据集中的观测总数为这些数据集中观测个数的最大值。如果相对应的某个数据集已没有观测,则相应的变量值为缺省值。如果在几个数据集中有共同的变量,则在合并后新生成的数据集中只有一个变量,其值为列在MERGE语句中最后一个含有该变量的数据集中的观测值。例如,我们有两个数据集A和B,如图12.7所示。图12.7 含有不相同的变量和相同变量不同值的两个数据集生成新数据集C的程序如下:Data C ;Merge A B ;Proc print data=C ;Run ;合并的新数据集C的结果如图12.8所示。图12.8 一对一合并(不带BY语句)后的结果2. 匹配合并(带有BY语句)如果想把两个或两个以上的数据集按照相同的关键字值合并,则在MERGE语句后面要用BY跟关键字语句。且每一个数据集必须预先按关键字排序好。如果两个数据集中观测的关键字值不匹配,输出所有这些观测,相应的新增变量的值为缺省值。如果两个数据集中观测的关键字值是多对多匹配,要注意新生成的数据集中相同关键字值的观测数为各数据集中这个关键字值的观测数的最大值,相同关键字值的观测按顺序一对一合并,无论哪一个数据集中这个相同关键字值的观测没有了,都取这个相同关键字值的最后一条观测继续合并。例如,我们有一个订单数据集ORDERS和一个产品数据集PRODUCTS,如图12.9所示。图12.9 订单数据集ORDERS和产品数据集PRODUCTS要合并生成一个新的订单销售数据集SALES的程序如下:Proc sort data= ORDERS ;By P_ID ;Proc sort data= PRODUCTS ;By P_ID ;Data SALES ;Merge ORDERS PRODUCTS ;By P_ID ;Proc print data=SALES ;Run ;合并的新数据集SALES结果如图12.10所示。图12.10 匹配合并(带有BY语句)后的结果第十三课 PROC TRANSPOSE转置数据集一、 转置数据集的概念在对数据库的操作中,有时需要把数据库的行和列进行交换,也可称转置。SAS系统中TRANSPOSE过程能完成对SAS数据集的转置,即把观测(行)变为变量(列),变量变为观测。该过程从读入的一个数据集中创建一个新的数据集。新数据集中包含三类变量:l 一是由输入数据集中的观测转置后创建的新变量,又称转置变量,如_NAME_、COL1、COL2、COL3l 二是从输入数据集中拷贝过来的变量,使用COPY语句定义这个变量,新数据集中COPY过来的变量与输入数据集中的变量具有相同的名字和值l 三是为了识别新数据集中每条观测的来源用ID语句定义的变量值作为新数据集创建的新变量二、 使用PROC TRANSPOSE过程转置数据集1. 用于TRANSPOSE过程的常用语句Proc Transpose ;Var 变量列表 ;Id 变量 ;Copy 变量列表 ;Run ;2. 转置CLASS数据集例如,在CLASS数据集中有变量NAME、TEST1、TEST2和TEST3,是按每个学生各课程成绩作为一条观测来组织的,现在我们要创建一个按每门课程各个学生的考试成绩作为一条观测的新数据集NEWCLASS。程序如下:Proc Transpose Data=CLASS Out=NEWCLASS ;Var TEST1 TEST2 TEST3 ;Run ;转置生成的新数据集NEWCLASS的结果如图13.11所示。3. 设定新数据集中的转置变量名图13.11 由CLASS转置生成的新数据集NEWCLASS新数据集中的转置变量名是可以由用户自己设定的。l 通过PROC TRANSPOSE语句的选项NAME=COURSE,修改了省缺的新变量名_NAME_为COURSEl 还可以通过选项PREFIX=NO,修改了省缺的新变量名COL1、COL2、COL3、COL4、COL5为NO1、NO2、NO3、NO4、NO5l 如果新变量名COL1、COL2、COL3、COL4、COL5想用输入数据集CLASS中NAME变量中的对应值来替代,使用ID命令定义NAME即可。这样命名新变量的优点是通过新变量名就可以很容易地识别原数据集中的观察行修改程序如下:Proc Transpose Data=CLASS Out=NEWCLASS Name=COURSE ;Var TEST1 TEST2 TEST3 ;Id Name ;Run ;转置生成的新数据集NEWCLASS的结果如图13.12所示。图13.12 使用ID语句转置生成的新数据集NEWCLASS另外,还可以在PROC TRANSPOSE过程中使用COPY语句,在语句中指定输入数据集的某一个(或某几个)变量,将直接把输入数据集中指定变量那一列拷贝到新数据集也成为一列。当然,这样操作常会产生输出数据集的行和列数不匹配,用缺失值填满。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 成人自考


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!