stata中变量的生成与处理.ppt

资源描述

第四章变量的生成与处理,导论,Stata对数据的处理是以变量为前提的若没有需要分析的变量，则Stata将一无用处熟悉变量的内容和分布、生成新变量、改变旧变量等是处理数据的第一步,4.1.新变量的生成、规则及注意事项,Stata的变量类型,Stata软件生成三类变量：numeric（数值型）变量，string（字符型）变量（相当于定性变量）和date（日期）变量。虽然日期变量以数值型变量的技术记录、存储，但二者的用途却不同数值型变量包括定距和定比变量。可以是整数、小数、负数和正数。数值型变量可以有多种存储方式（StorageTypes）用str类型保存的定性等分类变量也可区分为多种形式，从str1-str244,Stata的日期变量,日期（date）变量是数值型变量的一个特例。它们通常以字符的形式输入(如:01JAN1992or01/01/92)，但必须以数值型数据存储才能有用Stata有几个命令可以工作于日期和时间依赖（time-dependent）数据Stata将所有的日期保存为从1960年1月1日以来的天数或月份、季节等。此前的日期是负值，此后的是正值。SAS使用同样的日期方式，但其起始时间是1582年的10月14日。Excel使用1900年1月1日为默认起始日。如果读入Excel数据，则以字符型变量输入日期，并重新格式日期,生成变量的路径,DataCreateorchangevariables,生成变量的窗口,DataCreateorchangevariablesCreatenewvariable,基本命令,Stata有四个基本的生成和修改变量的命令：gen、egen、replace和recode.gen和egen分别是generate和extendedgenerate的缩写，它们用于生成新变量.replace和recode用来改变现存变量的属性或数值.replace需要与gen一起使用；二者的区别在于，gen用于生成新变量，replace用于重新定义已经存在的变量.recode也可以与gen一起使用,基本语法,.gen变量名=表达式1.replace变量名=表达式2if条件：生成新变量或替代现存变量取值的基本命令：新变量或其取值将被替换的变量的名称：在gen命令的取值不同于在replace命令的取值：替换原有变量的取值必须满足if指定的条件,*yrofschoolingrecoded（这是一个注释；*代表注释）genedu=0replaceedu=1ifyrsch=11replaceedu=2ifyrsch=12replaceedu=3ifyrsch=13replaceedu=4ifyrsch=14replaceedu=5ifyrsch=15replaceedu=6ifyrsch=16replaceedu=7ifyrsch=21replaceedu=8ifyrsch=22replaceedu=9ifyrsch=23,replaceedu=10ifyrsch=24|yrsch=27replaceedu=11ifyrsch=25|yrsch=28replaceedu=12ifyrsch=26|yrsch=29replaceedu=13ifyrsch=31replaceedu=14ifyrsch=32replaceedu=15ifyrsch=33replaceedu=16ifyrsch=34replaceedu=17ifyrsch=35replaceedu=18ifyrsch=36replaceedu=.ifyrsch=.|yrsch=-9tab1yrschedu*查看变量的生成是否成功,变量生成的规则（I）,生成新变量、重新定义旧变量时需遵循的一些基本规则：变量的名称可长达32个字符，必须以字母、汉字或字符（，_，#，$等）开头（不能使用空白字符或!、?等特殊字符）。变量最后一个字符不能是句号变量的名称必须唯一，不能有两个相同的变量名Stata区分大小写，对大写、小写敏感：Variable不能写成variable，反之亦然使用描述性的变量名字：“变量a”这个名称没有任何意义。调查问题是变量名称的很好选择,变量生成的注意事项,尽量避免使用同一变量名称。换言之，不要使用新变量取代旧变量。保持原始变量有助于检验我们的命令是否正确充分了解原始变量的分布以及每个数值代表的含义遵循不重不漏（exhaustiveandmutuallyexclusive）原则（详见“生成分组变量”一节）在变量生成后，将原始变量和新变量的取值进行对比，检查是否有误注意原始变量的缺失值,4.2利用系统变量或下划线变量（_n和_N）生成新变量Stata有几个下划线变量（_variables，读为“underscorevariables”），因包含下划线而得名。这类变量并不出现在Stata的Variables（变量）窗口中，故又称系统变量。其中，经常使用的有_n和_N。系统变量_n和_N对于数据的管理和处理十分有用，尤其是与特殊选项by同时使用时,系统变量_n,_n是指当前的观察值，即独一无二的观测序号，从1到_N(_N=总样本）_n是Stata系统内部独特的辨识器，标志从第一个观察值开始直到最后一个观察值（_N）的序列_n=1为第一个观测，_n=2为第二个观测，_n=_N是最后一个观测该系统变量适于（1）指示观察值；（2）生成系列数值；（3）生成其他变量,使用系统变量_n指示观察值,系统变量_n表示每个观察值的位置（numberingobservations）。其原则是：当前观察值：_n总观察值（最后一个观察值_n）：_N第一个观察值：1最后一个观察值：_N滞后一个(lag)观察值：_n-1前移一个(lead)观察值：_n+1第27个观察值：27,假如现有以下数据：+-+|provincepersonidhomesizeagegirlsiblings|（省份）（个人ID）（家庭规模)（年龄）（女孩）（姊妹数量）|-|1.|212106018504505girl1|2.|35350515410310018boy0|3.|3232050937032468boy0|4.|373708156203609boy0|5.|454452082404206girl3|6.|3535011173052513girl2|7.|4545260576069010girl3|8.|323209163903252boy0|9.|373702093304687boy1|10.|3737040575038020boy3|+-+现在想看看每个孩子在省内的排序,使用系统变量_n生成新变量,步骤1：对province（即“关键变量”）进行排序.sortprovince步骤2：生成感兴趣的变量.byprovince:genorder=_n：按province的分类进行排序和计算：生成新变量的基本命令：新变量的名称：新变量的取值等于同一province内观察值的序次步骤3：使用频数分布查看生成的结果是否正确.taborder,使用系统变量_N生成新变量,系统变量_N代表样本总数。最后一个样本_n即是_N使用前面的数据，看看每个省共有几个孩子在样本中步骤1：对province进行排序步骤2：生成感兴趣的变量。其命令是：.byprovince:genceb=_N步骤3：查看结果正确与否.tabceb,生成滞后（lag）变量或移前变量（lead）,在分析某些类型数据（包括常用的家庭成员数据和纵向数据）的过程中，常常需要根据研究问题将一个样本的取值转移到上一个（或下一个）观察值中。.gena=b_n-1.gena=b_n+1：需要生成的新变量的名称：现有变量的名称：将现有变量的取值下移一行（_n-1）或前移一行（_n+1）的基本命令,.gena=age_n-1(1missingvaluegenerated).genb=age_n+1(1missingvaluegenerated).list+-+|provincepersonidhomesizeagegirlsiblingsorderab|-|1.|212106018504505girl11.2|2.|323209163903252boy0158|3.|3232050937032468boy02218|4.|35350515410310018boy01813|5.|3535011173052513girl22189|10.|4545260576069010girl326.|+-+,4.3生成数值型变量,使用recode,gen命令生成新变量,.recode原变量（原变量取值=新变量取值）*=其他取值,gen新变量：给变量重新赋值的命令：现有变量的名称：现有变量的取值：新变量的取值；和是一个整体：*符号表示所有其他没有列出的数值，包括缺失值；recode与gen之间有逗号（,）隔开：生成新变量的命令：新变量的名称,以本章数据中的变量“yrsch”为例。前面使用genreplace的方法在“yrsch”的基础上生成变量“edu”；现在使用另一种简便的方法生成“edu”由于变量edu已经存在，首先需要删除该变量：.dropedu.recodeyrsch0=011=112=213=314=415=516=621=722=823=92427=102528=112629=1231=1332=14*=.,gen(edu)该命令在原变量yrsch的基础上生成一个新变量（edu)新变量对原变量的取值重新编码。原变量照旧保存着若无gen（edu）部分，则仅取代原有变量的取值,使用数学表达式生成新变量,任何有效的数学表达式在生成变量时都适用。既可以是加、减、乘、除的单独表达式，也可以是混合表达式：.gena=b+c+d加法：将变量b，c，d的数值累加起来，生成新变量a.gena=b-c减法：将变量b的数值减去变量c的数值，得到变量a.gena2=a*a乘法：该命令生成新变量a2；a*a是axa的表达方式.gendoublea=b/c除法：用变量b的数值除以变量c的数值，得到新变量a。该变量定义为double类型.gena=b/(c2)新变量a的取值等于变量b的取值除以变量c取值的平方,4.4生成分类变量,*agegroup.genagegrp=0.replaceagegrp=1ifage=0&age=5&age=10&age=15.replaceagegrp=.ifage=.egenagegrp=cut(age),at(0,5,10,15,20),4.5生成虚拟变量（dummy,dichotomousvariable）,方法1,.gen新变量名=b限制条件：生成新变量的基本命令：新变量名：旧变量名：当b满足某种条件时，生成新变量比如：.genxiaoxue=edu7或.genxiaoxue=edu=6或.genbytexiaoxue=edu7或.genbytexiaoxue=edu6,方法2,.gen变量名1if取值为1的限制条件.replace（变量名0if取值为0的限制条件比如：.genxiaoxue=1ifedu=7若edu大于或等于7，则xiaoxue等于0.replacexiaoxue=.ifedu=.若edu等于.，则xiaoxue等于.（缺失）,方法3,虚拟变量往往是根据某（几）个已知变量的取值生成的.tab已知变量名,gen新变量名基于某个已知变量，生成一组虚拟变量虚拟变量的数目因已知变量的分类而异若现存变量有两个取值，则生成两个虚拟变量若现存变量有三个取值，则生成三个虚拟变量若现存变量有n个取值，则生成n个虚拟变量新生成的虚拟变量有相同的前缀，也就是新变量名，但尾缀相异，由已知变量名的取值决定,

展开阅读全文

stata中变量的生成与处理.ppt

最新文档