第02讲 数据录入与数据管理

上传人:痛*** 文档编号:243860971 上传时间:2024-10-01 格式:PPT 页数:32 大小:1.18MB
返回 下载 相关 举报
第02讲 数据录入与数据管理_第1页
第1页 / 共32页
第02讲 数据录入与数据管理_第2页
第2页 / 共32页
第02讲 数据录入与数据管理_第3页
第3页 / 共32页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Lesson 2,数据录入与数据获取,如何将数据录入,SPSS,中,如何将其他格式的数据读入,SPSS,中,可从报纸、电视、互联网、年鉴等方面看到各种数据,并且从这些数据可以提取对自己有用的信息。,一,.,数据是怎样得到的?,这些间接得到的(并非自己收集的)数据都是二手数据。,获得第一手数据要困难得多,某些在华的外资企业每年至少花三四千万元来收集和分析数据,他们如同间谍,收集各种情报,他们很舍得在这方面花钱。因为市场信息数据是企业生存所必需的,绝不是可有可无的。,在自然的未被控制的条件下观测到的数据,称为,观测数据,(observational data),。,在人工干预和操作情况下收集的数据就称为,试验数据,(experimental data),。,同学们自己可以举出大量的观测数据和试验数据的例子,二,.,收集数据时的误差,一勺八宝粥中的成分比例和整锅不尽相同,可能稍微多些或稍微少些。这是很正常的,因为样本的特征不一定和总体完全一样,这种差异不是错误,而是必然会出现的,抽样误差(,sampling error,),。,抽样调查中,人们因为种种原因没有对调查做出反映,这种误差称为,未响应误差(,nonresponse,error,),。,和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解,应该在设计调查方案时和进行调查过程中尽量避免,一些人因为各种原因回答时并没有真实反映他们的观点,这称为,响应误差(,response error,)。,统计工作的操守准则,统计工作的操守准则,三,.,数据录入基本原则,1.,不同观察对象的数据不能在同一条记录中出现,即同一观测数据应独占一行,2.,每一个测量指标,/,影响因素只能占据一列的位置,即同一个指标的测量数值都应当录入到同一个变量中去,3.,最终的数据集应当能够包含原始数据的所有信息,注:有时可以出现违反这些原则的例外情况,如重复测量数据,四,.,数据的直接录入,数据录入三部曲,定义变量名,指定变量各种属性,录入数据,变量类型,测量尺度,变量名与变量值标签,缺失值,其他,1.,变量类型(,Type,),数值型,应用最为广泛,分为标准数值型,(,Nnmeric,),、逗号数值型,(Comma),、圆点数值型,(Dot),、科学计数法型,(Scientific Notation),、美元数值型,(Dollar),、用户自定义型,(Custom Currency),。,字符型,(String),区分大小写字母,不能进行数学运算,所以分析、整理都较困难。,日期型,(Data),实际上是特殊的数值型变量,用来表示日期或时间。,2.,数据变量的测度(,Measurement,),定类尺度,(Nominal Measurement),又称无序分变量。其观测值既无大小之分,又无等级或次序之分,仅是按某种属性对其进行分类。像:性别、部门单位或国家地区等。数据可以是数值型及字符型。但不能进行加、减、乘、除等数学运算。这类变量是测度最低的变量。,定序尺度,(Ordinal Measurement),又称有序分变量。其观测值尽管大小没有特定意义,但属于顺序计量类型,适合于按照顺序排列的变量。像:名次、级别、职务等变量。观测值彼此之间的次序是有一定意义的,打乱定义将产生错误。数据可以是数值型及字符型。但同样也是不能进行加、减、乘、除等数学运算的。,定距尺度,(Interval Measurement),区间变量。其观测值具有等级和次序之分。即观测值的大小和次序具有可比性,可以反映观测值之间的大小差异。但该类变量的观测值是在特定区间上有意义,超出该区间将没有意义。只可以用数值型变量表示。可进行加减运算。,定比尺度,(Scale Measurement),比例变量。按照一定间隔、比例计量数据的变量类型。如:长度、质量、重量等变量,其观测值“零”也是有定义的。观测值之间可以进行加、减、乘、除的四则运算。数值型变量。,定距尺度与定比变量在绝大多数统计分析中无本质区别,在,SPSS,中合称为,Scale,,又称为连续型变量,上述四种测度的变量分别表示了不同的测量等级,等级高的应用范围广泛,等级低的应用范围受局限。测度低对事物属性的描述就是定性的,即只能研究到事物的某些属性的存在和分布情况,不能研究到事物属性的量化程度。测度高对事物属性的描述既可以是定性的,也可以是定量的。,由于定类变量和定序变量的测度低,属于,定性,描述的变量。定距变量和定比变量测度高,属于,定量,描述的变量。,定性描述通常仅分析到数据的频数、频率以及不同分布情况,还可以作为分组变量讨论其他变量的描述统计量。而定量描述则不仅可以分析其平均值、方差等分布参数,而且可以对不同的分组做比较性研究和更高级的研究。,10/1/2024,3.,变量名与变量值标签,用于对变量及变量值含义进行说明,使结果更易读懂。用,Label,项定义变量名标签,对变量名的含义进一步说明,用,Values,项定义变量值标签。,4.,缺失值(,Missing,),用于定义变量缺失值,,SPSS,中有系统默认缺失值与用户自定义缺失值两大类。除非问卷中有特殊编码,否则一般按默认情况处理,5.,其它设置,均按默认值处理,一般不需要更改,实例,1,:,有问卷调查表,1.,序号,2.,性别,1,男,1,女,3.,姓名,4.,家庭月收入:,a.3000,以下,b.3000-4999 c.5000-6000 d.7000-9999 e.10000,及以上,5.,出生年月日(,mm/,dd/yyyy,),6.,婚姻状况:,a.,未婚,b.,已婚,c.,丧偶,d.,离异,7.,你在选择购物商场时,关注哪些因素:,a.,交通条件,b.,促销活动,c.,购物环境,d.,服务质量,e.,其他,8.,请问你购物的打折信息主要来自以下哪些因素(限选,3,项):,a.,报纸,b.,杂志,c.,电视,d.,收音机,e.,网络,f.,朋友介绍,g.,手机短息,h.,其他,请指出,9.,每天上网的 小时数:,小时,此问卷中包含了开放题(,1,、,3,、,5,、,9,),单选题(,2,、,4,、,6,),多选题(,7,、,8,)。,1.,开放题的录入(软件演示),2.,单选题的录入(软件演示),三种录入方式:字符直接录入、字符代码,+,值标签、数值代码,+,值标签(常用),运行,SPSS,电子教程,在,SPSS,电子表格中输入资料,执行一个已存在的数据库文件,在资料收集系统指导下,一步一步创建新文件,打开已存在的,SPSS,其他文件,打开已存在的,SPSS,数据文件,3.,多选题的录入(软件演示),两种录入方式:多重二分法(,Multiple Dichotomy Method,)、多重分类法(,Multiple Category Method,),多重二分法中有几个选项就对应定义几个变量,每个变量都是二分的,此法适用于选项较少的情形。多重分类法中变量个数由被访者实际可能给出的最多答案数而定,变量为数值型,适用于选项较多的情形,,多选题录入在,SPSS,中的实现,定义多选题集后,才能进行分析,两种定义方式,前者关闭后在数据文件中可保存定义的信息,后者不保存,四,.,外部数据的获取,1.,直接打开,选择菜单,FileOpenData,2.,利用文本向导读入文本数据,选择菜单,FileOpenData,,文件类型中选,.txt,或,选择菜单,FileOpen,Text Data,3.,利用数据库,ODBC,接口读入数据(自学),直接打开,(,以打开,SPSSTutorialSample file,中,demo.xls,为例,),利用文本向导读入文本数据,你的文本文件与预定义格式一致吗,按预定义格式读入的数据文件的预览,用某种字符区分,固定宽度,变量名是否包含,在文件最前面,第一条纪录从第几行开始,纪录怎样存储在文件中,每一行代表一条纪录,每?变量代,表一条纪录,你想导入几条纪录,变量间用哪种分隔符,数据间采用的是,什么文本限定符,定义在数据预览窗口中所选择的变量,可以在数据预览窗口中选择某一列变量更改其变量名与类型,是否保存啊这次读入以备后用,是否将以上操作粘贴为,SPSS,语句,五,.,数据的保存,1.,存为,SPSS,格式,选择菜单,FileSave,(,Save As,),FileSave,As,中的,Variable,按钮可用来指定,需保存的变量,2.,存为其他数据格式,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!