资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第1章 统计学:处理不确定性问题的算术,1.1 什么是统计学,每位同学都是非常老道,善于决策的统计工具,假设你在光华大道上一边开车,一边聊天。在你前面的司机突然刹车,你会怎么办?,生命的每一天,都要进行大量的抽样评估和作出决定,大脑具有一种卓越机制,能够进行复杂统计,换句话说,你已经是某种类型的统计学家了。,1.2 研究的基本原则,什么是研究?为什么要进行研究?,研究是对周围世界及自身系统性提出一系列问题的行为。,大学生进食障碍研究:,1. 查阅相关文献并进行描述进食障碍如何发生,2. 设计研究方案预测谁可能受到影响,3.寻找引起障碍的原因,以期寻找方法进行预防和控制,统计学(statistics) 是一种处理数据的方法,研究设计:搜集数据以便为具体问题提供答案的系统性计划就称为研究设计 (research design)。,1. 提出问题 问题答案往往具有不确定性,研究与分析往往发生在不确定情境之中,2.详细计划与精确观察、记录决定研究的成败,3.研究可以在任何情景下进行,涉及各种问题,4. 多数研究的结果会以数字呈现,称为数据。,结论的有效性取决于研究设计的性质和搜集数据的质量,如果输入的数据是无用的,则统计输出的结果就是一堆垃圾,研究开始就必须考虑统计学工具,如果先搜集数据,再考虑怎样分析数据,就会遇到许多麻烦和痛苦,1.3 基本统计术语,变量(variable),根据研究目的,对研究对象的某个特征(研究指标或项目)实施观测,这些特征 (指标或项目)称为变量(variable,编号,医院,年龄,性别,体重,痰涂片,痰培养,皮试直径,6月后存活,001,A,68,F,56.4,阳性,阴性,18,是,002,B,63,M,74.5,阳性,阴性,16,是,003,D,65,F,57.3,阴性,阳性,21,否,004,C,70,F,65.6,可疑,阳性,28,是,100,D,43,M,66.4,可疑,阳性,14,是,表1-1 肺结核治疗部分病例的观察结果,自变量 (independent variable),指实验者能够操纵和控制的变量,其目的在于预测自变量对因变量的效果。或描述和解释不同的自变量水平或数量所导致的因变量的差异。,因变量 (dependent variable),指研究者进行检验、测量和描述的变量。,例如百米短跑比赛,先接受具体指导,再记录跑完100米所用的时间,则具体指导是自变量,时间是因变量。,数据 (data),指研究者搜集到的作为观测结果的数字或测量结果。数据可以是计数数据、等级数据、测量数据,总体 (population),总体是指具有某些共同特征的所有个体、事物或测量数据的集合,总体可能是一个观测到的假设集合,而不是真正的“完全集合” 。例如测试一种新的药物效能,总体可以是理论上能够加以施测的所有个体。,样本(sample),样本是总体的一个子集,通常用来代表总体。,参数(parameter),描述总体的特征数称为总体参数,简称参数,用(猫的叫声)和(西格玛)表示 。样本平均数用 表示,从样本搜集到的数据的有效性取决于样本的代表性和样本的抽取方法。,被试:样本中那些被选择的个体称为被试(subject),参与者:期刊文章中用于实验的人类(participant),随机样本(random sample):总体中每个个体都有等可能被选上,用这种方法选择的样本就是随机样本,是总体的一个子集。,多数实验中,研究被试都不是随机选取的,例如心理学家、医生通常用身边的被试进行研究。,被试,年龄,(月),性别,时间(秒),男孩玩具,女孩玩具,01,35,F,19,28,02,29,M,27,24,03,26,M,13,14,04,31,F,9,29,05,37,M,25,15,资料栏1-1 常用术语举例,从一个幼儿园全体儿童中随机抽取20名,单独观测每个儿童一小时,用秒表记录儿童玩玩具所用的时间。数据见表,进行填空。,1.全体儿童称为:,2.这20名儿童称为:,3.年龄、性别和时间称为:,4.秒表测量结果称为:,5. 20名儿童的平均年龄和玩耍时间称为( ),为什么?,抽样的原则:避免选样方法与研究变量之间有任何联系。,随机分配(random assignment),是将每一被试分配到实验情形的一种方法,每一被试被分配到每一情境中的机会是均等的。其目的是减少偏差,尽量保证每个实验组的被试的同质性。,统计量(statistics),根据一定程序对样本数据进行处理所得的数字,1.4 关于研究目标的一些术语,随研究者使用其技能的环境不同,研究问题的类型也不同。研究目标可以界定为:搜集信息、描述关系、组间比较、建立因果关系。,1.4.1 搜集信息-描述性研究,描述性研究(descriptive study) 是对事物当前状态的一种精确描述,研究结果常与先前研究进行比较,借以判断它是否随时间变化而发生系统变化?或者看一下研究组与其他组或与总体比较有无不同?,研究1:“给你500万,你会将你家宠物丢到悬崖下吗?”,研究2:体重自我觉察的研究,自我觉察,行合计,体重不足,超重,女性,419,1995,2414,男性,959,855,1814,列合计,1378,2850,4228,表1-2 青少年认为自己体重不足或超重的一个样本数据,1.4.2 描述关系-相关性研究,研究两个或多个变量是否“相关”?,*统计课上,同学的“数学焦虑”与选择座位与讲台的距离有关吗?高焦虑的同学是往前坐还是往后坐呢?,*高考分数与大一平均绩点之间有关吗?,*病人的不同年龄与门诊费用有关吗?,*学生人数与某餐饮连锁季度销售收入有关吗?,类似问题的研究称为“相关”(correlational)研究。,1.4.3 完整组比较-非随机分配被试的个体组,有时我们观测的个体组成员在许多方面特点不同,*社会情境中,吸烟者比不吸烟者看起来更烦躁或紧张。,*男生喜欢放大摇滚音量,而女生则不然。,*甲老师比乙老师给分高,如果你的确曾经考虑过组间差异的问题,你能够理解你所生活的世界并预测未来。,完整组比较研究(intact group comparison study),定义:完整组比较研究是对多个完整组进行比较,以确定两个或多个特点或变量是否存在组间差异的研究。,构成:完整组的成员是由被试在研究中的共同行为、特点或特质所决定的。组中的个体既不是根据研究者命令进行分配,也不是随机分配。,*吸烟组与非吸烟组的行为或健康比较研究,*抑郁症与非抑郁症病人的比较研究,* 两性的比较研究,就是分为男性和女性两组,要区分已经存在的研究组和实验者控制分配被试的研究组。因为分配被试的方法会影响到数据乃至结论。,完整组设计探讨的只是两组之间是否存在某些测量差异。不一定能够推论出因果关系。,* 例如民主党人和共和党人之间是否有差异。,*吸烟和不吸烟的母亲,所生婴儿体重有差异吗?,*从夏令营中随机选取10名肥胖儿童和10名正常体重儿童,安排他们在游泳池玩1小时,用秒表记录他们在游泳、跑步或跳跃上所花费的时间。,如果研究者用秒表记录了肥胖儿童活动时间为120分钟,正常儿童活动时间为300分钟,是否能够得出肥胖儿童会引发运动减少的推论吗?,完整组未弄清楚的问题:,AB 体重影响活动水平,BA 活动影响体重水平,第三因素影响体重与活动水平,1.4.4 建立因果关系-实验研究,“若A则B”的论断是任何科学研究的最终目标,但并非易事,1.契合法(method of agreement),需要认真研究发生同一事件的若干案例,目的是寻找其共同要素。如果能够找到一个,则可以怀疑这个要素是引发事件的原因。,*吸烟是引发肺癌的一个共同要素,正确吗?,*酒鬼说:水喝多了我就会醉,正确吗?,契合法本身对因果关系的确定并不充分。,2.差异法(method of difference),我们观察的两个情境,如果所有方面都相同而仅有一点不同。如果发现有不同的效果,我们就认为是这一点不同造成的,实验法源于此。,*例:研究酒精对完成感觉活动任务所产生的影响。完成任务的成绩是因变量,是我们关心的结果。而酒精是自变量。,将被试随机分为两组,一组喝酒精,另外一组喝安慰剂,使用双盲法。让这两组人进行模拟驾驶活动如果在两组中发现足够大 的差异,则可以推断是酒精导致了这种差异。而判断“足够大 的差异”是推论统计的核心。,3.契合差异综合法:,契合法提出假设,差异法检验假设。,酒鬼的假设是“水能让我喝醉”,可以通过差异法来检验这个假设,让酒鬼一个晚上喝水,另外一个晚上喝酒。假定他愿意诚实和客观,他会得出正确结论。,但是,推理并不总是理性的,酒鬼可能会说:“这是一种神奇的酒,如果我头天晚上喝了他,它能使我在第二天晚上喝水不会喝醉”。,1.5 实验法,真实验(true experiment):,真实验情境中有自变量、因变量和干扰变量。, 实验者必须控制自变量, 被试必须随机分配到实验组与控制组,这种实验必须回答:_对_的影响是什么?自变量对因变量的影响是什么?,*高强度运动1个半小时对心境有什么影响?,*对于减肥者而言,具有重要意义的人出现在减肥中心,对减肥效果是否有影响?,如果随机分配被试到每一实验情境中,如果在不同组之间发现有因变量(心境改变和体重减轻),可假定这种差异是自变量引起的,而不是起始差异引起的,1.6 统计分析在研究中的作用,研究设计是非常吸引人的主题,但不会贯穿在整个主题中。我们的目标是说明统计是研究中的工具。首先得做研究设计,然后考虑利用统计来组织、总结、解释研究中获得的数据。,要注意:再好的统计技术也不能够挽救一个设计很差的研究。研究的顺序是:,1.确定研究问题,2.设计研究方案,3.确定有效的统计方法,4.实施研究,5.分析数据,数据分析:描述阶段与推论阶段,1.6.1 统计的描述功能,原始数据杂乱无章,无法直接获得有用信息,可采用描述统计(descriptive ststistics),其作用:,1.组织所搜集的样本数据,2.总结由样本得到的结果(图形、平均数、比率等),3.以容易辨识的方式呈现给人们,6,4,1,12,7,5,6,9,2,12,8,4,3,6,5,8,11,5,3,11,1,10,9,3,2,9,7,9,4,10,4,5,4,7,9,3,8,6,6,7,5,7,5,8,10,2,9,3,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,X,1,2,3,4,5,6,7,8,9,10,11,12,1,2,3,4,5,6,7,8,9,10,11,12,6,4,1,12,7,5,6,9,2,12,8,4,3,6,5,8,11,5,3,11,1,10,9,3,2,9,7,9,4,10,4,5,4,7,9,3,8,6,6,7,5,7,5,8,10,2,9,3,1.6.2 统计的推论功能,推论统计(inferential statistics)是通过样本信息对总体进行广泛概括或推论的方法。所有的医学、药学和行为数据都可以进行推论统计。例如我们无法确切知道某种疾病的患病率,但是可采取适当的抽样方法来获得。,推论统计的基础是概率论:对世界的终极意义而言,推论统计无法证明任何东西。结论是概率性质而不是绝对的:“概率越大,说明实验变量对因变量的影响的可能性越大”。,图1-1 总体由失眠者组成,一些失眠者药物成瘾(a),其他不是(),总体,样本,描述统计(成瘾,者,所占比例),推论统计,(总体成瘾者所占比例),数据(样本中每个失眠者药物成瘾的情况,1.7 统计观测案例,某地一名牙医观测两名年龄分别为17和28岁牙腐蚀的病人。,对他们的个案历史研究发现,他们在药物、职业和饮食均未接触酸性物质。但是,牙医发现一个共同因素(common factor)-他们是游泳运动员,疾病控制中心给两名运动员所在的游泳俱乐部发放了调查问卷,回收747份。数据由每个人的自我观测结果组成。有以个或以上选择“许多”,或两个以上选择“有时”,就认为有牙腐蚀。,747份样本分为两组:一组成员有牙腐蚀,另外一组没有一牙腐蚀。,问:这算是一个实验吗?为什么?,问:统计分析产生的是什么数据?,问:疾病控制中心的目的是什么?,回答:这不是一个实验,而是两个完整组的比较,统计分析是计数数据。,统计方法是区分不同两组(经常游泳和不常游泳) ,计算适当的统计量,利用推论统计确定是否有足够大的数字确认两组之间存在差异。,案例,例1-1 着手撰写一份研究计划书,所选研究问题事关人类健康。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,使用什么方法去表达和展示结果等。请保留您的这份作业,并在学完本书后重新翻阅。您发现了什么问题?如何修改?您的收获是什么?,小结,1、统计学是关于数据收集、整理、分析、表达和解释的普遍原理与方法,而不是单纯搜集数据资料。,2、研究目标包括搜集信息、建立联系、完整组比较以及建立因果关系。完成目标需要进行研究设计。,3、统计分析的常用术语,4、统计分析有两种功能描述统计与推论统计,需要牢记的术语,统计学 研究设计 变量 自变量 因变量,数据 总体 参数 样本 随机样本,随机分配 统计量 描述性研究 相关研究,完整组比较 安慰剂 实验 干扰变量,描述统计 推论统计 人口普查,附录,关于统计软件的说明,一、,DPS3.1安装、注册,1、DPS3.1安装、注册,运行“DPS3.1的SETUP.EXE,指定“C:DPS数据处理系统”或“D:DPS数据处理系统”文件夹进行安装。,把DPS3.1注册C-DPS.EXE文件粘贴到安装的文件夹并运行 C-DPS.EXE。 关闭出现白菜乐园对话框,会自动打开 DPS窗口,出现机器码。 把机器码粘贴到注册框,击 “注册” 按钮,会出现正确的注册码。把正确的注册码粘贴到注册框,击 “注册” 按钮,即完成注册。,运行“DPS3.1的SETUP.EXE,二、,SPSS13.0 安装、注册,1.双击setup.exe安装英文原版,2.将regedit.exe复制到SPSS安装目录,双击后点击patch it!完成注册,3.双击cn.exe,选择SPSS安装目录,应用汉化补丁,SPSS(Statistical Product and Service Solution,统计产品与服务解决方案),是非专业统计人员的首选软件。,File New Data,会出现新数据编辑窗。,数据文件扩展名为.sav , 结果文件扩展名为.spo,图形文件扩展名为.cht,程序文件扩展名为.sps。,二、SAS统计软件简介,SAS8.1安装、注册,运行 SAS8.1菜单的SETUP,完成安装后,将光盘内CRACK文件夹中的SASHOST.DLL文件复制到C:program fileSAS institute SASV8(或D:program fileSAS institute SASV8)安装文件夹,覆盖原有的SASHOST.DLL文件。,在程序栏SAS下运行update SAS v8 Authorization Code,完成授权。,SAS(Stati-stical Ana-lysis System 统计分析系统)是世界权威统计分析软件。,文件(F),编辑(E),查看(V),工具(T),运行(R),解决方案(S),窗口(W),帮助(H),新建程序,撤消Ctrl+Z,增强编辑器,查询,提交,分析,新建窗口,使用该窗口,打开程序,恢复,程序编辑器,表格编辑,重新调提交,开发和编程,最小化窗口,帮助文档,关闭,剪切Ctrl+X,日志,图形编辑器,提交每一行,报表,层叠,软件入门,追加,复制Ctrl+C,输出,报表编辑器,提交N行,附件,垂直平铺,学习程序,打开对象,粘贴Ctrl+V,图形,图象编辑器,登录,ASSIST,水平平铺,SAS网站,保存,清除Del,结果,文本编辑器,远程提交,桌面,调整大小,关于SAS,另存为,全部清除,资源管理器,键盘宏,远程获取,EIS/OLAP,调停放视图,另存为对象,全部选定,只显示内容,添加缩写,远程显示,停放,导入数据,全部折叠,收藏夹,定制,注销,资源管理器,导出数据,全部展开,选项,结果,页面设置,查找,编辑器,打印设置,替换,日志,打印预览,输出,打印Ctrl+P,发送邮件,退出,SAS程序由SAS语句组成,通常可以分为数据集和过程语句两部分。SAS常用语句,有数据集定义语句、数据语句、注释语句、过程语句等。,格式,名称,功能,变量=表达式;,赋值语句,把表达式的值赋给变量,/*输出数据*/,注释语句,只起注释作用,运行时不执行,array 变量名(长度) 变量列表;,数组语句,定义下标变量组的字母名及变量个数,datalines或cards;数据 数据;,数据语句,数据用空格分隔,cards和数据后分号各独占一行,data 数据集名;,定义语句,定义数据集,do 变量=初值 to 终值 by增量;语句;end;,循环语句,变量在初值至终值范围时反复执行循环体语句,drop变量;,删除语句,删除变量,临时数据集不包含变量,goto 标签;,转向语句,改变执行顺序,转到指定标签语句执行,if 条件式 then 语句; else 语句;,条件语句,条件成立执行then 语句,否则执行else 语句,input变量 变量,;,输入语句,从,cards数据,读入,指定不同变量数据不分行,label:语句;,标签语句,为指定语句作标签,output;,输出语句,用于循环语句输出数据,避免循环变量取值错误,proc 过程名;语句;run;,过程语句,调用SAS过程运行并返回主程序,title,字符串,;,标题语句,指定字符串为标题,run;,结束语句,数据集结束,SAS语句均以分号结束,其一般格式可以表示为,命令字 参数字 参数;,输出变量值的过程语句为,proc print noobs; title 标题; var 变量 变量; run;,其中,proc为命令字,print为过程名,参数字noobs不显示观察对象编号obs;参数字title输出标题,标题为用户指定的标题字符串,可以在指定字符左右两边同时使用单引号或双引号;参数字var确定变量,变量名称用空格分隔,由用户指定;参数字run结束过程调用。,
展开阅读全文