利用SPSS分析调查问卷数据

上传人:cel****460 文档编号:243752890 上传时间:2024-09-30 格式:PPTX 页数:73 大小:1.35MB
返回 下载 相关 举报
利用SPSS分析调查问卷数据_第1页
第1页 / 共73页
利用SPSS分析调查问卷数据_第2页
第2页 / 共73页
利用SPSS分析调查问卷数据_第3页
第3页 / 共73页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,利用SPSS分析调查问卷数据,一、问卷的整理,二、问卷的录入,三、问卷的分析,问卷整理程序,审,核,编,码,数据处理,图表制作,录,入,分,组,第一节 问卷的整理程序,审核分为,两个层面,实地审核,一般方式:,复查和回访,资料审核,主要内容包括:,资料的时效性,准,资料的完整性,缺,资料的正确性,误,1,、审 核,调查资料审核的主要内容,1完备性,2完整性,3正确性,4时效性,5真伪性,1、完备性,即检查收回的问卷或调查表的份数是否齐全,是否到达了调查方案设计的样本量的要求。如果调查问卷或调查表份数不够,应查明原因,采取补救措施,如重新拜访或更换调查对象。,2、完整性,即检查审核问卷或调查表填答的工程是否完整。,不完整的答卷有三种情形:,1大面积的无答复,或者相当多的问题无答复,对此应作废卷处理;,2个别问题无答复,应视为有效调查问卷,所留空白待后续工作采取补救措施,或将它直接归入“暂未决定、“其他答案的类别中;,3有相当多的调查问卷对同一问题无答复,仍作为有效调查问卷,对此项提问可作删除处理。,3、准确性,即检查问卷或调查表中的工程是否存在填答错误,一般也有三种情形:,1逻辑性错误,表现为某些答案明显地不符合事实,或者前后不一致。对这类错误能够用 核实的可进展更正,无法核实的按“不详值对待;,2答非所问的答案,一旦发现应通过 询问进展纠正,或按“不详值对待;,3乏兴答复的错误,如所有问题都选择同一固定编号答案,或者一笔带过假设干个问题。如这种乏兴答复仅属个别问卷,应彻底抛弃,如这类答复的问卷有一定的数目,且集中出现在同一类问题群上,应把这些问卷作为一个独立的子样本对待,在资料分析时给予适当的注意。,4、时效性,主要是对调查问卷或调查表的访问时间、有关数据的时间属性进展检查,以评价调查数据是否符合时效性的要求。,一般地,访问员应在规定的时间内完成所有样本单位的访问,如延迟了访问,那么应作出不同情况的处理:如延迟访问对调查结果没有什么影响,那么问卷仍是合格的;假设延迟访问影响到数据的时间属性不一致时,那么应废弃这样的调查表或问卷。,5、真伪性,主要是对调查表或问卷的真实性进展检验,评价访问员是否存在伪造问卷或调查表的行为。,一般采用抽样检查的方法进展核实,即从回收的全部问卷或调查表中随机抽取一局部,然后用 或派人上门与被调查者联系,核实访问员是否到访,以及访问的时间、地点等。如果发现问卷或调查表是伪造的,应作废弃处理,并要派员重访。,调查资料审核的主要方法,经历判断法,例如:如果被调查者年龄填写为132岁,根据经历判断,其填写肯定有误。,逻辑检查法,例 如:某消费者在前面说“不知道某调味品,后面却说“每天都在使用,显然前后矛盾。,计算审核法,例如:在家庭收支构造中,家庭总收入远小于总支出和储蓄之和,那肯定有错。,案例,错误的数据不如没有数据,国内一家知名的电视机生产企业,2004年初设立了20多人的市场研究部门,开展了同样的调研问卷,完全一样构造的抽样,两组数据结论却差异巨大。正是因为这次调查,部门被注销、人员被全部裁减。,问题:列举您会选择的电视机品牌?,其中一组的结论是:有15%的消费者选择本企业的电视机;另一组的得出的结论却是:36%的消费者表示本企业的产品将成为其购置的首选。巨大的差异让公司高层非常恼火,为什么完全一样的调查抽样,会有如此矛盾的结果呢?公司决定聘请专业的调研公司来进展调研诊断,找出问题的真相。,普瑞辛格的执行小组受聘和参与调查执行的访问员进展交流,并很快提交了简短的诊断结论:第二组在进展调查执行过程中存在误导行为。调研期间,第二组的成员佩带了公司统一发放的领带,而在领带上有本公司的标志,其标志足以让被访问者猜测出调研的主办方;其次,第二组在调查过程中,把选项的记录板(无提示问题)向被访问者出示,而本企业的名字处在侯选题板的第一位。以上两个细节,向被访问者泄露了调研的主办方信息,影响了消费者的客观选择。,这家企业的老总训斥调研部门的主管:“如果按照你的数据,我要增加一倍的生产方案,最后的损失恐怕不止千万。,问题:本案例对你有何启示?,分析提示:市场调查是直接指导营销实践的大事,对错是非可以得到市场验证,只是人们往往无视了市场调查本身带来的风险。一句“错误的数据不如没有数据,包含了众多中国企业家对数据的恐慌和无奈。,缺失数据的处理,1无效问卷,2不满意的问卷,3不满意问卷的处理方法,1无效问卷,1)答复不完全,2)调查对象不符合要求,3)答案选择高度一致,4)截止日期后收回的问卷,2),不满意的问卷,1模糊不清,2前后不一致或有明显错误的,3模棱两可,4不符合作答要求,3不满意问卷的处理方法,1重新调查,2填充,找一个中间值代替,用一个逻辑答案代替,删除处理,3空缺,文字资料,分组,2,、分 组,数字资料,一、文字资料的分类,对于调研问卷中的开放式问题,很多答复都是文字资料,对于这些文字资料我们需要根据其资料的性质、内容或特征把相异的资料挑出来,把一样或相近的资料归为一类,这样才能进展后期的数据分析。,1穷举原那么。穷举即不遗漏,就是说分类时每一条资料都要有归属。分类的结果必须将所有的总类全部包括进去,没有遗漏。,2相斥原那么。相斥即不重复,就是说在一种分组中每一条资料只能归属为一类中,而不能既归于这类又归于那类,以至于在不同类别中重复出现。即类与类要相互排斥。,对开放式问题的答案整理程序:,1、集中所有同一个开放式问题的全部文字性答案,通过阅读、思考和分析,把握被调查者的思想认识。,2、将被调查者的全部文字性答案,按照其思想认识不同归纳为假设干类型,并计算各种类型出现的频数后,制成全部答案分布表。,3、对全部答案分布表中的答案进展挑选归并,确定可以承受的分组数。一般来说,在符合调研工程的前提下,保存频数多的答案,然后把频数很少的答案尽可能归并成含义相近的几组,应根据调研的目的和答案类型的多少而确定,一般来说应控制在10组之内。,4、为确定的分组,选择正式的描述词汇或短语。不同组别的描述词汇或短语应表达质的差异,力求中肯、精炼、概括。,5、根据分类归纳的结果,制成正式的答案分布表。,例:在一项关于居民空调购置行为的调研问卷中,设置了“你对静音空调这个产品概念有何看法?的开放式问项,通过对被调查者的答复分类归纳如下:,被调查者对“静音空调的看法分布,看法分类 答案人数 比重%,符合环保要求,符合开展趋势,符合消费需求,希望尽快推出,有可能实现,不可能实现,难以评价,合计,二、数字资料的分组,对于问卷中的数字资料大多数在设计问卷时已经分好组了,如问卷中的封闭式问题。,但是,开放式问题如“您购置的小灵通价格是( )元,那么,我们在问卷调查完之后就还要对数字资料进展分组。,数字资料有在问卷设计的时候就分组的,也有调查完毕后再分组的,不管怎样,数字资料分组的原理都是一样的,我们都需要按照一定的步骤进展。,数字资料分组的步骤,1,、分组标志的选择,数据资料分组的关键是选择分组标志。分组标志是说明总体特征的名称,可以分为品质标志和数量标志。,定性:,品质标志,表示事物的质的特征,是不能用数值直接表示的属性,如人的性别、民族等。,定量:,数量标志,表示事物的量的特征,是可以用数值直接表示的,如人的年龄、收入等。,分组标志就是分组的依据或标准,分组标志一经选定,各组的性质界限和数量界限也就确定了。,2、组数和组距确实定,1组数和组距如何确定。当全距确定时,组距大那么组数小,组距小那么组数多。如果分组过多,组距必小,那么不易观察数列分布的规律性。如果分组过少,组距必大,会使组中值缺乏代表性。各组组中值应对本组有良好的代表性。组距确实定一般可以请专家或以经历法确定。组数一般常分为1015组。,调查的数据资料最大值减去最小值,就是全距。,组距=全距组数,确定组距应遵循以下3个原那么:,必须把原始资料全部变量值都包括在所分组内,不能有任何遗漏;,组距尽可能取整数,不要小数;,各组的组距尽可能相等,少用不等距分组,因为等距分组便于后阶段的分析。,按照经历确定组数,观测值数目 组数,少于,50 47,50200 79,200500 910,5001000 1011,10005000 1113,500050000 1317,多于,50000 1720,2组距应否相等。为了便于分析研究原那么上次数分布中各组的组距应相等,即尽量编制等距数列。,3组距的位置如何确定。为便于分析研究,一般采用整齐而惯用的数字为组限。特别是习惯于采用5或10的倍数表示组限。,每组的最大值为组的上限,每组的最小值为组的下限。,划分组限时,各组频数的计量不能重复,每一总体单位只能计数1次。恰好重叠在组限上的变量值一般归入下限的1组,即遵循“上限不在内原那么。,4组限如何表示。组限的表示应以变量值本身的性质而定。如果是连续数列,且数值变动范围小,那么可以把每个变量值为一组,叫单项式分组,见表5-1。如果是连续数列,且数值变动范围较大,可将变量值划分为几个区间,每个区间为一组,叫组距式分组,见表5-2。,5-1,5-2,第二节 基于,epidata,的问卷录入,1、将word格式中的问卷拷贝到epidata中,注意格式的调整;,2、有一些题目尤其是多项选择题无法确定格式,或者不便于后面分析的,就拆分成单项选择题,如第9题;,2、在每一个选项后面输入“字段编辑器,选择此题答案的格式,如数字、文本、日期、其他;,1、生成rec文件;,2、建立chk文件:chk文件是对每一个输入的答案进展限制,防止在纸质版转换为电子版时出现常识性的错误。,开场数据录入,本卷须知:,1、如果前面有chk文件,那么有一些答案填写的限制,比方填写的数字范围的限制、是否需要跳转、是否是必填项等等,2、可以录入多份问卷,当一份录完以后,保存,就可以直接录入第二份问卷,每一份问卷会在左下角显示。,其他功能,1,、纵向追加记录,/,横向合并功能,2,、数据一致性检验:双录入时,Epdidata,教程,第三节 问卷资料的分析,一根底数据分析,通过频数分布、表列、图表对整理后的调查资料进展一些根本的数据分析,使之能清晰明了地反映调查总体属性的分布态势和相互关系,有助于后续分析和预测,1. 频数分布,调查有关单个变量的信息,了解对一个变量选择不同取值的调查对象的数量,不同取值的出现频率以百分比形式展现,3.您通常喝什么类型的酒?,白酒【】葡萄酒【】香槟酒【】啤酒【】其他【】,通常饮用酒类的频数分度,变量值标签,变量值,频数,百分比,有效百分比,累计百分比,白酒,1,10,20.0,20.8,20.8,葡萄酒,2,8,16.0,16.7,37.5,香槟酒,3,2,4.0,4.2,41.7,啤酒,4,27,54.0,56.2,97.9,其他,5,1,2.0,2.1,100,缺省,9,2,4.0,缺省,合计,50,100,100,集中趋势指标,差异性指标,分布形态指标,集中趋势指标,用于描述分布的中心,包括:均值平均数、中位数、众数,均值即平均数,是最常用的统计量,数据应具有一定的集中趋势,大部分答案应分布在均值附近,算术平均: 加权平均:,均值,出现最频繁的数值,表示分布中的高峰,众数,所有数据按升序或降序排列后,位置居中,的数值,若样本数为偶数,则中位数为居中的两个数值的均值,中位数是定序数据的集中趋势指标,中位数,中位数比平均数更能反映群众的真实情况,【小笑话】如果比尔盖茨和十几个穷光蛋在一个房间里,这个房间里十几个人的平均收入就都超过亿元。这是因为比尔盖茨和穷光蛋的收入差距过大,导致平均数值缺乏实际参考意义。但如果用中位数来衡量,中位数为0,就知道这房间里起码有一半人是穷光蛋,差异性指标,用于描述样本值偏离分布中心的趋势,包括:极差全距、方差或标准差、变异系数,反映数据的分散程度,即样本最大值与最小值之差,可结合中位数评价样本值的代表性,受奇异值影响,公式:全距=X,max,X,min,极差,离差:样本值和均值之差,方差:离均差平方的均值 标准差:方差的平方根,方差或标准差越大,说明数据点分布越分散,数据间差异越大,方差和标准差,标准差与平均数的比值,如果两组数据的度量单位和平均数相同,可用标准差来比较两组数据的离散程度;如果度量单位和平均数不同,就只能用变异系数比较,变异系数,分布形状指标,了解数据分布的形态,包括:偏度、峰度,数据分布可能是对称的,也可能不对称,对称分布中,位于中心两侧的数据值一样多,均值、中位数、众数相等,对于均值的正负偏差相等;非对称分布则不等,偏度指中心一侧的均值偏差趋势比另一侧大,偏度,测量频数分布曲线相对平滑或突起程度的指标,正态分布峰度为0,峰度为正,曲线比正态分布突出,反之平缓,峰度,2. 表列,单向表列,交叉表列,只计数一个变量的不同数值出现次数的,称为单向表列,离散型变量,或变量数值较少、变动幅度不大且总体单位数不多的情况适合编制单相表列,同时计数两个或多个变量的不同数值联合出现次数的,称为穿插表列,综合分析相互联系的多个变量之间的变动关系,市场调查中最频繁、最广泛的方法之一,双向穿插表列,复杂穿插表列的根底,描述当有两个变量同时产生影响作用时,频数分布的状况,也称列联表,经营年限与业务增长之间的关系表,业务增长,经营年限,行总计,小于5年,510年,10年以上,速度慢,45,34,55,134,速度快,52,53,27,132,列总计,97,87,82,266,经营年限小于5年和510年之间的企业经营业务的增长速度快于经营年限超过10年的企业,按经营年限计算的经营业务增长速度,业务增长,经营年限,小于5年,510年,10年以上,速度慢,46.4%,39.1%,67.1%,速度快,53.6%,60.9%,32.9%,列总计,100%,100%,100%,经营年限小于5年的企业中的53.6%和经营年限在510年的企业中的60.9%增长速度快,而10年以上的企业中只有32.9%增长速度快,说明当经营年限超过一定界限时,经营业务的增长速度反而可能下降,计算百分数可以按列计算,也可以按行计算,原那么:以自变量为基准计算百分数,上表中经营年限为自变量,增长速度为因变量,以自变量为基准就是按列计算,如果按行计算,可得下表。表中显示,增长速度慢的企业中有33.5%经营少于10年,25.4%经营了510年,41.0%经营了10年以上,说明增长慢使企业经营了很长时间,这种结果没有实际意义,按经营业务增长速度计算的经营年限,业务增长,经营年限,行总计,小于5年,510年,10年以上,速度慢,33.6%,25.4%,41.0%,100%,速度快,39.4%,40.1%,20.5%,100%,三向穿插表列,在双向穿插表列中添加第三个变量,婚姻状态与时装购买状况,婚姻现状,已婚,未婚,时装购买状况,高,31%,52%,低,69%,48%,列总计,100%,100%,被调查总数,700,300,自变量:婚姻状况,因变量:时装购置状况,结论:未婚者比已婚者购置更多的时装,婚姻状态、性别与时装购买状况,性别,男性,女性,婚姻现状,已婚,未婚,已婚,未婚,时装购买状况,高,35%,40%,25%,60%,低,65%,60%,75%,40%,列总计,100%,100%,100%,100%,被调查总数,400,120,300,180,自变量:性别、婚姻状况,因变量:时装购置状况,结论:婚姻状况对时装购置的作用更多的表现在女性身上,男性中已婚和未婚者购置时装的差异不大,参加第三个变量后,原双向穿插表列分析的结果可能会:,更准确地反映原有两个变量之间的联系,可能发现原双向表列显示的两者之间的关系是假的,可能使原双变量之间不相关的结论变为存在某些关系,可能显示原有联系没有改变,性别与驾车事故比率,调查事项,男性,女性,从未出过事故,56%,68%,至少有一次事故,44%,32%,被调查总数,7080,6950,男性比女性更容易出事故?,性别、驾驶里程与驾车事故比率,调查事项,男性驾驶英里数,女性驾驶英里数,大于10000,小于10000,大于10000,小于10000,从未出过事故,48%,75%,48%,75%,至少有一次事故,52%,25%,52%,25%,被调查总数,5010,2070,1915,5035,事故发生率多少与驾驶里程有关,与性别无关,前一张表中之所以男性事故比率高于女性,是因为男性的驾驶里程普遍多余女性,3. 图表,统计图是以圆点的多少、直线的长短、曲线的起伏、条形长短、柱状上下、圆饼面积等图形来陈示调研数据,统计图的制作:手工制作和计算机制作,统计图的种类:折线图、条形图、直方图、圆面图、饼图、环行图、动态曲线图、散点图等, 折线图, 直方图, 条形图, 饼图,7.5.2、,非数量资料与定性分析,返回,常用的定性分析方法,定性分析的概念和原那么,定性分析是对不能量化的现象进展系统化的理性认识的分析,理论依据是哲学观点、逻辑判断及推理,其结论是对事物的本质、趋势和规律的性质方便的认识。,1、归纳分析法,2、演绎分析法,3、比较分析法,4、构造分析法,定量分析方法,定量分析:是从事物数量方面的特征入手,运用一定的数据处理技术进展数量分析,从而挖掘出数量中所含的事物本身的特性及其规律性的分析方法。,定量分析包括:,1描述性统计分析:统计分组、集中趋势分析、离散程度分析、相对程度分析、指数分析。,2推断性统计分析:参数估计、假设检验、回归分析等,3不确定分析方法模糊分析,返回,统计分组,次数频数:分布在各组的单位数叫次数或频数。,统计分组与次数分布频数,集中趋势分析,数据的集中趋势分析:,主要是对数据规律性的集中特征进展分析。,集中趋势分析的对象:,1平均数:数据之和除以个数之和所得的数值,2众数:在一组数据中出现频数最高的数值,3中位数:按大小排列的一组数据中央位置的数值。,下页,思考:,该班同学的平均年龄是多少?中位数和众数各是多少?,16,岁,17,岁,18,岁,19,岁,20,岁,1,10,人,20,人,25,人,2,人,相对程度分析,相对程度分析:,是反映现象之间数量关系的重要手段,它通过比照的方法反映现象之间的关联程度,说明现象的开展过程。,常用的相对程度分析指标:,1构造相对指标:总体中男女生比例,2比较相对指标:两个企业劳动生产率的比较,3比例相对指标:如恩格尔系数,4强度相对指标:人口密度、人均产量等。,返回,离散分析,数据的离散趋势分析:,集中趋势反映的是数据的一般水平,而离散分析那么是对数据差异程度的分析。,集中离散分析的对象:,1极差 2平均差,3方差与标准差 4离散系数,返回,动态数列的概念,概念:,把反映某现象的同一指标,在不同时间上的指标值,按时间如年、季、月、日等先后顺序编排所排列的数列,称为动态数列或时间数列的每一行有序数值,就是一个动态数列。,作用:,返回,我国近几年职工人数及工资额的变化,返回,年 份,1996,1997,1998,1999,年末职工人数(万人),14894,14908,14854,14668,职工工资总额(亿元),6656.4,8100.0,9080.0,9405.3,国有单位工资(亿元),3090.4,3812.7,5177.4,6080.4,占工资总额的比重(,%,),46.4,47.1,57.0,64.4,职工年平均货币工资(元),4538,5500,6210,6470,Thank You !,不尽之处,恳请指正!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 药学课件


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!