第9章数据分析一课件

资源描述

第九讲第九讲数据分析（一）数据分析（一）余可发余可发余可发余可发博士博士博士博士江西财经大学工商管理学院江西财经大学工商管理学院1第九讲数据分析（一）余可发博士1一、数据处理与分析过程oo1 1、编辑、编辑oo2 2、编码、编码oo3 3、数据输入、数据输入oo4 4、数据分析、数据分析（描述性分析、单变量分析、双变量分析、多变量分析）（描述性分析、单变量分析、双变量分析、多变量分析）oo5 5、解释、解释2一、数据处理与分析过程1、编辑2二、编辑oo编辑就是检查和调整数据遗漏、易读性和一致性的过程。编辑就是检查和调整数据遗漏、易读性和一致性的过程。oo编辑人员的任务就是要检查调查问卷或者其他数据收集编辑人员的任务就是要检查调查问卷或者其他数据收集形式中出现的错误和遗漏。当发现问题时，编辑要及时形式中出现的错误和遗漏。当发现问题时，编辑要及时调整数据让他们变得更加完整、一致、可读。调整数据让他们变得更加完整、一致、可读。3二、编辑编辑就是检查和调整数据遗漏、易读性和一致性的过程。3oo编辑技巧：编辑技巧：oo1 1、退回重新填写、退回重新填写oo2 2、按缺失数据处理、按缺失数据处理oo3 3、丢弃、丢弃oo（1 1）不符合要求的问卷和少。）不符合要求的问卷和少。oo（2 2）样本单位数很大。）样本单位数很大。oo（3 3）不符合要求的问卷与符合要求的问卷之间在调查）不符合要求的问卷与符合要求的问卷之间在调查对象上的特征上没有明显的不同。对象上的特征上没有明显的不同。oo（4 4）不符合要求的回答在该问卷中占很大的比例。）不符合要求的回答在该问卷中占很大的比例。oo（5 5）对关键变量的回答是缺失的。）对关键变量的回答是缺失的。4编辑技巧：4oo编辑的类型：oo现场编辑oo后期编辑5编辑的类型：5oo编辑的任务：编辑的任务：oo1 1、确定是否需要补充调查、确定是否需要补充调查oo2 2、编辑的一致性、编辑的一致性oo3 3、编辑的完整性、编辑的完整性6编辑的任务：6三、编码oo编码就是将数字标度或其他符号分配给不同答编码就是将数字标度或其他符号分配给不同答案的过程。案的过程。oo相关概念：相关概念：oo域：一种类型的数据。域：一种类型的数据。oo记录：相关域的集合。记录：相关域的集合。oo文件：相关记录的集合。文件：相关记录的集合。7三、编码编码就是将数字标度或其他符号分配给不同答案的过程。788oo编码工作一般包括以下几个方面：编码工作一般包括以下几个方面：oo（1 1）确定变量）确定变量oo（2 2）确定变量值）确定变量值oo（3 3）无结构问题的编码）无结构问题的编码oo（4 4）编码说明书及数据输出格式说明书。）编码说明书及数据输出格式说明书。9编码工作一般包括以下几个方面：9问题问题025：您认为打工的外地人对北京市的社会秩：您认为打工的外地人对北京市的社会秩序是否有影响？（单选）序是否有影响？（单选）1有很大影响 2有较大影响 3没有影响 4不好说 4编码答案10问题025：您认为打工的外地人对北京市的社会秩序是否有影响？2）制作编码表112）制作编码表11直接过录直接过录0-1编码编码变量名变量名:一个数据文件中一个数据文件中,一个变量只能有一个唯一名称。一个变量只能有一个唯一名称。码位：某一变量在码位：某一变量在数据文件中占据的栏位数据文件中占据的栏位码数：码数：某一变量由几位数组成。某一变量由几位数组成。该变量是数值型（该变量是数值型（Numeric）如定距、定比，如定距、定比，还是字串型（还是字串型（String），如定类、定序。），如定类、定序。前者在统计中可以做高级运算，后者则不可以。前者在统计中可以做高级运算，后者则不可以。不适于被访人回答的问题的编码。不适于被访人回答的问题的编码。一般采用一般采用7，97，997等。等。被访人回答不知道时的编码。被访人回答不知道时的编码。一般采用一般采用8，98，998等。等。被访人拒绝回答某变量时的编码。被访人拒绝回答某变量时的编码。一般采用一般采用9，99，999等。等。问卷中出现漏答时的处理编码。问卷中出现漏答时的处理编码。一般采用一般采用9，99，999等。等。12直接过录变量名:一个数据文件中,码位：某一变量在码数：该变四、数据录入外部式录入内部式录入采用DOS、WPS、CCED等软件，按ASCII码方式录入成文本文件（*.dat；*.txt）。这种录入方式的特点是，数据之间没有间隔，录完一个数码后自动后移，录入速度较快。缺点是容易错位。采用SPSS数据编辑器（SPSS Data Editor）录入。其优点是不容易错位，缺点是不能自动后移，录入速度慢，数据错误不容易修改。13四、数据录入外部式录入内部式录入采用DOS、WPS、CCED五、数据分析oo描述分析法描述分析法oo假设检验法假设检验法oo方差分析法方差分析法oo聚类分析法聚类分析法oo判别分析法判别分析法oo回归分析法回归分析法14五、数据分析描述分析法141、描述性统计分析oo频数、频率分析频数、频率分析oo数据集中趋势分析数据集中趋势分析算术平均数算术平均数中位数中位数众数众数oo数据分散趋势分析数据分散趋势分析全距（极差）全距（极差）四分位差四分位差标准差标准差oo数据总体形态分布数据总体形态分布偏度（偏度（SkewnessSkewness）峰度（峰度（KurtosisKurtosis）151、描述性统计分析频数、频率分析15频数、频率分析（1）oo例1：假设有样本数据A AB BC CDDE EF FGGH HI IJ J1 11 12 22 21 14 46 65 53 33 32 22 26 61 11 12 22 23 32 25 54 43 33 34 44 41 13 33 31 14 43 33 35 54 41 13 34 45 56 64 42 24 46 63 35 53 35 52 21 11 12 21 11 14 46 66 62 26 63 34 45 55 51 13 32 22 27 76 63 36 66 62 23 36 65 51 11 18 84 41 15 53 33 36 64 46 63 34 49 95 51 13 32 25 52 22 22 26 62 210103 32 25 52 23 34 41 14 44 45 516频数、频率分析（1）例1：假设有样本数据ABCDEFGHIJ17171818算术平均数oo未分组数据的平均数计算未分组数据的平均数计算oo分组数据的平均数计算分组数据的平均数计算oo上例的计算结果上例的计算结果19算术平均数未分组数据的平均数计算19中位数的计算（1）oo未分组数据的中位数计算未分组数据的中位数计算对所有数据进行排序，当数据量为奇数时，取中间数对所有数据进行排序，当数据量为奇数时，取中间数为中位数，当数据量为偶数时，取最中间两位数的平均为中位数，当数据量为偶数时，取最中间两位数的平均数为中位数。上例中数据量为数为中位数。上例中数据量为100100，是偶数，所以应取，是偶数，所以应取排序后第排序后第5050位数和第位数和第5151位数的平均值作为中位数。第位数的平均值作为中位数。第5050位数是位数是3 3，第，第5151位数也是位数也是3 3，所以中位数为，所以中位数为3 3。20中位数的计算（1）未分组数据的中位数计算20中位数的计算（2）oo分组数据的中位数计算分组数据的中位数计算下式中下式中L L为中位数所在组的下限值，为中位数所在组的下限值，f fmm为中位数所在组为中位数所在组的组频数，的组频数，S Sm-1m-1为至中位数组时累计总频数，为至中位数组时累计总频数，h h为组距。为组距。21中位数的计算（2）分组数据的中位数计算21中位数的计算（3）oo例例2 2：假设有分组数据如下（销售额单位为万元）：假设有分组数据如下（销售额单位为万元）年销售额年销售额组中值组中值商店数目商店数目累计频数累计频数80-9080-9085853 33 390-10090-10095957 71010100-110100-11010510513132323110-120110-1201151155 52828120-130120-1301251252 23030合计合计303022中位数的计算（3）例2：假设有分组数据如下（销售额单位为万元中位数的计算（4）oo依据公式例2的中位数为23中位数的计算（4）依据公式23众数的计算oo未分组数据的众数为出现次数最多的数。未分组数据的众数为出现次数最多的数。oo分组数据的众数依据下式计算获得。分组数据的众数依据下式计算获得。表达式中表达式中 1 1表示众数所在组与前一组的频数差，表示众数所在组与前一组的频数差，2 2表表示众数所在组与后一组的频数差。依据公式，例示众数所在组与后一组的频数差。依据公式，例2 2分组分组数据的众数为数据的众数为104.29104.29万元。万元。24众数的计算未分组数据的众数为出现次数最多的数。24全距（极差）的计算oo全全距距指指的的是是样样本本数数据据中中最最大大值值与与最最小小值值之之间间的的距距离离，因因而而也也叫叫极极差差。例例1 1中中最最小小值值为为1 1，最最大大值值为为6 6，因因而而全全距距为为6-1=56-1=5。25全距（极差）的计算全距指的是样本数据中最大值与最小值之间的距四分位差的计算oo四分位差是一种按照位置来测定数据离散趋势的计量方四分位差是一种按照位置来测定数据离散趋势的计量方法，它只取决于位于样本排序后中间法，它只取决于位于样本排序后中间50%50%位置内数据位置内数据的差异程度。即第一个四分位与第三个四分位数据之间的差异程度。即第一个四分位与第三个四分位数据之间的差异。例的差异。例2 2的四分位差计算过程如下的四分位差计算过程如下26四分位差的计算四分位差是一种按照位置来测定数据离散趋势的计量标准差的计算（1）oo未分组数据的标准差计算27标准差的计算（1）未分组数据的标准差计算27标准差的计算（2）oo分组数据的标准差的计算28标准差的计算（2）分组数据的标准差的计算28常用图形柱形图29常用图形柱形图29直方图德国德国英国英国法国法国意大利意大利西班牙西班牙荷兰荷兰瑞典瑞典瑞士瑞士比利时比利时奥地利奥地利土耳其土耳其挪威挪威丹麦丹麦中国中国芬兰芬兰葡萄牙葡萄牙希腊希腊俄罗斯俄罗斯 200 400 600 800 1000 1200 1400 xxx年中国内地与欧洲各国市场调查业年中国内地与欧洲各国市场调查业的市场规模比较（年营业额：百万美元）的市场规模比较（年营业额：百万美元）30直方图德国30饼形图31饼形图31趋势图 32.5 2 15元元 14元元 13元元 12元元 11元元 10元元 9元元 8元以下元以下32趋势图 332散点图森氏森氏满满 10.5%意意 4度度沃力沃力中美中美 3 14.4%38.5%2 1 20%40%首都知名度首都知名度郑州市主要纯水品牌的知名度、美誉度和市场占有率郑州市主要纯水品牌的知名度、美誉度和市场占有率 33散点图森氏33态度对比图34态度对比图34轮廓形象图35轮廓形象图35雷达图36雷达图36数据分布形态图37数据分布形态图37SPSSSPSS的描述性分析的描述性分析ooFrequenciesFrequenciesFrequenciesFrequencies：频数分布表：频数分布表：频数分布表：频数分布表ooDescriptivesDescriptivesDescriptivesDescriptives：一般性描述：一般性描述：一般性描述：一般性描述ooExploreExploreExploreExplore：探索性分析：探索性分析：探索性分析：探索性分析ooCrosstabsCrosstabsCrosstabsCrosstabs：交叉列表：交叉列表：交叉列表：交叉列表38SPSS的描述性分析Frequencies：频数分布表38描述性分析描述性分析频数分布表频数分布表一般性描述一般性描述探索性分析探索性分析交叉列表交叉列表计算连续变计算连续变量的相对比量的相对比39描述性分析频数分布表一般性描述探索性分析交叉列表计算连续变量频数分布表频数分布表(Frequencies)(Frequencies)调用此过程可进行频数分布表的分析调用此过程可进行频数分布表的分析调用此过程可进行频数分布表的分析调用此过程可进行频数分布表的分析.频数分布表是描述性统计中最常用的频数分布表是描述性统计中最常用的频数分布表是描述性统计中最常用的频数分布表是描述性统计中最常用的方法之一方法之一方法之一方法之一,此外还可对数据的分布趋势进行初步分析。此外还可对数据的分布趋势进行初步分析。此外还可对数据的分布趋势进行初步分析。此外还可对数据的分布趋势进行初步分析。40频数分布表(Frequencies)调用此过程可进行频数分布待分析变量的列表待分析变量的列表是否显示频数表是否显示频数表是否显示频数表是否显示频数表定义需要计算的统计量定义需要计算的统计量定义需要绘制的统计图定义需要绘制的统计图定义表格定义表格41待分析变量的列表是否显示频数表定义需要计算的统计量定义需要绘百分位数百分位数分布特征描分布特征描分布特征描分布特征描述述述述离散趋势离散趋势集中趋势集中趋势FrequenciesFrequencies：定义统计量：定义统计量42百分位数分布特征描述离散趋势集中趋势Frequencies：统计图类型统计图类型直方图加上正态曲线直方图加上正态曲线以频数绘制条图或饼图以频数绘制条图或饼图FrequenciesFrequencies：定义统计图：定义统计图无图形无图形条图条图饼图饼图直方图直方图以构成比绘制条图或饼图以构成比绘制条图或饼图43统计图类型直方图加上正态曲线以频数绘制条图或饼图FrequeFrequenciesFrequencies：定义表格：定义表格频数表排列频数表排列频数表排列频数表排列次序次序次序次序按数值升序按数值升序按数值降序按数值降序按频数升序按频数升序按频数降序按频数降序44Frequencies：定义表格频数表排列次序按数值升序按数FrequenciesFrequencies：结果解释：结果解释45Frequencies：结果解释45FrequenciesFrequencies：结果解释：结果解释46Frequencies：结果解释46FrequenciesFrequencies：结果解释：结果解释47Frequencies：结果解释47一般性描述一般性描述(Descriptives)(Descriptives)描述性分析描述性分析描述性分析描述性分析调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，且可将原始数据转换成标准且可将原始数据转换成标准且可将原始数据转换成标准且可将原始数据转换成标准Z Z Z Z分值并存入数据库，所谓分值并存入数据库，所谓分值并存入数据库，所谓分值并存入数据库，所谓Z Z Z Z分值是指某原始数值比其均值分值是指某原始数值比其均值分值是指某原始数值比其均值分值是指某原始数值比其均值高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。48一般性描述(Descriptives)描述性分析调用是否保存标准是否保存标准是否保存标准是否保存标准变换后的数据变换后的数据变换后的数据变换后的数据49是否保存标准49DescriptivesDescriptives：定义统计量：定义统计量50Descriptives：定义统计量50DescriptivesDescriptives：结果解释：结果解释51Descriptives：结果解释51DescriptivesDescriptives：结果解释：结果解释此外，系统以此外，系统以此外，系统以此外，系统以zheightzheightzheightzheight和和和和zweightzweightzweightzweight为变量名将原始数为变量名将原始数为变量名将原始数为变量名将原始数据转换成标准据转换成标准据转换成标准据转换成标准z z z z分值，存放分值，存放分值，存放分值，存放在原数据库中。新变量具有在原数据库中。新变量具有在原数据库中。新变量具有在原数据库中。新变量具有均值为均值为均值为均值为0 0 0 0、标准差为、标准差为、标准差为、标准差为1 1 1 1的特征，的特征，的特征，的特征，亦即变量的标准化过程。亦即变量的标准化过程。亦即变量的标准化过程。亦即变量的标准化过程。52Descriptives：结果解释此外，系统以zheight探索性分析探索性分析(Explore)(Explore)描述性分析描述性分析描述性分析描述性分析调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。它在一般描述性统计指标的基础上，增加有关数据其它特征的文字与图形描述，它在一般描述性统计指标的基础上，增加有关数据其它特征的文字与图形描述，它在一般描述性统计指标的基础上，增加有关数据其它特征的文字与图形描述，它在一般描述性统计指标的基础上，增加有关数据其它特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。53探索性分析(Explore)描述性分析调用此过程可对变量进行两者均有两者均有两者均有两者均有统计量统计量图图分组变量列表分组变量列表待分析变量列表待分析变量列表54两者均有统计量图分组变量列表待分析变量列表54ExploreExplore：定义统计量：定义统计量DescriptivesDescriptivesDescriptivesDescriptives：输出均数、均数的：输出均数、均数的：输出均数、均数的：输出均数、均数的95%95%95%95%可信区间、去掉可信区间、去掉可信区间、去掉可信区间、去掉5%5%5%5%极端值的均数、极端值的均数、极端值的均数、极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。系数、峰度系数。系数、峰度系数。系数、峰度系数。M-estimatorsM-estimatorsM-estimatorsM-estimators：输出集中趋势：输出集中趋势：输出集中趋势：输出集中趋势的最大似然比的稳健估计。的最大似然比的稳健估计。的最大似然比的稳健估计。的最大似然比的稳健估计。OutliersOutliersOutliersOutliers：输出五个最大值与：输出五个最大值与：输出五个最大值与：输出五个最大值与五个最小值。五个最小值。五个最小值。五个最小值。PercentilesPercentilesPercentilesPercentiles：输出第：输出第：输出第：输出第5%5%5%5%、10%10%10%10%、25%25%25%25%、50%50%50%50%、75%75%75%75%、90%90%90%90%、95%95%95%95%位数。位数。位数。位数。55Explore：定义统计量Descriptives：输出均数箱图绘制方式箱图绘制方式茎叶图茎叶图正态性检验正态性检验正态性检验正态性检验/正态分布图正态分布图正态分布图正态分布图ExploreExplore：定义统计图：定义统计图直方图直方图56箱图绘制方式茎叶图正态性检验/正态分布图Explore：定义Exclude case listwise:Exclude case listwise:Exclude case listwise:Exclude case listwise:不分析有任一缺失值的记录不分析有任一缺失值的记录不分析有任一缺失值的记录不分析有任一缺失值的记录Exclude case pairwise:Exclude case pairwise:Exclude case pairwise:Exclude case pairwise:不分析计算某统计量时有缺失值的记录不分析计算某统计量时有缺失值的记录不分析计算某统计量时有缺失值的记录不分析计算某统计量时有缺失值的记录Report values:Report values:Report values:Report values:报告缺失值报告缺失值报告缺失值报告缺失值缺失值的缺失值的处理方式处理方式ExploreExplore：缺失值的处理：缺失值的处理57Exclude case listwise:不分析有任一缺失ExploreExplore：结果解释：结果解释原始数据的基本情况：男性有效数据原始数据的基本情况：男性有效数据原始数据的基本情况：男性有效数据原始数据的基本情况：男性有效数据459459459459，缺失，缺失，缺失，缺失1 1 1 1，合，合，合，合计计计计460460460460；女性有效数据；女性有效数据；女性有效数据；女性有效数据538538538538，缺失，缺失，缺失，缺失2 2 2 2，合计，合计，合计，合计540540540540。58Explore：结果解释原始数据的基本情况：男性有效数据ExploreExplore：结果解释：结果解释59Explore：结果解释59ExploreExplore：结果解释：结果解释描述性分析描述性分析描述性分析描述性分析左面为箱图，图中方箱为四左面为箱图，图中方箱为四左面为箱图，图中方箱为四左面为箱图，图中方箱为四分位数，中心粗线为中位数，分位数，中心粗线为中位数，分位数，中心粗线为中位数，分位数，中心粗线为中位数，两端线为最大值与最小值，两端线为最大值与最小值，两端线为最大值与最小值，两端线为最大值与最小值，之外的圆圈代表可疑的离群之外的圆圈代表可疑的离群之外的圆圈代表可疑的离群之外的圆圈代表可疑的离群值。值。值。值。60Explore：结果解释描述性分析左面为箱图，图中方箱为四分2、假设检验oo假设检验又叫显著性检验假设检验又叫显著性检验假设检验又叫显著性检验假设检验又叫显著性检验（test of significancetest of significancetest of significancetest of significance）。）。）。）。oo显著性检验的方法很多显著性检验的方法很多显著性检验的方法很多显著性检验的方法很多，常用的有，常用的有，常用的有，常用的有u u u u检验、检验、检验、检验、t t t t检验、检验、检验、检验、F F F F检检检检验和验和验和验和 2 2 2 2检验等。检验等。检验等。检验等。oo尽管这些检验方法的用途及使用条件不同，但其检验的尽管这些检验方法的用途及使用条件不同，但其检验的尽管这些检验方法的用途及使用条件不同，但其检验的尽管这些检验方法的用途及使用条件不同，但其检验的基本原理是相同的。基本原理是相同的。基本原理是相同的。基本原理是相同的。612、假设检验假设检验又叫显著性检验（test of sig假设检验的步骤oo建立假设。对样本所属总体提出假设，包括无效假设建立假设。对样本所属总体提出假设，包括无效假设建立假设。对样本所属总体提出假设，包括无效假设建立假设。对样本所属总体提出假设，包括无效假设H H H H0 0 0 0和和和和备择假设备择假设备择假设备择假设H H H HA A A A；oo确定显著水平确定显著水平确定显著水平确定显著水平。常用的显著水平。常用的显著水平。常用的显著水平。常用的显著水平0.050.050.050.05和和和和0.010.010.010.01；oo从无效假设从无效假设从无效假设从无效假设H H H H0 0 0 0出发，根据样本提供信息构造适宜统计量，出发，根据样本提供信息构造适宜统计量，出发，根据样本提供信息构造适宜统计量，出发，根据样本提供信息构造适宜统计量，并计算统计量值或概率；并计算统计量值或概率；并计算统计量值或概率；并计算统计量值或概率；oo由附表查出相应的统计量临界值，比较样本统计量值与由附表查出相应的统计量临界值，比较样本统计量值与由附表查出相应的统计量临界值，比较样本统计量值与由附表查出相应的统计量临界值，比较样本统计量值与临界值大小，根据小概率原理做出统计推断（或由概率临界值大小，根据小概率原理做出统计推断（或由概率临界值大小，根据小概率原理做出统计推断（或由概率临界值大小，根据小概率原理做出统计推断（或由概率大小做出判断）。大小做出判断）。大小做出判断）。大小做出判断）。62假设检验的步骤建立假设。对样本所属总体提出假设，包括无效假设统计假设检验的几何意义oo统计假设检验从本质上来说，就是根据显著水平统计假设检验从本质上来说，就是根据显著水平统计假设检验从本质上来说，就是根据显著水平统计假设检验从本质上来说，就是根据显著水平将统将统将统将统计量（数）的分布划分为接受区和否定区两部分。前者计量（数）的分布划分为接受区和否定区两部分。前者计量（数）的分布划分为接受区和否定区两部分。前者计量（数）的分布划分为接受区和否定区两部分。前者为接受原假设为接受原假设为接受原假设为接受原假设H H H H0 0 0 0的区间，后者为否定的区间，后者为否定的区间，后者为否定的区间，后者为否定H H H H0 0 0 0 ，而接受，而接受，而接受，而接受H H H HA A A A的区的区的区的区间。当试验结果落入接受区，就接受间。当试验结果落入接受区，就接受间。当试验结果落入接受区，就接受间。当试验结果落入接受区，就接受H H H H0 0 0 0 ；反之，否定；反之，否定；反之，否定；反之，否定H H H H0 0 0 0 ，而接受，而接受，而接受，而接受H H H HA A A A 。否定区的概率为。否定区的概率为。否定区的概率为。否定区的概率为，接受区的概率为，接受区的概率为，接受区的概率为，接受区的概率为1-1-1-1-。63统计假设检验的几何意义统计假设检验从本质上来说，就是根据显著是否否定无效假设是否否定无效假设是否否定无效假设是否否定无效假设或或或或，用实际计算出的统计量，用实际计算出的统计量，用实际计算出的统计量，用实际计算出的统计量u u或或或或t t的绝对值与显著水平的绝对值与显著水平的绝对值与显著水平的绝对值与显著水平对应的临界值对应的临界值对应的临界值对应的临界值u ua a 或或或或t ta a比较。若比较。若比较。若比较。若|u|uu|ua a 或或或或|t|tt|ta a，则在，则在，则在，则在水平上否定水平上否定水平上否定水平上否定；若；若；若；若|u u|u ua a或或或或|t t|t ta a，则不能在，则不能在，则不能在，则不能在水水水水平上否定平上否定平上否定平上否定。区间区间区间区间和和和和或称为或称为或称为或称为水平上的否定域，而区间（水平上的否定域，而区间（水平上的否定域，而区间（水平上的否定域，而区间（）则称为则称为则称为则称为水平上的接受域。水平上的接受域。水平上的接受域。水平上的接受域。64 是否否定无效假设或图图图图1 1 双侧检验时双侧检验时双侧检验时双侧检验时H H0 0的接受域和否定域的接受域和否定域的接受域和否定域的接受域和否定域65图1 双侧检验时H0的接受域和否定域65统计假设检验的两类错误统计假设检验的是根据统计假设检验的是根据统计假设检验的是根据统计假设检验的是根据“小概率事件实际不可能性原理小概率事件实际不可能性原理小概率事件实际不可能性原理小概率事件实际不可能性原理”来否定来否定来否定来否定或接受无效假设的，或接受无效假设的，或接受无效假设的，或接受无效假设的，所以不论是接受还是否定无效假设，都没所以不论是接受还是否定无效假设，都没所以不论是接受还是否定无效假设，都没所以不论是接受还是否定无效假设，都没有有有有100%100%的把握。也就是说，在检验无效假设时可能犯两类错的把握。也就是说，在检验无效假设时可能犯两类错的把握。也就是说，在检验无效假设时可能犯两类错的把握。也就是说，在检验无效假设时可能犯两类错误。误。误。误。第一类错误：第一类错误：第一类错误：第一类错误：HH0 0本身是成立，但通过检验却否定了它，犯了本身是成立，但通过检验却否定了它，犯了本身是成立，但通过检验却否定了它，犯了本身是成立，但通过检验却否定了它，犯了“弃真弃真弃真弃真”错误，也叫错误，也叫错误，也叫错误，也叫型错误（型错误（型错误（型错误（type type error error）、）、）、）、错误。错误。错误。错误。型型型型错误，就是把非真实差异错判为真实差异，即错误，就是把非真实差异错判为真实差异，即错误，就是把非真实差异错判为真实差异，即错误，就是把非真实差异错判为真实差异，即为为为为真，却接真，却接真，却接真，却接受了受了受了受了。66统计假设检验的两类错误统计假设检验的是根据“小第二类错误：第二类错误：第二类错误：第二类错误：HH0 0本身不成立，但通过检验却接受了它，犯了本身不成立，但通过检验却接受了它，犯了本身不成立，但通过检验却接受了它，犯了本身不成立，但通过检验却接受了它，犯了“纳伪纳伪纳伪纳伪”错误，也叫错误，也叫错误，也叫错误，也叫型错误（型错误（型错误（型错误（type type error error）、）、）、）、错误错误错误错误。型错误，就型错误，就型错误，就型错误，就是把真实差异错判为非真实差异，即是把真实差异错判为非真实差异，即是把真实差异错判为非真实差异，即是把真实差异错判为非真实差异，即为真，却未能为真，却未能为真，却未能为真，却未能否定否定否定否定。统计检验是基于统计检验是基于统计检验是基于统计检验是基于“小概率事件实际不可能性原理小概率事件实际不可能性原理小概率事件实际不可能性原理小概率事件实际不可能性原理”来否定来否定来否定来否定HH0 0，但在但在但在但在一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个样本，它虽然来自与样本，它虽然来自与样本，它虽然来自与样本，它虽然来自与HH0 0 对应的抽样总体，但计算所得的统计量却对应的抽样总体，但计算所得的统计量却对应的抽样总体，但计算所得的统计量却对应的抽样总体，但计算所得的统计量却落入了否定域中，因而否定了落入了否定域中，因而否定了落入了否定域中，因而否定了落入了否定域中，因而否定了HH0 0，于是犯了，于是犯了，于是犯了，于是犯了型错误。犯型错误。犯型错误。犯型错误。犯这类错这类错这类错这类错误的概率不会超过误的概率不会超过误的概率不会超过误的概率不会超过a a。67 第二类错误：H0本身不成立，但通过检验却接受了它，图图图图2 2 两类错误示意图两类错误示意图两类错误示意图两类错误示意图68图2 两类错误示意图68假设检验的类型oo参数假设检验参数假设检验 U U检验检验 t t检验检验oo非参数检验非参数检验69假设检验的类型参数假设检验69oo参数统计参数统计参数统计参数统计（parametric statisticsparametric statisticsparametric statisticsparametric statistics）：）：）：）：t t t t、Z Z Z Z、和、和、和、和F F F F检检检检验均属参数检验。其共同特点是，假定随机样本来自某验均属参数检验。其共同特点是，假定随机样本来自某验均属参数检验。其共同特点是，假定随机样本来自某验均属参数检验。其共同特点是，假定随机样本来自某种已知分布（如正态分布）的总体，并对总体分布的参种已知分布（如正态分布）的总体，并对总体分布的参种已知分布（如正态分布）的总体，并对总体分布的参种已知分布（如正态分布）的总体，并对总体分布的参数（如总体均数）进行估计或检验。数（如总体均数）进行估计或检验。数（如总体均数）进行估计或检验。数（如总体均数）进行估计或检验。oo非参数统计非参数统计非参数统计非参数统计（nonparametric statisticsnonparametric statisticsnonparametric statisticsnonparametric statistics）：对总体分）：对总体分）：对总体分）：对总体分布不作严格规定，不依赖于总体分布类型，也不对总体布不作严格规定，不依赖于总体分布类型，也不对总体布不作严格规定，不依赖于总体分布类型，也不对总体布不作严格规定，不依赖于总体分布类型，也不对总体参数进行统计推断。参数进行统计推断。参数进行统计推断。参数进行统计推断。70参数统计（parametric statistics）：t参数检验U检验oo当样本容量大于当样本容量大于3030时，可以采用时，可以采用U U检验。检验。均值检验均值检验百分比检验百分比检验双样本平均数差异的检验双样本平均数差异的检验双样本百分比差异的检验双样本百分比差异的检验71参数检验U检验当样本容量大于30时，可以采用U检验。71均值检验（U）oo假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平查表得到查表得到根根据据U U的的计计算算结结果果，比比较较U U的的绝绝对对值值与与的的大大小小。若若有有则则接受接受H H0 0，否则拒绝，否则拒绝H H0 0 。72均值检验（U）假设有72百分比检验（U）oo假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平查表得到查表得到根据根据U U的计算结果，比较的计算结果，比较U U的绝对值与的绝对值与的大小。若有的大小。若有则接受则接受H H0 0，否则拒绝，否则拒绝H H0 0 。73百分比检验（U）假设有73双样本平均数差异的检验（U）假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平查表得到查表得到根据根据U U的计算结果，比较的计算结果，比较U U的绝对值与的绝对值与的大小。若有的大小。若有则接受则接受H H0 0，否则拒绝，否则拒绝H H0 0 。74双样本平均数差异的检验（U）假设有74双样本百分比差异的检验（U）oo假设有假设有选取统计量选取统计量设定显著性水平设定显著性水平查表得到查表得到根据根据U U的计算结果，比较的计算结果，比较U U的绝对值与的绝对值与的大小。若有的大小。若有则接受则接受H H0 0，否则拒绝，否则拒绝H H0 0 。75双样本百分比差异的检验（U）假设有75练习例例1 1：某一酿造厂新引进一种酿醋曲种，以原曲种为对：某一酿造厂新引进一种酿醋曲种，以原曲种为对照进行试验。已知原曲种酿出的食醋醋酸含量平均为照进行试验。已知原曲种酿出的食醋醋酸含量平均为 0 09.759.75，其标准差为，其标准差为 5.305.30。现采用新曲种酿醋，。现采用新曲种酿醋，得到得到3030个醋样，测得其醋酸含量平均为个醋样，测得其醋酸含量平均为 11.99 11.99。试问，能否由这。试问，能否由这3030个醋样的平均数个醋样的平均数判断新曲种判断新曲种好于原曲种？好于原曲种？76练习例1：某一酿造厂新引进一种酿醋曲种，以原曲种为对前例分析：对前例分析：对前例分析：对前例分析：所以在所以在所以在所以在a a0.050.05水平上的接受域为水平上的接受域为水平上的接受域为水平上的接受域为（0.0785 0.11650.0785 3.28u u0.010.012.582.58，故，故，故，故P P0.01|t t0.010.01，P P0.01t22.735t22.735t22.735t0.01(10)0.01(10)0.01(10)0.01(10)3.1693.1693.1693.169，P P P P 0.01 0.01 0.01 0.01，故应否定无效假设，故应否定无效假设，故应否定无效假设，故应否定无效假设H H H H0 0 0 0，即两种罐头的即两种罐头的即两种罐头的即两种罐头的SOSOSOSO2 2 2 2含量有高度显著差异，该批罐头质量不合格。含量有高度显著差异，该批罐头质量不合格。含量有高度显著差异，该批罐头质量不合格。含量有高度显著差异，该批罐头质量不合格。90（4）统计推断90例题例题例题例题3 3：现有两种茶多糖提取工艺，分别从两种工艺中各取：现有两种茶多糖提取工艺，分别从两种工艺中各取：现有两种茶多糖提取工艺，分别从两种工艺中各取：现有两种茶多糖提取工艺，分别从两种工艺中各取1 1个随机样本个随机样本个随机样本个随机样本来测定其粗提物中的茶多糖含量，结果见表来测定其粗提物中的茶多糖含量，结果见表来测定其粗提物中的茶多糖含量，结果见表来测定其粗提物中的茶多糖含量，结果见表4-44-4。问两种工艺的粗提物。问两种工艺的粗提物。问两种工艺的粗提物。问两种工艺的粗提物中茶多糖含量有无差异？中茶多糖含量有无差异？中茶多糖含量有无差异？中茶多糖含量有无差异？醇沉淀法（醇沉淀法（醇沉淀法（醇沉淀法（x1x1x1x1）27.5227.5227.5227.5227.7827.7827.7827.7828.0328.0328.0328.0328.8828.8828.8828.8828.7528.7528.7528.7527.9427.9427.9427.94超滤法（超滤法（超滤法（超滤法（x2)x2)x2)x2)29.3229.3229.3229.3228.1528.1528.1528.1528.0028.0028.0028.0028.5828.5828.5828.5829.0029.0029.0029.00表表表表4-4 4-4 两种工艺粗提物中茶多糖含量测定结果两种工艺粗提物中茶多糖含量测定结果两种工艺粗提物中茶多糖含量测定结果两种工艺粗提物中茶多糖含量测定结果91例题3：现有两种茶多糖提取工艺，分别从两种工艺中各取1个随机（1 1）建立假设，提出无效假设与备择假设）建立假设，提出无效假设与备择假设）建立假设，提出无效假设与备择假设）建立假设，提出无效假设与备择假设，两种工艺的粗提物中茶多糖含量无差异，两种工艺的粗提物中茶多糖含量无差异，两种工艺的粗提物中茶多糖含量无差异，两种工艺的粗提物中茶多糖含量无差异；（2 2）确定显著水平）确定显著水平）确定显著水平）确定显著水平0.050.050.050.05（两尾概率）（两尾概率）（两尾概率）（两尾概率）（3 3）计算）计算）计算）计算 92（1）建立假设，提出无效假设与备择假设，两种工艺的粗因两个样本的容量不等，所以因两个样本的容量不等，所以因两个样本的容量不等，所以因两个样本的容量不等，所以93因两个样本的容量不等，所以93（4 4）查临界）查临界t t值，作出统计推断值，作出统计推断当当dfdf=9=9时，查临界值得：时，查临界值得：t t 0.050.05（9 9）=2.262=2.262，|t t|1.381 1.381 0.050.05，接受，接受，表明两种工，表明两种工艺的粗提物中茶多糖含量无显著差异。艺的粗提物中茶多糖含量无显著差异。94（4）查临界t值，作出统计推断 94非参数检验（X2）oo在市场调查中常获得一些量表数据，对量表数据求取平在市场调查中常获得一些量表数据，对量表数据求取平均数与方差都是毫无意义的。对量表数据的处理更适宜均数与方差都是毫无意义的。对量表数据的处理更适宜于采用非参数检验方法。非参数检验中常用的方法是于采用非参数检验方法。非参数检验中常用的方法是X X2 2检验。检验。X X2 2检验的统计量是检验的统计量是上述统计量中，上述统计量中，表示第表示第类别在样本中实际出现的次类别在样本中实际出现的次数，数，表示期望出现的次数，表示期望出现的次数，为类别数。为类别数。95非参数检验（X2）在市场调查中常获得一些量表数据，对量表数据oo一般选用非参数统计方法的资料：一般选用非参数统计方法的资料：一般选用非参数统计方法的资料：一般选用非参数统计方法的资料：总体分布不易确定；总体分布不易确定；总体分布不易确定；总体分布不易确定；分布呈非正态而又无适当的数据转换方法；分布呈非正态而又无适当的数据转换方法；分布呈非正态而又无适当的数据转换方法；分布呈非正态而又无适当的数据转换方法；等级资等级资等级资等级资料；料；料；料；一端或两端无确定数值等。因此，非参数检验又一端或两端无确定数值等。因此，非参数检验又一端或两端无确定数值等。因此，非参数检验又一端或两端无确定数值等。因此，非参数检验又称任意分布检验（称任意分布检验（称任意分布检验（称任意分布检验（distribution-free testdistribution-free testdistribution-free testdistribution-free test）。）。）。）。oo在实际应用中，对符合参数检验的资料，或经变量变换在实际应用中，对符合参数检验的资料，或经变量变换在实际应用中，对符合参数检验的资料，或经变量变换在实际应用中，对符合参数检验的资料，或经变量变换后符合参数检验的资料应首选参数检验；对不能满足参后符合参数检验的资料应首选参数检验；对不能满足参后符合参数检验的资料应首选参数检验；对不能满足参后符合参数检验的资料应首选参数检验；对不能满足参数检验条件的资料，应选用非参数检验。数检验条件的资料，应选用非参数检验。数检验条件的资料，应选用非参数检验。数检验条件的资料，应选用非参数检验。96一般选用非参数统计方法的资料：总体分布不易确定；分布呈非两个配对样本的非参数检验两个配对样本的非参数检验两个独立样本的非参数检验两个独立样本的非参数检验多个独立样本的非参数检验多个独立样本的非参数检验多个相关样本的非参数检验多个相关样本的非参数检验97 两个配对样本的非参数检验97oo例例例例1 1 以下为治疗前后，病人某项指标的测量值，数据见以下为治疗前后，病人某项指标的测量值，数据见以下为治疗前后，病人某项指标的测量值，数据见以下为治疗前后，病人某项指标的测量值，数据见npa.savnpa.sav配对样本的非参数检验配对样本的非参数检验治疗前（治疗前（x）：）：24.00 16.70 21.60 23.70 37.50 31.40 14.90 37.30 17.90 15.50 29.00 19.90治疗后（治疗后（Y）：）：23.10 20.40 17.70 20.70 42.1 36.10 21.80 40.30 26.00 15.50 35.40 25.5098例1 以下为治疗前后，病人某项指标的测量值，数据见npa.s9999100100 Wilcoxon符号检验符号检验适用于连续变量适用于连续变量 sign符号检验符号检验适用于对无法用数字计量的情况进行比较，如两分类，对于适用于对无法用数字计量的情况进行比较，如两分类，对于连续资料最好不要使用连续资料最好不要使用 McNemar 实际上就是常用的配对实际上就是常用的配对2检验，只适用于二分类资料检验，只适用于二分类资料 Marginal Homogeneity 是是McNemar法向多分类情形下的扩展，适用于资料为有序法向多分类情形下的扩展，适用于资料为有序分类情况分类情况配对样本的非参数检验配对样本的非参数检验101 Wilcoxon符号检验配对样本的非参数检验101Exact：用于计算确切概率：用于计算确切概率只给出近似概率只给出近似概率蒙特卡罗方法蒙特卡罗方法给出精确概率值，并给出精确概率值，并可设定耗时限制可设定耗时限制102Exact：用于计算确切概率只给出近似概率蒙特卡罗方法给出v共共12对对指指标标，指指标标值值治治疗疗后后小小于于治治疗疗前前的的有有3对对，其其平平均均秩秩次次为为2.83，总总秩秩和和为为8.50；治治疗疗后后大大于于治治疗疗前前的的有有8对对，其其平平均均秩秩次次为为7.19，总秩和为，总秩和为57.50；治疗后等于治疗前的有；治疗后等于治疗前的有1对。对。（1）秩次表秩次表103共12对指标，指标值治疗后小于治疗前的有3对，其平均秩次为2v Wilcoxon符符号号秩秩检检验验的的统统计计量量 Z值值 -2.179，近近似似概概率率（Asymp.sig.）P0.029，按按0.05的的水水准准可可以以认认为为治治疗疗前前后后该该指指标值的差别具有统计学意义。标值的差别具有统计学意义。（2）检验统计量检验统计量104 Wilcoxon符号秩检验的统计量Z值-2.179，近似例例2 在缺氧条件下，观察在缺氧条件下，观察4只猫与只猫与12只兔的生存时间（分钟），只兔的生存时间（分钟），结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具有统计学意义。数据见有统计学意义。数据见npb.sav：生存时间（猫）：生存时间（猫）：25 34 44 46 46生存时间（兔）：生存时间（兔）：15 15 16 17 19 21 21 23 25 27 28 28 30 35两独立样本的非参数检验两独立样本的非参数检验105例2 在缺氧条件下，观察4只猫与12只兔的生存时间（分钟），106106107107108108 默认的默认的Mann-Whitney U检验最常用检验最常用109 默认的Mann-Whitney U检验最常用109v 生生存存时时间间样样本本共共19例例，其其中中猫猫的的生生存存时时间间5例例，其其平平均均秩秩次次为为15.70，总总秩秩和和为为78.50；兔兔的的生生存存时时间间14例，其平均秩次为例，其平均秩次为7.96，总秩和为，总秩和为111.50。（1）秩次表秩次表110 生存时间样本共19例，其中猫的生存时间5例，其平均秩次为1v 给给出出Mann-Whitney U、Wilcoxon W 统统计计量量和和Z值值，近近似似值值概概率率（Asymp.Sig）和和精精确确概概率率值值（Exact.sig）均均小小于于0.05，结结论论一一致致，表表明明猫猫、兔兔在在缺缺氧氧条条件件下下的的生生存存时时间间的的差差异异具具有有统统计计学学意意义义，由由平平均均秩秩次次猫猫（15.7）、兔（）、兔（7.96）来看，可以认为缺氧条件下猫的生存时间长于兔。）来看，可以认为缺氧条件下猫的生存时间长于兔。（2）检验统计量检验统计量111 给出Mann-Whitney U、Wilcoxon W 例例3 14名名新新生生儿儿出出生生体体重重按按其其母母亲亲的的吸吸烟烟习习惯惯分分组组（A组组：每每日日吸吸烟烟多多于于20支支；B组组：每每日日吸吸烟烟少少于于20支支；C组组：过过去去吸吸烟烟而而现现已已戒戒

展开阅读全文

第9章数据分析一课件

最新文档