市场调查实验课教案

资源描述

-第四章用 E*cel 和 SPSS 制作统计图4.1 用 E*cel 和 SPSS 制作常用统计图4.1.1制作统计图应该注意的问题一般来说统计图能够更有效地向读者传达信息。然而，一幅拙劣的图形却可能使读者不知所云，甚至传达出错误的信息。总体说来，要得到一幅科学的统计图形应该注意以下几个方面的问题：1、通过选择恰当的图形类型、刻度、长宽比例等，使图形能够准确反映数据中包含的信息，而不是歪曲事实。例如，不恰当的三维效果常常会引起误解。2、图形要尽量简明。图形应该突出所要传达的信息，不必要的标签、背景、网格线、等会分散读者的注意力。图形越简单，读者就越能够迅速理解你要传达的信息。3、图形应该有清楚的标题和必要的说明，明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。要得到一个图形很容易，但要使图形符合要求往往还需要耐心地修改，就像一篇论文需要反复修改一样。4.1.2用 E*cel 制作常用统计图E*cel 提供了强大的图形编辑能力，可以完成非常优秀的统计图形。然而，未经修改 E*cel图形甚至可能是错误的。我们这一节只介绍三种最常用的图形：线图、条形图和饼图的绘制方法。使用E*cel作图时需要特别注意：在有些图形中你可以用鼠标移动图形中的数据点，E*cel会根据新的位置修改原始数据！一定要避免这一方面的误操作。1、线图（Line Plot）。线图常用于描绘连续的数据，有助于观察现象发展的长期趋势。例4.1表 4-1 是我国 1991-2003 年的就业人数。根据数据绘制线形图。表 4-1 是我国 1991-2003 年的就业人数. z.-年份1991199219931994199519961997就业人数（万人）65491661526680867455680656895069820年份199819992000200120022003就业人数（万人）706377139472085730257374074432. z.-单击工具栏中的，或者使用菜单栏中的“插入”“图表”，会弹出E*cel的图表向导。从中选择“折线图”，在下一步中把就业人数的区域（包括变量名）指定为数据区域，31. z.-. z.-单击“完成”，就可以得到图 4-1。很多情况下 E*cel 会自动识别数据区域，但自动识别数据区域时最容易出现的错误是不能正确识别用于分类轴的数据，而把它作为“系列”数据使用。这时需要从“系列”数据中删除分类序列，并为图形指定分类序列。就业人数76000740007200070000. z.-68000660006400062000600001 2 3 4 5 6 7 8 9 10 11 12 13就业人数. z.-图 4-1 E*cel 默认格式下的线图图 4-1 显然不是一个理想的图表。由于只有一个变量，图例和图表标题是不必要的；背景使图形不够鲜明，网格线使图形显得比较凌乱；横坐标没有显示相应的年份；纵坐标从60000 万人开始可能不够合理，而且没有标出单位。下面我们来对图4-1进行修改。在图表区单击右键，选择“源数据”，在弹出的对话框中指定“分类（*）轴标志”对应的数据区域（不要包含变量名）。这样横轴就可以显示年份了。仔细观察图3-15，你会发现横轴的刻度线与Y的值不是垂直对应的，Y的值处于刻度之间。要改变这种显示方式，在图形的横轴上双击鼠标左键，在弹出的对话框中选择“刻度”选项卡，取消选中“数值（Y）轴至于分类之间”的复选框。你还可以在这个对话框中进一步设定横轴的字体、对齐方式等等。在字体设定中最好取消选定“自动缩放”的复选框，这会使字体随着图形大小的调整而变化。删除图例和图形内的标题，去掉图形的外框，修改图形背景以及网格线的格式，最后把纵轴的刻度改为从0开始，为纵轴加上单位，调整后的图形如图4-2。要熟练掌握图表属性的修改方法最重要的就是多练习，具体操作方法可以参见E*cel的帮助文件。对比图 4-1和 4-2，你会发现虽然在数学意义上两个图形都没有错的，但纵坐标起始值的调整对图形的形状有较大影响，原始的图形可能给人以就业人数迅速增加的错误印象。我们这里着重强调的一点是统计软件自动确定的坐标轴的刻度不一定是最恰当的。在实际应用中坐标轴从 0 开始标注也不一定是最好的选择。32. z.-. z.-80000700006000050000400003000020000100000图 4-2 1991 年-2003 年我国的就业人数（年底数）2、条形图（Bar Chart）。本书所说的条形图指的是 E*cel 中所说的“柱形图”。例4.2根据学生调查的结果，学生对使用英文教材的态度如表 4-2。根据数据绘制条形图。表 4-2学生对使用英文教材的态度对使用英文教材的态度百分比. z.-非常不好不太好无所谓比较好非常好8.57%31.43%17.14%22.86%20.00%. z.-用 E*cel 绘制条形图，经过调整后的结果如图 4-3。35%30%25%20%15%10%5%0%非常不好不太好无所谓比较好非常好图 4-3学生对使用英文教材的态度使用E*cel图形需要注意的一个问题是，虽然E*cel中的大部分图形都可以使用三维效果（图4-4是一个条形图的例子），但许多数据处理专家都反对这类图形。在图4-4中第三维（深度）并不是依据有意义的数据绘制的，而且根据这类图形很难准确读出图形所表现的数值。根据图4-4，你能正确判断对是否使用英文教材“无所谓”的学生占17.14%吗.看起来像不像15%或20%.由于类似的原因，E*cel提供的圆锥图、圆柱图和棱锥图也不应用于学术报告33. z.- 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 万人. z.-中。当然，如果你3个数轴都代表了有实质意义的变量，使用真正意义上的三维图形是必要的。35%30%25%20%15%10%5%0%非常不好不太好无所谓比较好非常好图 4-4对使用英文教材的态度：三维效果3、饼图（Pie Chart）。饼图常常用于显示相对比例或者对整体的贡献。这种图形只能使用一个数据系列，对于显示很少的几个数据点很有效，但数据量太大时则很难说明问题。通常饼图中的数据点不应多于6个。有学者指出，饼图不过是用极坐标表示的条形图而已，当数据点过多时饼图不如条形图清晰。例如，表4-2的数据就可以用图4-5饼图来显示。只要在E*cel的条形图中单击鼠标右键选择“图表类型”，把图表类型改为饼图，在对图形的边框、数据标志、字体等做必要的修改就可以了。无所. z.-不太好,31.43%非常不好,8.57%非常好,谓,17.14%比较好,22.86%. z.-20.00%图4-5 学生对使用英文教材的态度饼图4.1.3用 SPSS 制作常用统计图SPSS具有很强的制图功能，可以绘制多种统计图形。这些图形可以由各种统计分析过程产生，也可以直接由菜单Graphs图形菜单产生。SPSS图形的制作可分为三个过程：建立数据文件；生成图形；修饰生成的图形。1、线图。例4.3以表3-9的数据为例用SPSS制作线图。选择Graphs Line进入Line Chart对话框（图4-6）。有3种线图可选：Simple为单一线图，Multiple 为多条线图，Drop-line为落点线图。本例选单一线图。在定义选项框的下方有一数据类型栏，提供了3种数据类型：Summaries for groups ofcases以分组数据的汇总结果为数据点绘图；Summaries of separate variables以变量的汇总结果为数据点绘图；Values of individual cases以各个观测的观察值为数据点绘图。本例中选择第三种情况。34. z.-. z.-单击define按钮，把就业人数选为需要绘制的变量，把年份定义为分类变量，单击“OK”后就可以得到一个图形了。在SPSS中双击该图形可以对图形的各个元素进行修改，修改后的图形见图4-7。图 4-6 线图类型的选择框80000就业60000人数40000万人2000001991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003年份图 4-7我国就业人数的线图2、条形图。例4.4用SPSS做一个分组的条形图，比较学生调查中男生和女生对统计学的兴趣。选择GraphsBar，在Bar Chart对话框中把条形图的类型选为Clustered（复式条形图），将数据类型选择为Summaries for groups of cases。接下来，在定义条形图的对话框（图4-8）中选择分类变量为“兴趣”，每一类别中的分组变量为“性别”，用条形代表观测数的百分比，点击“OK”后就可以得到分组条形图了。对图形进行进一步的修改后得到的图形如图4-9。35 （）. z.-40.0%30.0%20.0%10.0%0.0%图 4-8条形图的定义框性别男女. z.-3、饼图。很不喜欢不太喜欢无所谓比较喜欢非常喜欢兴趣图 4-9对统计学兴趣的性别差异. z.-例4.5作出学生对统计学兴趣百分比的饼图。选择GraphsPie，在Pie Chart选项框中选择Summaries for Groups of Cases，在接下来的对话框中，在“Slices Represent”选项中选择% of cases，在“define slices by”框中选择变量“兴趣”，点击OK按钮完成图形，然后对图形进行必要的修改，可以得到图4-10的结果。36. z.- Pe rc e n t. z.-无所谓20.0%很不喜欢11.43%不太喜欢25.71%比较喜欢. z.-非常喜欢20.0%22.86%. z.-图 4-10 学生对统计学课程的兴趣4.2 描述数据分布状况的统计图直方图、箱线图、茎叶图等都可以用来描述数据的分布状况，其中最为常用的是直方图。4.2.1用 E*cel 绘制直方图虽然E*cel的分析工具库提供了绘制直方图（Histogram）的功能，但E*cel所绘制的直方图实际上就先对数据进行分组，然后根据分组资料绘制的条形图，而不是统计意义上的直方图。因此，如果你有其他的软件可用，我们不建议你用E*cel的直方图功能。如果要用E*cel绘制的直方图，一定要对E*cel给出的图形进行必要的调整。例4.6用E*cel来绘制学生调查中“概率成绩”的直方图。使用直方图工具与使用FREQENCY函数类似，需要指定分组界限（做直方图时也可以不指定分组界限，但注意E*cel完成的直方图是无法调整分组界限的）。单击工具数据分析直方图，会弹出直方图对话框（图4-11）。定义了输入区域（数据区域）、接受区域（分组界限）后，将输出选项定义为当前表格的中的一个单元格，选中“图表输出”复选框，“确定”后E*cel会给出相应的频数分布表（表4-3）和“直方图”（图4-12）。概率成绩的最低分为49分，最高分为92分，我们以40-50，50-60，60-70，70-80，80-90，90-100来进行分组：在E*cel表格中输入49、59、69、79、89，将这个区域作为接受区域。注意在表4-3，E*cel所说的“频率”实际上是频数（次数）。另外一点是E*cel在对数据进行分组时总会增加一组（大于接收区域最后一个组限的数据个数），即使这个组中没有数据。图4-12实际上就是根据表4-3作的条形图。要把这个条形图调整成直方图的形式至少需要做以下两方面的修改：一是各条形之间不应该有间隔；二是横轴标注的刻度应该是连续的区间。首先，双击图中的条形区域，在弹出的数据系列格式对话框的“选项”选项卡中把分类间距调整为0，这样各个条形之间就是连续的了。其次，双击图形的横轴，把横轴的字体颜色改为白色，字体背景色改为透明，把原来的横轴数值隐藏起来，然后在图形中添加一个文本框，在横轴的对应位置标出相应的数值。对图形再进行一些细微调整，最后得到的直方37. z.-. z.-图如图4-12。20100图4-11 E*cel的直方图对话框表4-3 E*cel生成的次数分布表接收频率4915906977915898其他4直方图频率. z.-4959697989其他. z.-图4-12 E*cel生成的“直方图”接收38. z.- 频率. z.-1614. z.-人1210. z.-数86420 40 50 60 70 80 90 100考试成绩图4-13 调整后的直方图. z.-4.2.2用 SPSS 绘制直方图1、根据原始数据绘制直方图。例4.7用SPSS制作统计成绩的直方图。调用Graphs菜单的Histogram 过程可绘制直方图。在Histogram对话框中把“概率成绩”变量选入Variable框，再点击OK钮就完成了，SPSS会自动确定分组界限。如果对SPSS确定的分组界限不满意，可以用以下方法进行修改：双击直方图进入编辑状态，然后双击条形，会弹出图4-13所示的属性对话框，在Histogram Options选项卡中，把Anchor First bin改为Custom value for anchor，其值取为45；把Bin Size改为Custom，指定区间长度为5。你还可以要求在图形中添加一条正态曲线进行对比（图4-14）。对图形的其他特性再作进一步修改，最后得到的直方图如图4-15。图4-14 39. z.-. z.-1086420M ean = 76.6S td. D ev. = 9.79N = 3540506070概率成绩8090100. z.-2、根据分组数据绘制直方图。图4-15 SPSS绘制的直方图. z.-例4.8用SPSS根据分组资料绘制直方图。如果需要根据分组数据绘制直方图，首先要正确输入数据（参见节），为数据指定相应的权数，然后再使用Histogram 过程作图。使用节的数据对学生月支出的情况作直方图，结果如图4-16所示。7.006.005.004.003.002.001.000.002003004005006007008009001000月支出图4-16 SPSS根据分组数据绘制的直方图4.2.3 用 SPSS 绘制茎叶图和箱线图1、茎叶图。在数据数量不太多时，茎叶图可以很好的反映数据的分布状况，并且能够保留原始数据的信息。E*cel没有提供创建茎叶图的功能。例4.9用SPSS创建茎叶图。在SPSS中选择AnalyzeDescriptive Statistics E*plore过程可以完成茎叶图的绘制。在E*plore对话框中，单击Plots按钮，选中“Stem-and-leaf”复选框（这是默认选项），在输出结果中就会看到茎叶图。对学生调查中的身高数据作茎叶图，结果如图4-17。在茎叶图的输出中，第一组的茎为15，叶分别为8，8，9，9，茎的宽度为10（Stem width: 10），说明这一组的实际数值分别为15.8*10=158、158、159、159，共有4个数据。从茎叶图可以看出身高的中位数和众数都等于165厘米。SPSS在作茎叶图时如果发现数据中有极端40. z.- F re que ncy Fr eq ue ncy. z.-值会单独作为一组标出，而不作为茎叶图的一部分；如果数据位数很多，可能会舍弃后面数据位的数值。身高 Stem-and-Leaf Plot Frequency Stem & Leaf 4.00 15 . 8899 11.00 16 . 9.00 16 . 555567889 7.00 17 . 0122334 2.00 17 . 58 2.00 18 . 03 Stem width: 10 Each leaf: 1 case(s)图4-17 茎叶图2、箱线图（Bo* plot）.E*cel没有提供直接绘制箱线图的功能。例4.10用SPSS绘制箱线图。在SPSS中可以通过GraphsBo*plot调出绘制箱线图的对话框（图4-18）。在这个对话框中选择“Simple”、并选择“Summaries for groups of cases”，在接下来的对话框中把“统计成绩”作为分析变量，把性别作为分类变量，得到的箱线图如图4-19。SPSS中的箱线图是这样绘制的：先根据三个四分位数（Q1、Q2、Q3）画出中间的盒子。盒子的长度Q3-Q1称为四分位距（interquartile range，IQR）。然后，由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线；如果数据处于Q3+1.5*IQR至Q3+3*IQR的范围内用圆圈标出，超出了Q3+3*IQR的用星号标出。在Q1一侧也用类似的方法绘制：由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线；Q1-1.5*IQR至Q1-3*IQR的范围内用圆圈标出，小于Q1-3*IQR的用星号标出。在图3-33中我们可以看出，有一个男生的统计成绩在Q1-1.5*IQR至Q1-3*IQR的范围内，这个人的观测号是3（圆圈旁边的数字“3”表示观测号）。图4-18 SPSS的箱线图对话框41. z.-统计成绩100908070605040303男性别女. z.-图4-19 箱线图4.3* 质量管理中的统计图统计图形是现代质量管理的重要手段之一。这一节我们首先介绍简单的排列图（ParetoChart，也称帕雷托图），然后分别介绍几种常用的控制图。E*cel没有直接提供这些图形功能，以下案例都是由 SPSS 完成的。我们这里主要侧重讲解图形的软件实现，对于其中涉及的专业知识请进一步参考有关参考书。4.3.1排列图排列图是用来寻找影响产品质量的主要因素的一种方法，由此可以确定质量改进的方向。在现实中很多问题通常是由少数主要原因引起的，其基本原理是区分“关键的少数”和“次要的多数”，这样有助于抓关键因素。为直观起见用图形表示出来，这一图形便是排列图。例4.11你工作的电脑公司为客户提供上门电脑维修服务。最近顾客要求上门维修的次数有所上升，为了找出导致问题的主要原因，你调查了最近的 80 次维修记录，发现导致电脑故障的主要原因如表 4-4。试根据表中的数据作 Pareto 图以找出导致问题的主要原因。表 4-4电脑故障的原因分类. z.-问题类别硬盘故障显示器故障主板故障光驱故障软件和病毒问题其他问题出现次数581019353. z.-在SPSS中建立数据文件，定义变量名为原因（字符型）和次数（数值型），输入相应的数据。然后选GraphsPareto，SPSS会弹出Pareto Chart定义选项框，选“Simple”和Datain Charts are“Counts or sums of groups of cases”(都是默认选项)，然后点击Define 按钮弹出Define对话框，把变量“次数”选入Sums of variable框，“原因”选入Category A*is框，如图4-20。再点击OK钮即完成定义过程，结果如图4-21所示。这个图形实际就是一个条形42. z.-. z.-图和一个累计频率折线图的复合图形，*轴要先从大到小进行排序。从图4-21可以看出，造成电脑故障的主要原因是软件和光驱问题，减少电脑故障应首先从这两个方面着手。图4-20 定义Pareto图的对话框. z.-次8060100%80%60%. z.-数40200软件和病光驱故障主板故障显示器故硬盘故障其他问题毒问题障原因图4-21 Pareto图40%20%0%. z.-4.3.2计量值控制图控制图是进行统计过程控制的重要手段，可以帮助我们及时发现过程中出现的异常波动并采取措施加以消除，以保持质量的稳定。控制图可以分为两类：用于连续数据（计量值）的控制图和用于属性数据（计数值）的控制图。这一小节我们先来看计量值控制图。1、均值-极差控制图以及均值-标准差控制图。均值控制图( *图)主要用来判断过程的均值是否处于受控状态；极差控制图(R图)和标准差控制图（s 图）主要用来统计过程的波动是否处于受控状态。*图一般与 R 图或 s 图组合在一起出现，这样可以同时了解统计过程的波动和均值的特性。通常当样本容量大于5时使用 s 图，样本容量小于等于 5 时使用 R 图1。例4.12*食品厂生产的薯条每包的标准重量为 150 克，每包的重量在 145-155 克为合格。现每隔一小时从生产线上抽取 5 包进行称重，共抽取了 25 个样本，数据如表 4-5。根据数据制作均值-极差控制图并计算过程能力指数。表 4-5薯条重量的抽样数据. z.-样本序号12*1 *2 *3 *4 *5148149150151151150150146148150. z.-1MINITAB Users Guide 2: Data Analysis and Quality Tools， Minitab Inc.，2000。43. z.- Pe rc e n t. z.-345678910111213141516171819202122232425150149150149148151149149149149148151150148150154151149148151149150148150151149148148151149149148149152151150149150151150153150150152150151150152150148151151153150151148150150149150152152149152151151151148147151149148152151148153150149151148150150150151151154150150151152150149146150150150148151152149148151153148149147151148150153151151148149152. z.-在SPSS中建立数据文件，选择GraphsControl，在弹出的Control Charts选项框选择*-bar,R,s图形，数据类型选择后一种“Cases are subgroups”（数据表中的每一行是一个样本）（图4-22）。如果所有的变量值都存储在一个变量中，另有一个变量记录变量值的样本序号，则数据类型是前面一种（“Cases are unit”）。点击Define按钮，弹出控制图的定义菜单。把*1-*5 选入Samples框，图形类型选择默认的*-Bar and range（图-23）。点击Statistics按钮，在弹出的对话框中输入规格要求：上限为155，下限为145，目标值为150。要求输出过程能力指数CpK。在这个对话框中你可以指定过程标准差的计算方法。我们这里采用默认方法（根据R-Bar估计）（图4-24）。返回主菜单，点击“OK”就可以得到需要的控制图了。经过编辑修改的图形如图4-25和图4-26。均值和极差控制图说明过程处于统计控制状态。根据我们设定的参数SPSS计算的Cpk=1.089，过程能力尚可。44. z.-. z.-图 4-22 控制图的选择框图 4-23 *-bar,R,s 图的定义框图 4-24 *-bar,R,s 图的统计指标对话框45. z.-156154152150148146144155U C L=1.9744149.9440LC L=147.9136145. z.-15913172125. z.-86420图 4-25 *-Bar 图U C L=7.4433.52. z.-15913172125. z.-2、单值-移动极差控制图。图 4-26 R 图. z.-当利用平均值进行过程控制不切实际时（例如获得观测值的费用很高，短时间内的输出结果相似等等），可以使用单值控制图。由于在这种情况下不可能计算每个个体值对应的标准差或极差，与单值控制图配合使用的是. z.-移动极差控制图，移动极差Ri=*i *ii1,= 2,3,.k。. z.-例4.13在薯条的例子中假设每次抽样时只取一包薯条进行称重（假设都为第一个样品 *1），根据数据作单值-移动极差控制图。选择GraphsControl，在弹出的Control Charts选项框选择Individuals, Moving Range图形，在控制图的定义菜单中把*1选入Process Measurement框，点击“OK”就可以得到需要的控制图了。经过编辑修改的图形如图4-27和图4-28。单值控制图和移动极差控制图都处于受控状态。46. z.- Me a n Ra n g e. z.-158156154152150148146144U C L=156.3328150.24LC L=144.1472. z.-15913172125. z.-86420图 4-27 单值控制图U C L=7.48582.2917. z.-15913172125. z.-4.3.3计数值控制图图 4-28 移动极差图. z.-1、不合格品率控制图和不合格品数控制图。不合格品率控制图（p 图）是评价过程不合格品率的统计工具，不合格品数控制图（np图）是用于评价不合格品数的统计工具。在每个样本的样本容量不同时只能使用 p 图，样本容量相同时可以使用 p 图或 np 图。例4.14*超市长期从一供应商处购进苹果。在每批进货中检验人员都随机抽取 4 箱进行检验，记录擦伤的苹果数。每箱苹果的重量为 10 公斤，大约 25-30 只苹果。连续 25 批产品的检验结果如表 4-6。试作 p 图。表 4-6 苹果的抽样数据. z.-批次12345苹果数120119108116103擦伤数4459347批次1415161718苹果数104105114103112擦伤数91346. z.- M o vi ng R a ng e o f 2. z.-67891011121310410511110111410410110534713448192021222324251151031091171091041067526364. z.-在SPSS中建立数据文件，选择GraphsControl，选择p, np图，数据类型选择“Cases aresubgroups”。在控制图的定义菜单中把“擦伤数”选入Number of nonconforming框，把变量“样本容量”选入“Sample size”框中，选择默认的p图，点击“OK”就可以得到需要的控制图了。经过修改的图形如图4-29，图形表明不合格率处于受控状态。0.12. z.-0.100.080.060.040.020.00U C L.0424. z.-15913172125. z.-图4-29 苹果擦伤数的p图2、单位缺陷数控制图和缺陷数控制图单位缺陷数控制图（u 图）用于判断生产过程的单位产品缺陷数是否保持在所要求的水平。在每次抽样单位数相同时也可以使用缺陷数控制图（c 图）。例4.15*纺织厂生产的布匹要求每 100 平方米不能超过 10 个疵点，否则销售商有权退货。在每次检验中检查 100 平方米布匹，记录疵点个数。连续 30 次的检验结果如表 4-7。根据数据制作 c 图。表 4-7布匹疵点的抽样结果. z.-序号12345678疵点数4145232448序号1617181920212223疵点数24323544. z.- P rop or ti o n No n co n fo rm in g. z.-91011121314153513243242526272829302642231. z.-在SPSS中建立数据文件，选择GraphsControl，选择c, u图，数据类型选择“Cases aresubgroups”。在控制图的定义菜单中把“疵点数”选入Number of nonconforming框，“Samplesize” 设为常数100，图表类型选择为的c图，点击“OK”就可以得到控制图了。经过修改的图形如图4-30，图形表明过程处于受控状态。10. z.-86420U C L=8.38203.1. z.-1591317212529. z.-图4-30 缺陷数控制图（c图）49. z.- No n co n fo rm iti e s. z.-第 5 章概率分布与抽样分布在E*cel和SPSS中都有丰富的概率函数，可以帮助我们进行各种类型的概率计算，进行各种类型的随机模拟试验来学习统计学原理。统计软件中与概率分布有关的函数可以分为4类：（1）计算分布的概率或概率密度的函数(PDF)；（2）计算分布的累积概率的函数(CDF)；（3）计算分布的累积概率函数的反函数(IDF)；（4）随机模拟服从*种分布的数据。E*cel可以计算大部分常用理论分布的PDF、CDF和IDF（但没有直接提供F分布和t分布的密度函数），并且可以模拟产生服从大部分常用理论分布的数据。但是，同一类型的E*cel函数对参数的要求以及输出结果的定义方式很不一致，对我们使用这些函数造成了一定困难，要求我们在使用E*cel概率函数时一定要真正理解E*cel的概率函数，避免对概率函数的误用。如果能够正确使用，E*cel可以成为非常强大的学习工具。SPSS提供的概率函数比E*cel要丰富，使用也很方便。就计算的准确性而言，有研究表明至少在E*cel 2003以前的版本中的随机数发生器和一些分布函数的计算结果不如专门的统计软件精确。本章我们通过一些例子来说明使用E*cel和SPSS进行概率计算和随机模拟的方法。由于在E*cel和SPSS中这些函数的使用方法非常类似，本章的讲解我们以E*cel为主进行讲解，SPSS的相应功能只作简单的介绍。5.1 用 E*cel 和 SPSS 进行概率计算5.1.1用 E*cel 计算分布的概率或概率密度对于离散分布如二项分布或泊松分布，E*cel可以计算出*取特定值的概率值。而对于连续分布，我们可以通过密度函数对概率分布有直观的了解。在常用的连续分布中，E*cel可以计算正态分布的密度函数，但没有直接提供t分布、F分布、2分布的密度函数，SPSS提供了所有常用函数的密度函数。例5.1用E*cel计算正态分布的密度函数并绘制正态分布的图形。计算中需要使用的函数是：NORMDIST(*,mean,standard_dev,cumulative)。该函数有四个参数，第一个参数是*的值，第二、三个参数是正态分布的均值和标准差，最后一个参数为一逻辑值，指明函数的形式。如果 cumulative 为TRUE（或非零实数），函数 NORMDIST 返回累积分布函数；如果为 FALSE（或0），返回概率密度函数。打开一个新的工作表，在第一行输入变量名，A2单元格输入数值-3.5。接下来，单击A2单元格使其成为活动单元格，单击菜单“编辑”“填充”“序列”，在弹出的对话框中选择序列产生在列，类型为等差序列，步长值为0.1，终止值为3.5，可以在构造一个由-3.5至3.5的等差序列（图5-1）。50. z.-图5-1构造-3.5 -3.5的等差序列在B2单元格输入“=”，从统计函数中选择函数NORMDIST，设定函数的参数为NORMDIST(A2,0,1,0)，B2单元格就会计算出相应的密度函数。然后用拖动的方法在B3:B72复制公式，就可以得到所有的密度函数值了。用生成的数据作*Y散点图（选择无数据点平滑线散点图），对图形作必要的修改后得到的正态分布图形如图5-2。散点图就是用*、Y的取值作为横坐标和纵坐标，在图形上描点获得的图形，主要用于表现两个变量之间的相互关系。0.450.40.350.30.250.20.150.10.050. z.-4-3-2-101234. z.-图5-2标准正态分布的密度曲线5.1.2用 E*cel 计算分布的累积概率我们经常需要利用分布的累积概率来进行有关的各种计算，在传统的统计学教学中这些概率都需要通过查表来获得。我们这里通过一些例子来说明使用不同的分布进行有关计算时需要注意的问题。1、二项分布。例5.2假设每天有5个由北京飞往上海的航班，每次航班晚点的概率等于0.2。请问今天恰好有两个航班晚点的概率是多少.最多有两个航班晚点的概率是多少.每天晚点的航班数服从二项分布。相应的概率可以使用E*cel二项分布函数来计算。该函数的形式为：BINOMDIST(number_s,trials,probability_s,cumulative)。参数Number_s为试验成功的次数，Trials为独立试验的次数，Probability_s为每次试验中成功的概率。Cumulative为一逻辑值，用于确定函数的形式。如果cumulative为 TRUE，函数 BINOMDIST返回累积分布函数，即至多 number_s次成功的概率；如果为 FALSE，返回概率密度函数，即number_s次成功的概率。因此对第一个问题，在单元格中输入公式“=BINOMDIST(2,5,0.2,0)”。得到的答案为0.2048。对第二个问题，在单元格中输入公式“=BINOMDIST(2,5,0.2,1)”。得到的答案为51. z.-. z.-0.94208。2、正态分布。对于给定的*值，NORMDIST函数在计算累积概率时返回的是从负无穷到*的积分，即图4-3中阴影部分的面积。注意E*cel可以直接计算*为负值时的累积概率。0.40.30.20.1. z.-3-2-1123. z.-图5-3 正态分布累计函数的返回值为阴影面积例5.3已知学生的统计考试成绩服从均值为72，标准差等于8的正态分布，求学生成绩不及格的概率和处于65-80之间的概率。学生成绩不及格的概率可以使用公式“=NORMDIST(60,72,8,1)”计算，计算结果为0.066807。公式“=NORMDIST(65,72,8,1)”的结果为0.190787，公式“=NORMDIST(80,72,8,1)”的计算结果为0.841345，二者之差0.650558即为成绩处于65-80之间的概率。3、t分布。E*cel中计算t分布累计概率的函数为TDIST(*,degrees_freedom,tails)。*为需要计算分布的数字，Degrees_freedom为自由度，Tails指明返回的分布函数是单尾概率还是双尾概率。tails=1时函数TDIST返回单尾概率，tails =2时返回双尾概率。计算双尾概率时TDIST的返回值为P(|*| *)，即图4-4中阴影的面积；计算单尾概率时TDIST的返回值为P( * )，即图5-4中右侧阴影的面积。这一点与正态分布很不一致。t累积分布函数与正态分布的另一点不同是t分布要求输入的*为正值。0.40.30.20.1. z.-3-2-1123. z.-图5-4 计算双尾概率时t累积分布函数的返回值为阴影面积例5.4已知随机变量*服从自由度为10的t分布，计算P(|*|2)。P(|*|2)=1- P(|*| 2)。在单元格中输入公式“1- TDIST(2,10,2)”，可知相应的概率等52.

展开阅读全文

市场调查实验课教案

最新文档