MBA统计学--数据的描述培训课程

资源描述

统计学从数据到结论第三章数据的描述l在对数据进行深入加工之前，在对数据进行深入加工之前，总应该对数据有所印象。总应该对数据有所印象。l可以借助于图形和简单的运算，可以借助于图形和简单的运算，来了解数据的一些特征。来了解数据的一些特征。l由于数据是从总体中产生的，由于数据是从总体中产生的，其特征也反映了总体的特征。其特征也反映了总体的特征。对数据的描述也是对其总体的对数据的描述也是对其总体的一个近似的描述。一个近似的描述。3.1 如何用图来表示数据？如何用图来表示数据？3.1.1 定量变量的图表示定量变量的图表示:1.直方图直方图l对于一个定量变量，比如某个地区对于一个定量变量，比如某个地区（地区（地区1）测量了）测量了163个高三男生的身个高三男生的身高高（S3height1.txt）。l用图形来表示这个数据，使人们能够用图形来表示这个数据，使人们能够看出这个数据的大体分布或看出这个数据的大体分布或“形状形状”的一个办法是画的一个办法是画直方图直方图(histogram)。l图图3.1就是利用这个数据由就是利用这个数据由SPSS软件软件所画的直方图。所画的直方图。图3.1 地区1高三男生身高的直方图200.0195.0190.0185.0180.0175.0170.0165.0160.0155.0150.0Std. Dev（标准差）=10.91，Mean（均值）=170.9，N（人数）=163403020100该图的横坐标是身高区间，这里每一格代表该图的横坐标是身高区间，这里每一格代表5cm的身高范围（格子的身高范围（格子宽度因不同的数据性质或要求而定，这里的格子宽度为宽度因不同的数据性质或要求而定，这里的格子宽度为5cm），而），而纵坐标为各种身高区间的身高的频数。纵坐标为各种身高区间的身高的频数。直方图直方图3.1.1 定量变量的图表示定量变量的图表示:2.盒型图盒型图l简单一些的是简单一些的是盒形图盒形图(boxplot，又称，又称箱图、箱线图、盒子图箱图、箱线图、盒子图)。l图图3.2的左边一个是根据地区的左边一个是根据地区1高三男高三男生的身高数据所绘的盒形图；其右边生的身高数据所绘的盒形图；其右边的图代表另一个地区（地区的图代表另一个地区（地区2）的高）的高三学生的身高三学生的身高（height.txt，height.sav，第三章例，第三章例.xls）。175163N =地区地区2地区1高三男生身高210200190180170160150140323259250248596158盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median)，封闭盒子的上下两横线，封闭盒子的上下两横线（边）为上下四分位数（点）；按照（边）为上下四分位数（点）；按照SPSS的默认选项，如果所有的默认选项，如果所有样本中的数目都在离四分位点样本中的数目都在离四分位点1.5倍盒子长度之内，则线的端点为倍盒子长度之内，则线的端点为最大和最小值，否则线长就是最大和最小值，否则线长就是1.5倍的盒子长度（盒子长度称为四倍的盒子长度（盒子长度称为四分位间距），在其外面的度量单独点出分位间距），在其外面的度量单独点出3.1.1 定量变量的图表示定量变量的图表示:3.茎叶图茎叶图 l在直方图和盒形图中，很难恢复数据在直方图和盒形图中，很难恢复数据的原貌。而另一种图：的原貌。而另一种图：茎叶图茎叶图(stem-and-leaf plots)可以恢复数据可以恢复数据l以地区以地区1高三男生身高为例（图高三男生身高为例（图3.3），），茎叶图既展示了分布形状又有原始数茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较据。它象一片带有茎的叶子。茎为较大位数的数字，叶为较小位数的数字。大位数的数字，叶为较小位数的数字。茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm，而叶子单位为，而叶子单位为1cm。比如，由于。比如，由于第一行茎为第一行茎为150cm，因此叶子中的九个数字，因此叶子中的九个数字001223344代表九个数代表九个数目目150、150、151、152、152、153、153、154、154cm等。每等。每行左边有一个频数（比如第一行有行左边有一个频数（比如第一行有9个数目，第二行有个数目，第二行有17个等等）；个等等）；可以看出最长的一行为从可以看出最长的一行为从165cm到到169cm的一段（有的一段（有35个数）。个数）。3.1.1 定量变量的图表示定量变量的图表示:4.散点图散点图 l数据会有两个变量，如美国男士和女数据会有两个变量，如美国男士和女士初婚年限数据（士初婚年限数据（marriage.txt）。）。l该数据描述了自该数据描述了自1900年到年到1998年男年男女第一次婚姻延续的时间。女第一次婚姻延续的时间。l这里年份是一个变量，婚姻延续时间这里年份是一个变量，婚姻延续时间是第二个变量。由于不可能将所有人是第二个变量。由于不可能将所有人的婚姻年限都给出来，所以每年就取的婚姻年限都给出来，所以每年就取了一个中间的值了一个中间的值(中位数中位数)作为代表。作为代表。200019801960194019201900282726252423222120女男散点图散点图3.1.2 定性变量的图表示：饼图定性变量的图表示：饼图l定性变量（或属性变量，分类变定性变量（或属性变量，分类变量）不能点出直方图、散点图或量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类茎叶图，但可以描绘出它们各类的比例。的比例。l下面用下面用SPSS绘的图绘的图3.5（饼图，（饼图，pie chart）表示了说世界各种主表示了说世界各种主要语言人数的比例要语言人数的比例(language.txt).饼图饼图3.1.2 定性变量的图表示：条形图定性变量的图表示：条形图l而用同样数据画的图而用同样数据画的图3.6称为称为条条形图（形图（bar chart）。l从每一条可以看出讲各种语言从每一条可以看出讲各种语言的实际人数，而且分别给出了的实际人数，而且分别给出了每个语种中母语和日常使用的每个语种中母语和日常使用的人数（在图中并排放置）。条人数（在图中并排放置）。条形图显示比例不如饼图直观。形图显示比例不如饼图直观。条形图条形图3.2 如何用少量数字来概括数据？如何用少量数字来概括数据？l大量的数字既繁琐又不直观；需大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允要对数据做人们时间和耐心所允许的简化许的简化l我们可以用我们可以用 “平均平均”，“差距差距”或百分比等来概括大量数字。或百分比等来概括大量数字。l由于定性变量主要是计数，比较由于定性变量主要是计数，比较简单，常用的概括就是比例或百简单，常用的概括就是比例或百分比。下面主要介绍关于定量变分比。下面主要介绍关于定量变量的数字描述。量的数字描述。3.2 如何用少量数字来概括数据？如何用少量数字来概括数据？l可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括概括统计量统计量(summary statistic)来描来描述定量变量的数据。述定量变量的数据。l这些数字是从样本数据得来的，这些数字是从样本数据得来的，因而也是样本的函数，因而也是样本的函数，l任何样本的函数，只要不包含总任何样本的函数，只要不包含总体的未知参数，都称为体的未知参数，都称为统计量统计量(statistic)。l样本的随机性决定统计量的随机样本的随机性决定统计量的随机性（统计量也是随机变量）性（统计量也是随机变量）3.2 如何用少量数字来概括数据？如何用少量数字来概括数据？l概括统计量经常对应于总体概括统计量经常对应于总体的无法观测到的某些参数。的无法观测到的某些参数。l这时，统计量可作为这些参这时，统计量可作为这些参数的估计。一些统计量还可数的估计。一些统计量还可以用来检验样本和假设的总以用来检验样本和假设的总体是否一致。体是否一致。3.2 如何用少量数字来概括数据？如何用少量数字来概括数据？l注：注：一些统计量前面有时加一些统计量前面有时加上上“样本样本”二字，以区别于二字，以区别于总体的同名参数。如总体的同名参数。如“样本样本均值均值”和和“样本标准差样本标准差”，以区别于总体均值和总体标以区别于总体均值和总体标准差；但在不会混淆时可以准差；但在不会混淆时可以只说只说“均值均值”和和“标准差标准差”。3.2.1 数据的数据的“位置位置”数据有位置吗？数据有位置吗？这里三个数据的位置一样吗？这里三个数据的位置一样吗？3.2.1 数据的数据的“位置位置”l“位置位置”一般是关于数据中某变一般是关于数据中某变量观测值的量观测值的“中心位置中心位置”或者数或者数据分布的中心（据分布的中心（center或或center tendency）。）。l和这种和这种“位置位置”有关的统计量就有关的统计量就称为称为位置统计量位置统计量(location statistic)。l位置统计量当然不一定都是描述位置统计量当然不一定都是描述“中心中心”了，比如后面要讲的了，比如后面要讲的k百百分位数（或分位数（或k分位数）。分位数）。3.2.1 数据的数据的“位置位置”l最常用的位置统计量就是小学时所学最常用的位置统计量就是小学时所学到的算术平均数，它在统计中叫做均到的算术平均数，它在统计中叫做均值值(mean)；严格地说叫做样本均值；严格地说叫做样本均值(sample mean)，以区别于总体均值。，以区别于总体均值。l如果记样本中的观测值为如果记样本中的观测值为x1,xn，则，则样本均值定义为样本均值定义为l(样本样本)中位数中位数(median) 是数据按照大小排列之是数据按照大小排列之后位于中间的那个数后位于中间的那个数(如如果样本量为奇数果样本量为奇数)，或者，或者中间两个数目的平均中间两个数目的平均(如如果样本量为偶数果样本量为偶数)。l由于中位数不易被极端由于中位数不易被极端值影响，所以中位数比值影响，所以中位数比均值稳健均值稳健(robust)。3.2.1 数据的数据的“位置位置”l上下四分位数（或分别称为第一四分位数和第三四分位数，first quantile, third quantile）则分别位于（按大小排列的）数据的上下四分之一的地方。3.2.1 数据的数据的“位置位置”3.2.1 数据的数据的“位置位置”l一般地还称上四分位数为一般地还称上四分位数为75百分位数百分位数（75 pecentile，有，有75的观测值小于的观测值小于它），下四分位数为它），下四分位数为25百分位数百分位数（有（有25的观测值小于它）。的观测值小于它）。l一般地，一般地，k百分位数百分位数（k-pecentile）意）意味着有味着有k的观测值小于它。的观测值小于它。l如果令如果令a a=k%，则则k百分位数也称为百分位数也称为a a分位数分位数(a a-quantile)。l样本中出现最多的数目，称为样本中出现最多的数目，称为众数众数(mode)3.2.2 数据的数据的“尺度尺度”l这两个数据“胖瘦”一样吗？3.2.2 数据的数据的“尺度尺度”l数据中数目的分散程度由尺度统计量（scale statistic）来描述。l尺度统计量是描述数据散布，即描述集中与分散程度或变化（spread或variability）的度量。3.2.2 数据的数据的“尺度尺度”l从前面两个高三男生身高数据的盒从前面两个高三男生身高数据的盒形图。左边的数据平均要高些，但形图。左边的数据平均要高些，但右边的数据散布范围要小得多。右边的数据散布范围要小得多。175163N =地区地区2地区1高三男生身高210200190180170160150140323259250248596158统计中有许多尺度统计量。一般来说，数据越分散，尺度统计量的值越大。3.2.2 数据的数据的“尺度尺度”l极差极差(range)；就是极大值和极小值；就是极大值和极小值之间的差。之间的差。l前面两个高三男生身高数据的极差分前面两个高三男生身高数据的极差分别为别为50cm和和32cm。l盒形图盒子的长度为两个四分位数之盒形图盒子的长度为两个四分位数之差，称为差，称为四分位数极差或四分位间距四分位数极差或四分位间距(interquantile range)；它描述了中；它描述了中间半数观测值的散布情况。极差和四间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值，分位极差实际上各自只依赖于两个值，信息量太少。信息量太少。3.2.2 数据的数据的“尺度尺度”l另一个常用的尺度统计量为（样本）另一个常用的尺度统计量为（样本）标准差标准差(standard deviation)。度量样。度量样本中各数值到均值距离的一种平均。本中各数值到均值距离的一种平均。l标准差实际上是标准差实际上是方差方差(variance)的平方的平方根。如果记样本中的观测值为根。如果记样本中的观测值为x1,xn，则样本方差为则样本方差为3.2.2 数据的数据的“尺度尺度”两个均值一样，但右边的要两个均值一样，但右边的要“胖胖”些，方差为左边的一些，方差为左边的一倍倍3.2.3 数据的标准得分数据的标准得分l假定两个水平类似的班级（一假定两个水平类似的班级（一班和二班）上同一门课，班和二班）上同一门课，l但是由于两个任课老师的评分但是由于两个任课老师的评分标准不同，使得两个班成绩的标准不同，使得两个班成绩的均值和标准差都不一样均值和标准差都不一样(数据：数据：grade.txt)。3.2.3 数据的标准得分数据的标准得分l一班分数的均值和标准差分别一班分数的均值和标准差分别为为78.53和和9.43，而二班的均值，而二班的均值和标准差分别为和标准差分别为70.19和和7.00。l那么得到那么得到90分的一班的张颖是分的一班的张颖是不是比得到不是比得到82分的二班的刘疏分的二班的刘疏成绩更好呢？怎么比较才能合成绩更好呢？怎么比较才能合理呢？理呢？3.2.3 数据的标准得分数据的标准得分l虽然这种均值和标准差不同的数据不虽然这种均值和标准差不同的数据不能够直接比较，但是可以把它们进行能够直接比较，但是可以把它们进行标准化，再比较标准化后的数据。标准化，再比较标准化后的数据。l一个标准化的方法是把某样本原始观一个标准化的方法是把某样本原始观测值（亦称得分，测值（亦称得分，score）和该样本均）和该样本均值之差除以该样本的标准差；得到的值之差除以该样本的标准差；得到的度量称为度量称为标准得分标准得分(standard score，又称为又称为z-score)。3.2.3 数据的标准得分数据的标准得分l即，某观测值xi的标准得分定义为ixxzs3.2.3 数据的标准得分数据的标准得分l在我们的例子中，张颖的标准在我们的例子中，张颖的标准得分为得分为(90-78.53)/9.431.22，而刘疏的标准得分为而刘疏的标准得分为 ( 8 2 -70.19)/71.69。l显然如果两个班级平均水平差显然如果两个班级平均水平差不多，刘疏的成绩应该优于张不多，刘疏的成绩应该优于张颖的成绩；这是在标准化之前颖的成绩；这是在标准化之前的数据中不易看到的。的数据中不易看到的。可以看出，原始数据是在各自的均值附近，而散布也不一可以看出，原始数据是在各自的均值附近，而散布也不一样。但它们的标准得分则在样。但它们的标准得分则在0 0周围散布，而且散布也差不周围散布，而且散布也差不多。实际上，任何样本经过这样的标准化后，就都变换成多。实际上，任何样本经过这样的标准化后，就都变换成均值为均值为0 0、方差为、方差为1 1的样本。标准化后不同样本观测值的比的样本。标准化后不同样本观测值的比较只有相对意义，没有绝对意义。较只有相对意义，没有绝对意义。

展开阅读全文

MBA统计学--数据的描述培训课程

最新文档