统计数据的描述(统计学).ppt

上传人:zhu****ei 文档编号:3525990 上传时间:2019-12-17 格式:PPT 页数:39 大小:291KB
返回 下载 相关 举报
统计数据的描述(统计学).ppt_第1页
第1页 / 共39页
统计数据的描述(统计学).ppt_第2页
第2页 / 共39页
统计数据的描述(统计学).ppt_第3页
第3页 / 共39页
点击查看更多>>
资源描述
第二章统计数据的描述,2.1数据的计量尺度2.2统计数据的来源2.3统计数据的质量2.4统计数据的整理2.5分布集中趋势的测度2.6分布的离散程度的测度2.7分布的偏态和峰度的测度2.8茎叶图和箱线图2.9统计表和统计图,2.1数据的计量尺度在进行统计数据分析和整理时,都需要了解统计数据的性质。为此要对统计数据进行分类,根据计量学一般分类方法,将统计数据按照从粗略到精确(从低级到高级)分类的计量尺度分别是列名尺度(定类尺度)、顺序尺度(定序尺度)、间隔尺度(等距尺度)和比例尺度(等比尺度)。1、列名尺度(nominalscale)列名尺度是最粗略的计量尺度,它只能对事物进行平行的分类和分组,各类、组之间是平行的。例如将06营销和06会计专业学生按生源地划分,可以将学生分为云南籍学生、贵州籍学生、广西籍学生等等。在本例中生源地就是列名尺度。由列名尺度确定的数据是不能进行加、减、乘和除法运算的。有时,我们用“1”表示云南籍学生,“2”表示贵州籍学生,“3”表示广西籍学生,等等,这时,1,2,3等等仅是一个符号,不能进行运算。2、顺序尺度(ordinalscale),顺序尺度比列名尺度要高一级,表现为各类或组之间有一定的顺序,可以进行优劣等级的比较。例如把我们同学按照学习成绩优秀、良好、及格和不及格四类,显然这四类是有好坏或者说顺序之分的,不是平行的。优秀、良好、及格和不及格就是顺序数据,学习成绩就是顺序尺度。显然顺序尺度一定是列名尺度,顺序数据一定是列名数据。3、间隔尺度(intervalscale)间隔尺度是一种对数据进行精确计量的尺度,它不仅可以比较各事物的顺序,而且还可以计算其大小和差值的大小,也就是数量的间隔。例如我们同学数学考试成绩是69、80、70、90、76等等。间隔尺度度量的统计数据是可以进行加法和减法运算。显然间隔尺度度量的数据一定是顺序数据,也一定是列名数据。4、比例尺度(ratioscale)比例尺度,又称为定比尺度,是一种比间隔尺度更高级的计量尺度,和间隔尺度主要区别是对“0”的理解上,在间隔尺度中,“0”,表示一个具体值,在比例尺度中“0”表示没有。例如假设我数学考试成绩是0分,表示我数学成绩是0分,也是我的成绩,并不是表示我没有成绩,也不表示我没有一定数学知识,至少1+2=3是知道的。假设我身上是0元钱,表示我口袋了一分钱都没有,也就是没有钱。可以看出表示成绩的统计数据是间隔数据,表示钱的统计数据是比例数据。两者之间的关系:间隔数据的差是比例数据。例如物理学中的电势、电势能、温度、重力势能都是间隔数据,但它们的差电势差、电势能差、温度差和重力势能查都是比例数据。在经济学中,绝大多数统计数据都是比例数据。GDP、就业人数、企业总产值、企业主营业务收入等等都是比例数据。显然比例数据一定是间隔数据。比例数据可以进行加、减、乘和除法运算。凡是适合低级数据的统计方法,对高级数据都适合,反之,就不一定成立。,2.2统计数据的来源统计数据的来源主要有直接来源和间接来源。间接来源是指利用现有的数据。例如从报纸、图书、杂志、统计年鉴、网络获取的数据是间接数据,也包括才市场调查公司或数据库购买的数据。直接来源主要包括试验设计和统计调查获取的数据。物理、化学、生物等自然科学中统计数据直接来源于试验设计,经济学和社会科学中的统计数据直接来源于统计调查。统计调查的方法:普查和抽样调查1、普查普查是为一特定的目的,专门组织的一次全面调查。例如我国每十年进行一次的人口普查,农业普查等等。普查的特点是数据全面,但成本高。2、抽样调查抽样调查是从总体中随机抽出一部分样本,通过样本数据的数量特征来分析研究总体数量特征的调查研究方法。例如市场调查、对传染病的调查。,2.3统计数据的质量1、统计数据的误差:非抽样误差和抽样误差非抽样误差:调查过程中由有关环节工作失误造成的误差。它包括调查过程中的填报错误、抄录错误、汇总错误、不完整的抽样框导致的误差、调查中不回答产生的误差和某些受访者故意报虚假数据等等。克服方法:加强培训工作,认真贯策统计法抽样误差:利用样本推断总体时产生的误差。改善方法:选择好的统计方法2、提高统计数据的质量途径克服非抽样误差,选择好的统计方法减小抽样误差。,2.4统计数据的整理一、统计数据的分组统计分组是统计整理的第一步,将数据列入不同的组内的过程。其中列名尺度和顺序尺度数据是按照事物的性质和属性划分的,又称为按品质标志分组。间隔尺度和比例尺度数据是按照事物数量标准来划分的,又称为数量标志分组。例题某班学生按性别分组按性别分组人数百分比%男生3060女生2040合计50100,二、次数分配(频数分布)次数分配,也叫频数分配,是将数据分组后,计算其次数分布的情况。例题某车间30名工人周加工零件数工人编号周加工零件数工人编号周加工零件数工人编号周加工零件数11061199218528412942210631101311923101491148824105510915118259669116972610571111710327107810718106281289121199529111101052010630101,解:对数据进行统计分组第一步是确定组数,按下列公式来确定其中k为组数,n为数据的个数。在本例中,k=1+lg30/lg2,约等于5,故分为5组第二步确定组距(组的上限与下限之差值)在本例中,样本数据中,最大值是128,最小值是84,故组距是(128-84)/5约等于8.1,再结合本例数据的特点,取组距为10。得到频数分布是如下图所示,按周加工零件分组数次数(频数)向下累计次数向上累计次数80903330901007102710011013232011012052871201302302合计30次数分布的显示方法:直方图和折线图在直角坐标系中,用小矩形显示统计数据的分布特征的图形就是直方图。在本例中,其直方图和折线图如下:,思考题:向下累计频数和随机变量的分布函数之间的关系是什么?,四、洛伦茨曲线和基尼系数1、洛伦茨曲线美国统计学家洛伦次在上个世纪初,根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配的曲线。收入分配百分比与人口百分比之间的函数关系的曲线。作法:在直角坐标系中,横轴表示累计人口的百分比,纵轴表示累计的收入或财富百分比。描点绘制出洛伦茨曲线。,曲线1,曲线2,曲线3,人口占总人口的百分比,财富占总财富的百分比,100%,100%,A,B,在上图中,曲线1表示人口百分比与收入百分比完全相等,说明这个国家或地区的收入分配是完全按人口平均分配的。曲线2表示绝大多数人没有收入或财富,只有极少数人占有全部财富,说明这个国家或地区人的收入和财富分配是绝对不平均的。世界上绝大多数国家或地区收入分配的洛伦次曲线在曲线1和曲线3之间,如曲线2所示。为了更准确地反映收入分配的变化程度,意大利经济学家基尼提出基尼系数来刻画收入分配平均程度基尼系数=A/(A+B)显然,基尼系数在0和1之间,若基尼系数等于0,表明这个国家收入分配是绝对平均的,若基尼系数等于1,表明这个国家收入分配是财富集中在极少数人手上,绝大多数人没有财富,分配是绝对不平均的。在通常情况下,一个国家的基尼系数在0.20.4之间,社会比较稳定,当基尼系数超过0.4时,表明这个国家收入分配出现不公了,需要政府采取措施,缩小差距,维护社会稳定。,例2.2讲解。下表是澳大利亚1973年至1974年可税收入分布情况,可税收入/$,纳税人数目/人,可税收入/$,在收入等级中的百分数,累计的百分数%,人数,收入额,人数,收入额,1200以下1200159916001999200023992400279928003199320035993600399940004799480055995600639964007199720079998000879988009999100001199912000159991600019999200003999940000以上,119312282294301201351705352297380032416597444625837870665649466233304701195514125740115155985467982631477310794564,130725395513543977773007916492114139214177211690622367772034483652785529296361214802551052749107614410713701090369557818802948265910,2.135.035.386.286.296.787.437.9314.9511.888.325.443.492.242.051.761.430.560.550.08,0.501.512.062.933.474.335.376.4113.9413.0710.567.825.613.994.084.064.132.113.041.01,2.137.1612.5418.8225.1131.8939.3247.2562.2074.0882.4087.8491.3393.5795.6297.3898.8199.3799.92100.0,0.502.014.077.0010.4714.8020.1726.5840.5253.5964.1571.9777.5881.5785.6589.7193.8495.9598.99100.0,合计,5604487,26382238,100.0,100.0,表中第一列可税收入是分组的变量(比例尺度数据变量);第二列纳税人数是收入分组的次数分配(在可税收入范围内的纳税人数);第三列可税收入是指各组纳税人可税收入的总额;第四列和第五列分别是分别是第二列和第三列的百分比分布;第六和第七列分别是第四和第五列向下累积的数值。下面用MATLAB6.5软件绘制出洛伦茨曲线,有关程序是X;Y;PLOT(X,Y);Z=1:2:100;Z1=zPlot(z,z1,x,y,r)图中,蓝线表示的是完全按人口平均分配收入的洛伦茨曲线,红线表示本例中的洛伦茨曲线,也就是19731974年澳大利亚收入分配的洛伦茨曲线。,2.5分布的集中趋势的测度数据的集中趋势是指能够代表数据总体变化趋势的量,集中趋势的值愈大,表明从总体上看,数据值大,反之,集中趋势值愈小,表明从总体上看,数据值愈小。因此,集中趋势是统计数据的一个重要指标。不同数据类型度量它的集中趋势指标值是不同的,下面分别介绍。一、名列尺度数据:众数对于名列尺度数据,度量它集中趋势的指标是众数。众数:在一组统计数据中,出现次数最多的数据是众数。例如某市场调查公司调查市场上饮料销售情况,如下表所示饮料品牌频数百分比可口可乐1836%旭日升冰茶918%百事可乐1326%汇源果汁1020%合计50100%,由众数的定义知,上述数据中,众数是可口可乐,因为它出现的次数最多的统计数据。因为凡是适合低级统计数据的统计方法,对高级统计数据也适合,因此顺序数据、间隔数据和比例数据都可以用众数来描述它们的集中趋势。顺序数据、未分组的间隔数据和比例数据的众数计算方法和列名数据计算方法相同。对于分组的间隔数据和比例数据,其众数计算方法如下:表示众数,L表示众数所在的组下限,表示众数组次数与上一组次数之差。表示众数组次数与下一组次数之差。i表示众数组的组距,例题计算例2.2中的众数解:1)找到众数所在的组,也就是频数最多的组。在本例中,众数所在的组是400047992)按上述公式计算如下,注:不是在任何情况下,统计数据都有众数,有时统计数据没有众数。虽然众数可以用来度量顺序数据和数量数据(间隔数据和比例数据)但是顺序数据和数量数据不常用众数来度量它们的集中趋势,下面先介绍顺序数据集中趋势度量方法二、顺序数据:中位数和分位数中位数是数据排序后,位置在最中间的数值。例如我们有5个数,2,4,3,8,9,将它们排序后是2,3,4,8,9,处于中间位置的是4。因此这组数据的中位数是4若是偶数个数据,则取中间两位数据的算术平均数。例如有数据3,5,2,4,8,6,9,7排序后是2,3,4,5,6,7,8,9中间两位是5和6,中位数是(5+6)/2=5.5对于分组数据,可按下列公式来计算,其中N为样本数据的个数(样本容量),L表示众位数所在组的下限表示众位数所在组的以下各组的累计次数;表示中位数所在组的次数;i表示中位数所在组的组距。下面我们计算例2.2中的中位数解:1)找到中位数所在的组看N/2次落在哪组,不难看出,N/2次落在40004799这一组因此中位数一定落在这组,所以,L=4000,,i=799所求的中位数是4146.97,分位数的概念分位数是将统计数据等分成几个部分的数据。若等分成四个部分,称为四分位数,若等分成10个部分,称为十分位数,若等分成两个部分,称为中位数。下面以四分位数为例说明分位数的计算方法所谓四分位数是指把一组统计数据等分成四个部分的三个数据,由于中间的那个分位数是中位数,已经讲过,着重讲解上下两个四分位数。例题设有统计数据2,4,3,5,7,6,10,3,5,9,11,21,20,19,16,17,15解:首先将统计数据按升序排列为:2,3,3,4,5,5,6,7,9,10,11,15,16,17,19,20,21第一个四分位数(下四分位数)在N/4=17/4=4.25的位置,而4的,位置是4,5的位置是5,故4.25的位置是4.25,即下四分位数是4.25,即。上四分位数是在3/4的位置,即12.75的位置12的位置是15,13的位置是16,所以12.75的位置的数是15.75,故上四分位数。对于分组数据,上、下四分位数的计算公式分别是,下面讲解例2.2中上、下四分位数的计算解:以频率为标准来算N=100,N/4=25,3N/4=75,所以,下四分位数在24002799组内,上四分位数在56006399组内。,注:中位数和分位数主要是用来描述顺序数据的集中趋势,也可以用来描述数值型数据的集中趋势。但不能用来描述列名数据的集中趋势。对于数值型数据主要用均值来描述其集中趋势。数值型数据(间隔数据和比例数据):均值均值(mean)就是算术平均数,主要度量间隔数据和比例数据的集中趋势。对于未分组的数据,其均值是对于分组数据,用加权算术平均数来表示集中趋势,其中为第i组的次数,为第i组的组中值。例如在数2,4,9,3,4,2,中,其均值是(2+4+9+3+4+2)/6=4在例2.2中,其是分组数据,它的均值是五、几何平均数(Geometricmean)几何平均数是算术平均数的变形,即将几何平均值作对数变换,得到的结果是算术平均数。反之,将算术平均数作指数变换,得到几何平均数。几何平均值只适合比例尺度统计数据,其他数据都不适合。在经济学中,几何平均数主要用来计算社会经济问题的平均发展速度、平均增长率和平均收益率等方面。计算方法如下,设是比例尺度统计数据,则它们的几何平均数是例题讲解19982002年我国国内生产总值如下表所示年份19981999200020012002国内生产总值78345.282067.589468.197314.8104790.6各年发展速度计算公式是,年份,国内生产总值的发展速度%,1999,2000,2001,2002,104.75,109.02,108.77,107.68,将表中数据代人几何平均数公式得六、切尾均值切尾均值是去掉极端值(特大或特小值)后的均值,具体计算请大家自己看书。,2.5.7众数、中位数和均值的关系1、对称分布对于对称分布的统计数据,其均值、众数和中位数是相等的,反之,若在一组统计数据中,其均值、众数和中位数是相等的,则该组数据一定对称分布。如下图所示,二、右偏分布对于右偏分布的统计数据,其均值、众数和中位数的大小关系是均值大于中位数、中位数大于众数;反之,若在一组统计数据中,其均值大于中位数、中位数大于众数,则该组数据一定是右偏分布。如下图所示,三、左偏分布对于左偏分布的统计数据,其均值、众数和中位数的大小关系是众数大于中位数、中位数大于均值。;反之,若在一组统计数据中,其众数大于中位数、中位数大于均值,则该组数据一定是左偏分布。如下图所示,例题讲解3D是一种福利彩票,彩民购买一组3个号码,每个号码都是09的十个数字,若全部卖中,中奖1000元,每注彩票价格2元。下列数据是2005年至2007年3D中奖号码,用SPSS10.0分析中奖号码的基本特征。,作业:P59EX1EX6,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!