统计学原理(经典).ppt

资源描述

统计学教程,第一章绪论第二章统计调查与整理第三章综合指标第五章参数估计和假设检验第六章相关与回归第七章非参数检验第八章时间序列第九章指数,结束,第一章绪论,一、统计学的产生与发展二、统计学的研究对象和研究方法三、统计学的要素和内容四、统计测定的层次,主要内容,目录,二、统计学的研究对象和研究方法,（一）统计包含三种涵义，两重关系,1、统计工作：调查研究。资料收集、整理和分析。,2、统计资料：工作成果。包括统计数据和分析报告。,3、统计学：研究如何搜集、整理、分析数据资料的一门方法论科学。,统计工作统计资料统计学,工作与工作成果关系,实践与理论关系,统计学的性质：是一门适用于自然现象和社会现象的方法论学科。,统计学的研究对象：大量现象的数量方面。包括数量特征、数量关系、数量界限等。,（二）统计学的研究对象,（三）统计学的研究对象,1、大量观察法,是指对所研究的事物的全部或足够数量进行观察的方法。它可以使影响个体的偶然因素相互抵消，显示出现象的一般特征。其数理依据是反映随机现象基本规律的大数定律。,2、综合指标法,是从数量方面对现象总体特征的概括说明。综合指标法，就是运用各种综合指标对现象的数量特征、数量关系进行对比分析的方法。它是统计分析的基本方法。,3、统计推断法,是在一定置信程度（即可靠程度）下，根据样本资料的特征对总体特征作出估计和预测的方法。统计推断是现代统计学的基本方法。,一、统计学的产生与发展,产生,原始社会后期：统计萌芽于计数活动；奴隶制国家产生：使统计日显重要；封建社会时期：统计已具规模；资本主义的兴起：统计扩展到社会经济各方面。,统计学应运而生，统计学作为一门系统的科学，距今只有300多年的历史。,一、统计学的产生与发展,发展（三个时期）,（一）统计学的萌芽期（17世纪中18世纪中）,1、德国的记述学派（国势学派康令（16061681）阿痕瓦尔（17191772； 1764年首创统计学一词）,他们在大学中开设“ 国势学”采用记述性材料，讲述国家“ 显著事项”，籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。,（二）统计学的近代期（18世纪末19世纪末）,1、数理统计学派代表人物：法国的拉普拉斯，比利时的凯特勒。拉普拉斯把古典概率论引进统计学，发展了概率论，推广了概率论在统计中的应用。,2、政治算术学派代表人物：英国的威廉配第、约翰格朗特等。威廉配第的代表著政治算术对当时的英、荷、法等国的“ 国富和力量”进行了数量的计算和比较；格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。,凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人，有“ 统计学之父”之称。,2、社会统计学派代表人物：德国的克尼斯、恩格尔、梅尔等。他们强调统计学是研究社会现象的科学，包括统计资料的搜集、整理和分析研究，目的是要揭示现象内部的联系。,（三）统计学的现代期（20世纪初至今）,统计学的主流从描述统计学转向推断统计学。20世纪30年代R费希尔的推断统计理论标志着现代数理统计学的确立。,60年代以后统计学发展有三个明显的趋势：,1统计学依赖和吸收数学更多； 2以统计学为基础的边缘学科不断形成； 3与电子计算机技术相结合，应用范围更广，作用更大。,三、统计学的要素和内容,1、统计总体和总体单位,总体,统计研究所确定的客观对象，是具有共同性质的许多单位组成的整体。,无限总体：含无限多个单位,范围,有限总体：含有限个单位。,总体单位：组成总体的各个单位（或元素），是各项统计数字的原始承担者。,同质性：总体中各个单位具有某种共同的性质。,大量性：总体总是包含大量的单位。,（一）统计学的要素,特点,2、标志,标志,总体单位的属性、特征。,品质标志：用文字表示属性,分类,数量标志：用数字表示特征,不变标志：各单位具体表现相同,可变标志：各单位具体表现不同,指标：综合反映总体数量特征的概念和数值。,构成：指标名指标数值,特点：具体性；综合性,3、指标和指标体系,分类：数量指标；质量指标,描述指标；评价指标；预警指标,绝对数指标；相对数指标；平均数指标,在推断统计中：说明总体的指标也称参数。说明样本的指标称统计量。,指标体系：具有内在联系的一系指标构成的整体。,标志与指标的联系与区别：,联系（1）一些数量标志汇总可以得到指标的数值。,区别（1）标志是说明总体单位特征的，而指标是说统统计总体数量特征的；,（2）数量标志与指标之间存在变换关系。,（2）标志的具体表现，有的用数值有的用文字表示，而指标都是用数值表示的。,4、变量和变量值,变量,可变的数量标志和统计指标。,确定性变量,分类,随机性变量,离散性变量,连续性变量,变量值：即变量的具体数值，包括标志值和指标数值,社会经济现象中许多变量，既受确定性因素影响，又受随机性因素影响。要根据具体情况加以认定。,5、样本,是从总体中随机抽取部分单位所构成的集合体。,必须取自所要研究的总体；,特点,从一个总体中可抽取许多个样本，这些样本的数值是不同的，也即存在着随机的差异；,样本必须具有代表性；,样本必须具有客观性，也即排除主观因素的影响,6、推断：就是以样本信息为依据对总体的某些特征作出预测和估计。,7、推断的可靠性：根据随机抽取的样本对总体推断所得出的结果的可靠程度，也称置信度。,（二）统计学的内容,1、描述统计,指搜集、整理、分析并提供统计资料的理论和方法。,主要任务：使反映客观事物的统计数据可以一目了然，条理清晰，使用方便，可以说明现象的数量特征和数量关系。,2、推断统计,是只依据样本资料推断总体特征的技术和方法，包括参数估计和假设检验的方法。,描述统计是推断统计的前提，推断统计是描述统计的发展。,四、统计测定的层次,统计测定（measurement),即对总体数量特征的量度，包括登记、分类、标示、计算等。,四个测定层次的比较,1,2,3,4,量化等级,功能包容,1,2,3,4,测定层次,特征,运算功能,举例,1、定名测定 2、序列测定 3、间距测定 4、比率测定,分类分类；排序分类；排序；有基本测量单位分类；排序；有基本测量单位；有绝对零点,计数计数；排序计数；排序；加减计数；排序；加减乘除,产业分类企业等级产品质量差异商品销售额,第二章统计调查与整理,统计调查,统计整理,统计分析,有组织、有计划地搜集资料。要求：准确、完整、及时,对调查资料去伪存真、去粗取精、科学分类、浓缩简化,描述性分析推断分析、决策分析。要求：定性定量结合,统计工作的三个中心阶段,统计调查,一、调查组织方式,统计调查,二、调查方案设计,报表制度,普查,重点调查,典型调查,抽样调查,方案内容,调查表、问卷设计,制度化的经常性调查,专门组织调查,全面调查,非全面调查,一、统计调查的组织方式,统计报表制度,由政府部门组织，采用统一的表格，自上而下布置，自下而上报告。,任务：,搜集国民经济和社会发展基本情况的资料，为制订国民经济和社会发展计划和检查计划执行情况服务。,优点：,精心周密设计、高度统一、规范。回收率高，内容相对稳定，便于资料积累、对比。层层上报、逐级汇总，可以满足各部门需要。,特点：,普查,特点：,工作量大，时间性强，需要大量人力和财力。,任务：,搜集重要的国情国力和资源状况的全面资料，为政府制定规划、方针政策提供依据。,方式：,建立专门机构，配备专门人员调查。,利用基层单位原始记录和核算资料发表调查。,原则：,规定统一的标准时点。,规定统一的普查期限。,规定调查的项目和指标。,重点调查,特点：,在总体中选择个别或部分重点单位进行调查。,任务：,及时了解总体基本情况，为主管部门指导工作服务。,方式：,一次性调查；专门设计和备配人员现场调查。,重点单位指在总体中有举足轻重地位的单位，其标志值在总体标志总量中占有绝大比重。,经常性调查；同报表制度结合，用统计报表调查。,典型调查,特点：,在全面分析的基础上，有意识地选择代表性的典型单位进行现场调查。,任务：,为研究某种特殊的社会经济问题，搜集详细的第一手资料，借以认识事物的本质特征、因果关系、变化趋势。为理论和政策性问题研究提供依据。,作用：,适宜于研究处于萌芽状态事物和倾向性问题；,适宜于分析事物的类型，它们之间的差别和关系。,方法：,“解剖麻雀；划类选典；抓两头”。,抽样调查,特点：,1按随机原则从总体中抽取样本；,2以样本指标（统计量）为依据推断总体参数或检验总体的某种假设；,3抽样误差可以事先计算并加以控制。,调查误差,登记性误差,代表性误差,编差,随机误差,抽样平均误差,实际误差,统计推断中的抽样误差就是抽样平均误差。它是处于调查所固有的，是对抽样推断精确度的量度。,影响抽样误差的因素,样本容量,抽样方式,总体内部差异,抽样调查的组织方式：,1简单随机抽样（纯随机抽样）,方法：将总体单位编成抽样框，而后用抽签或随机数表抽取样本单位。,适用：总体规模不大；总体内部差异小,2类型抽样（分层抽样）,方法：将总体全部单位分类，形成若干个类型组，后从各类型中分别抽取样本单位，合成样本。,总体 N,样本 n,等额,等比例,最优,3等距抽样（机械抽样）,方法：将总体单位按某一标志排序，而后按一定的间隔抽取样本单位。,排序依据的标志：（1）无关标志；（2）有关标志,（总体单位按某一标志排序）,4整群抽样,方法：将总体全部单位分为许多个“群”，然后随机抽取若干“群”，对被抽中的各“群”内的所有单位登记调查。,例：,总体群数R=16 样本群数r=4 样本容量,例：,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,例：,在某省100多万农户抽取1000户调查农户生产性投资情况。,5多阶段抽样,第一阶段：从省内部县中抽取5个县,第二阶段：从抽中的5个县中各抽4个乡,第三阶段：从抽中的20个乡中各抽5个村,第四阶段：从抽中的100个村中各抽10户,样本n=10010=1000(户),抽样方法,1放回抽样：抽出样本单位登记后放回总体，再抽时总体不变,2不放回抽样：抽出样本单位登记后不放回总体，再抽时总体渐次减少,二、调查方案统计,调查方案的主要内容,1、确定调查目的,2、确定调查对象和调查单位,3、拟订调查提纲,4、确定调查时间,5、编制调查的组织计划,调查表与问卷设计,调查表,单一表,一览表,例：工业企业统计报表,问卷结构：说明词 + 主题词句 + 作业记录,例：人口普查登记表,问卷设计,基本要求：,主题明确，形式简明，文字通俗，容易理解，便于回答。词句编排，层次分明，先易后难。,问卷形式：,开放式词句对选式词句多项选择式词句顺位式词句标度式词句,案例,统计整理,主要任务,资料审核、分组、汇总、制表、制图等。,分组,频数分布,统计表,统计图,分组,分组前,分组后,25,33,42,1划分现象类型,作用：,例：按所有制性质划分，我国现有8种经济类型：国有经济；集体经济；私营经济；个体经济联营经济；股份制经济；外商投资经济；港澳台投资经济,2研究总体结构,例：上海市按GDP计算的三次产业结构（%） 1980年1990年 1996年1997年 GDP100 100 100 100 第一产业3.2 4.32.5 2.3 第二产业75.7 63.854.5 52.2 第三产业21.1 31.943.0 45.5,3研究现象之间的依存关系,例：中国农民家庭按收入分组的恩格尔系数（1984年）,按收入分组（元） 200 300 400 500 600 800 1000 恩格尔系数（%） 64.9 60.2 56.7 54.4 50.5 49.9 43.6,分组标志的选择与分组形式,关键：服从研究任务需要，反映总体本质特征,形式,按分组标志性质分,品质标志分组,数量标志分组,按分组标志个数分,简单分组,复合分组,分组体系,频数分布（分布数列）,是一种重要的分组资料，反映总体单位在各组的分布状态。,基本形式：,分组,单位数,频率,合计,100,频数分布,频率分布,分类,品质数列,变量数列,单项数列,组距数列,等距数列,异距数列,例,例,例,例,变量数列的编制,1计算极差,2确定形式,单项数列：离散型且取值不多。,组距数列：离散型且取值多或连续型。,3组距数列：组距；组数；,4计算各组频数，频率，累计频数，累计频率等。,5组中值的计算：闭口组；开口组,统计表,构成,总表题,横行标题：统计研究的对象。也称主词。,纵栏标题：说明主词的指标名。也称宾词。,数字资料,分类,主词,简单表,分组表,复合表,宾词,平行形式,交叉形式,编制规则：,统计图,直方图,等距数列：（变量，频数）,异距数列：(变量，频数密度),折线图,曲线图,等距数列：（组中值，频数）,异距数列：（组中值，频数密度）,单项数列：（变量，频数）,向上累计分布：（变量上限，累计频数）,向下累计分布：（变量下限，累计频数）,变量的组数无限增多时，折线便趋于一条光滑的曲线。,P55 图25,图形,某厂职工人数统计表,按性别分组,男职工,女职工,合计,人数（人）,（频数）,比率（）,（频率）,253,115,368,68.75,31.25,100.00,返回,某厂职工家庭人口分组统计,按家庭人口分组,1,合计,职工户数,（频数）,比率（）,（频率）,7,返回,2,3,4,5,6,38,105,54,31,20,2.9,15.2,41.3,20.5,12.1,8.0,255,100,第三章综合指标,一、综合指标概述二、总量指标（绝对数指标）三、相对数指标（相对数）四、平均数指标（平均数）五、标志变异指标,主要内容,案例,一、综合指标概述,统计指标,统计指标是综合反映统计总体数量特征的概念和数值。,指标名称,指标数值,反映总体某一方面的质的规定性,是对总体本质特征的一种概括。,是总体量的规定性在一定时间、地点、条件下的具体表现。,统计指标,重要特点：具体性；综合性,描述指标评价指标监测指标,分类,数量指标质量指标,绝对数指标相对数指标平均数指标,指标体系,具有内在联系的一系列指标所构成的整体，即称为指标体系。,分类,社会指标体系经济指标体系科技指标体系,基本统计指标体系,是针对某项社会经济问题而制定的专项指标体系，如工业经济效益指标体系、价格指标体系等。,专题统计指标体系,二、总量指标（绝对数指标）,概念,总量指标是反映社会经济现象总规模、总水平的总和指标。,（1）反映国情、国力和企事业单位人、财、物的状况；,（3）是计算相对指标和平均指标的基础。,（2）是国民经济宏观管理和企业经济核算的基础性指标，是实行目标管理的工具；,作用,分类,按反映总体的内容分,按反映的时间状态分,（1）社会总产品，（2）增加值，（3）国内生产总值（GDP）,按计量单位分,国民经济统计中几个重要的生产总量指标,标志总量总体单位总数,时期总量时点总量,实物量劳动量价值量,三、相对指标（相对数）,概念,相对指标是两个有联系的指标对比的比值，反映事物的数量特征和数量关系。,（1）反映总体内在的结构特征,（3）反映事物发展变化的过程和趋势。,（2）用于不同对象的比较评价；,作用,种类,计划完成相对数,结构相对数,比例相对数,比较相对数,强度相对数,动态相对数,六种相对数指标的比较,不同时期比较,动态相对数,强度相对数,不同现象比较,不同总体比较,比较相对数,同一总体中,部分与部分比较,部分与总体比较,实际与计划比较,比例相对数,结构相对数,计划完成相对数,同一时期比较,同类现象比较,应用原则,（1）正确选择对比的基数；（2）必须注意统计的可比性；（3）相对指标要与总量指标相结合。,四、平均指标（平均数）,概念,平均指标反映同类现象的一般水平，是总体内各单位参差不齐的标志值的代表值，也是对变量分布集中趋势的测定。,数据集中区,变量x,常用的几种平均数,概念计算公式特点,优点：容易理，便于计算灵敏度高稳定性好和缺点：易受极值影响在偏斜分布和U形分布中，不具有代表性,1. 算术平均数（）,标志总量与总体单位总数的比值,简单：,加权：,常用的几种平均数,概念计算公式特点,优点：灵敏度高在某种不能计算的条件下，可以代替缺点：不易理解易受极值影响有“ 0”值时不能计算,2. 调和平均数（）,标志值倒数平均数的倒数,简单：,加权：,常用的几种平均数,概念计算公式特点,优点：灵敏度高受极值影响小于和适宜于各比率之积为总比率的变量求平均缺点:有“ 0”或负值时不能计算偶数项数列只能用正根,3. 几何平均数（）,几个变量值连乘积的几次根,简单：,加权：,常用的几种平均数,概念计算公式特点,4. 中位数（Me）,标志值由小到大顺序排列中居中间位置的标志值位置平均数,上限公式：,下限公式：,优点：容易理解，不受极值影响适宜于开口组资料和些不能用数字测定的事物缺点：灵敏度和计算功能差间断数Me,常用的几种平均数,概念计算公式特点,5. 众数（Mo）,分配数列中出现次数最多的标志值位置平均数,上限公式：,下限公式：,优点：容易理解，不受极值影响缺点：灵敏度和计算功能差稳定性差具有不唯一性,要点解释,权数（Weighted），是分布数列中的频数或频率。对求平均数具有权衡轻重的作用，是影响平均数变动的两个因素之一（另一因素是变量值）。,权数,例,(1),(2),(3),X,4,5,6,合计,频数,频率(%),10,20,10,25.0,50.0,25.0,40,100.0,X,4,5,6,合计,频数,频率(%),20,40,20,25.0,50.0,25.0,80,100.0,X,4,5,6,合计,频数,频率(%),20,10,10,50.0,25.0,25.0,80,100.0,=5,=5,=4.75,调和平均数与算术平均数的区别,例,频率分布变了，均值也变。因此，严格地说，权数应指频率。,凡是掌握被平均指标的分母资料时，用算术平均法。,凡是掌握被平均指标的分子资料时，用调和平均法。,平均指标,分子：标志总量,分母：总体单位总数,几何平均等于对数的算术平均,例,组矩数列求中位数,是用插值法对中位数组分割的结果。,例,组距数列求众数,是以频数之差计算的比例分割众数组组距的结果。,例,价格（元）,3.3,2.5,2.0,合计,销售量（斤）,3,4,5,12,算术平均,求某种商品三种零售价格的平均价格,调和平均,价格（元）,3.3,2.5,2.0,合计,销售额（元）,10,10,10,30,返回,例求95%、93%、90%的几何平均数,（计算误差：0.0007）,返回,例（书上例11的资料）,返回,分组：500 800 1100 1400 1700 2000 频数：4090110105705035,d1=20 d2=5,众数组8001100,求比例：d1/（d1+d2）=20/（20+5）=0.8,分割众数组的组距：0.8（1100-800）=240（元）,下限公式,加下限，即M0=800+240=1040（元）,下页,返回,500,800,1100,1400,1700,2000,50,100,150,f （人数）,月收入：元,1040,上页,d1,d2,例（书上例11的资料）,返回,求比例：250-240/（345-240）=0.095,分割中位数组的组距：1400-1100）0.095=28.5,下限公式,加下限，即Me=1100+28.5=1128.5（元）,下页,标志值由小到大,分组：500 800 1100 1400 1700 2000 频数：40 90 110 105 70 50 35 累计频数：40 130 240 345 415 465 500,中位数位置：,500/2=250,返回,500,800,1100,1400,1700,2000,f/2=250,月收入：元,1128.5,累计人数（f）=500,40,130,240,345,415,465,500,上页,位置平均数与算术平均数的关系,X,f,X,f,X,f,(对称分布),正偏态分布（右）,负偏态分布(左）,在偏斜不大时,1,2,1,2,应用平均指标的原则,1必须是同质的量方可平均；,2总平均数与组平均数结合分析；,3根据具体条件选择平均方法；,4平均数与典型值和分配数列结合分析；,5集中趋势与离散趋势结合分析,某厂职工人数统计表,按人数分组,510,1116,合计,人数（人）,（频数）,比率（）,（频率）,5,12,3,25.0,51.0,4.0,返回,1722,20,100,某厂职工人数统计表,按人数分组,510,1119,合计,人数（人）,（频数）,比率（）,（频率）,5,12,3,25.0,51.0,4.0,返回,2022,20,100,上海市总人口数（19801991）,年份,1980,年末总人口,1146.52,返回,年份,年末总人口,1981,1982,1983,1984,1985,1986,1987,1988,1989,1991,1990,1162.84,1180.51,1194.01,1204.78,1216.69,1232.33,1249.51,1262.42,1276.45,1283.35,1287.20,返回,上海市城市居民消费与投资倾向调查问卷尊敬的先生、女士：我们是上海财经大学的学生。为了积极参与贯彻国家关于扩大内需推动经济增长的方针和理论与实践相结合的教育原则，在老师指导下我们组织了这次千户居民的社会调查。请您给予支持。调查不记名，全部资料用计算机处理，绝对保密和安全，您只需在符合您的情况的答案上打个勾，化费几分钟时间。谢谢！,返回,下页,（1）您家是否已经拥有下列耐用家电设备 1、彩电，2、组合音箱， 3、VCD（或DVD）， 4、冰箱， 5、空调，6、电脑（2）您家的住房是： 1、租赁公房，2、有产权公房， 3、新商品房， 4、其他（请注明）（3）您家今明两年是否准备以下项目支出： 1、购买家电设备 5、现有住房装修 2、购买成套家俱 6、支付子女教育费 3、购买汽车 7、国内或国际旅游 4、购买（或置换）房屋,返回,下页,上页,（4）您今明两年不准备上列大项目支出的主要原因是：（选填3项） 1、没有必要5、售后服务差 2、经济不宽裕6、价格不合理 3、品牌不中意7、其他（请注明） 4、质量信不过（5）您购买商品考虑的主要因素是： 1、实用价值4、品牌 2、商品质量 5、售后服务 3、价格（请按您认为的重要性在中写上位序）,返回,下页,上页,（6）您家平均每月总收入是： 1、500元以下5、20003000元 2、5001000元6、30005000元 3、10001500元7、50008000元 4、15002000元8、8000元以上（7）您家平均每月日常生活费开支是元 A、其中用于吃（食品）支出大约是元（8）您认为您家近几年生活水平是 1 2 3 4 5 提高很多略有提高没有变化略有下降下降很多,返回,下页,上页,（9）您收入节余用予以下哪些项？各项约占多大比重？ 1.银行储蓄（）% 4.其他债券（）% 2.国债(国库卷) （）% 5.股票（）% 3.基金（）% 6.保险（）% 7.其他（）% （10）您存钱的主要目的是： 1、购买设备 4、子女教育 2、购买住房 5、养老防病 3、结婚 6、旅游（请按你认为的重要性在中写位序）,返回,下页,上页,（11）您是否了解现在推行的信贷消费 1、不了解，2、了解一点，3、了解， 4、很了解（12）您是否打算参加信贷消费： 1、是，2、不（跳过第13问题）（13）您信贷消费的项目是（）（请按第3题的编号填写）,返回,下页,上页,（14）您是否同意下列看法：很同无不很同意所同不意谓意同意 1、信贷消费不合中国国情 2、信贷消费是资本主义国家的做法 3、信贷消费是先甜后苦 4、借债享受有风险 5、借债消费不光彩 6、信贷消费是现代通行的做法 7、只要量力借贷，有利无害 8、发展信贷消费能促进经济增长,返回,下页,上页,（15）最后，了解一下您的基本情况 A、您的性别：1、男，2、女 B、您的年龄：周岁 C、您的文化程度：1、不识字或识字不多， 2、小学 3、初中 4、高中或中专，5、大专或大学以上 D、您家庭人口数人其中D（1）在业人；D（2）离退休人； D（3）失业、下岗人； D（4）在校学生人 E、您的职业（见卡片） F、职务,返回,上页,统,学,教,程,计,上海财经大学统计系编制,制作人凌洁,五、标志变异指标（Dispession）,概念,标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。,（1）反映变量分布的离散趋势；,（3）是对事物发展均衡性的量度。,（2）是对平均数的代表性程度的量度；,作用,常用的几种标志变异指标,概念计算特点,数列中最大值与最小值之差,1极差（R）,R=最大值-最小值,优点：容易理解，计算方便缺点：不能反映全部数据分布状况,2平均差（A、D）,各标志值与均值离差绝对值的算术平均,简单：,加权：,优点：反映全部数据分布状况缺点：取绝对值，数字上不尽合理,概念计算特点,各标志值与均值离差平方的平均。方差的平方根（取正根）,3方差（2）和标准差(),优点：反映全部数据分布状况，数字上合理。缺点：受计量单位和平均水平影响，不便于比较,4标准差系数（V）,标准差与均值之商，是无量纲的系数,简单：,加权：,优点：适宜不同数据集的比较缺点：对数据结构变化反应不灵敏,方差（2）和标准差（）是应用最广的标志变异指标,2和的简易计算公式,由组方差（或组标准差）求总方差（或总标准差）,平均组内方差,组间方差,标准差的应用,测定分布的偏度,1.偏度系数,SK=0,SK0,SK0,(对称分布),正偏态分布（右）,负偏态分布(左）,2.偏度系数,(m3三阶中心矩),定义M=(X-A)k/n为变量X关于A的k阶矩。,当A=0，即以原点为中心，上式称为“K阶原点矩”。,K=1，2，3时，有：,一阶原点矩M1=(X-0)1/n=X/n 二阶原点矩M2=(X-0)2/n=X2/n 三阶原点矩M3=(X-0)3/n=X3/n,当A= ，即以为中心，上式称为“K阶中心矩”。,K=1，2，3时，有：,一阶中心矩二阶中心矩三阶中心矩,所以，m3可以测定偏度。为消除量纲，转变为系数，再除以3。,0正偏态,计算标准分,即将原始分数X经过线性变换转变为标准分Z。反映各原始分的平均数为中心的相对位置。,X,O,任何原始分在总体中的位置，用Z倍的来测定。,计算抽样误差（以平均指标为例）,设：,抽样误差就是样本平均数分布数列的标准差。,第五章参数估计和假设检验,推断统计：利用样本统计量对总体某些性质或数量特征进行推断。,随机原则,总体,样本,总体参数,统计量,推断估计,参数估计,检验,假设检验,抽样分布,抽样分布,简单随机抽样和简单随机样本的性质,无限总体,有限总体,不放回,放回,样本,样本,放回,不放回,样本,样本,独立性和同一性,同一性,当n/N5%时，有限总体不放回抽样等同于放回抽样,无限总体,统计量与抽样分布,统计量：即样本指标。,样本均值,样本成数,样本方差,如：,抽样分布：,某一统计量所有可能的样本的取值形成的分布。,性质,数字特征,0P（Xi）1,P（Xi）=1,均值E（X）,方差Ex-E(x)2,方差的平方根即抽样分布的标准差就是推断的,抽样误差。,样本均值的抽样分布（简称均值的分布）,抽样,总体,样本,均值,X,(N),均值=Xi/N,x,(n),样本均值是样本的函数，,故样本均值是一个统计量，,统计量是一个随机变量，,它的概率分布称为样本均,值的抽样分布。,均值分布的数学期望和方差,抽样方法均值方差标准差,（1）从无限总体抽样和有限总体放回抽样,（2）从有限总体不放回抽样,抽样误差,抽样误差,从正态总体中抽样得到的均值的分布也服从正态分布。,从非正态总体中抽样得到的均值的分布呢？,中心极限定理：无论总体为何种分布，只要样本n足够大（n30），均值（）标准化为（z）变量，必定服从标准正态分布，均值（）则服从正态分布，即：,两个样本均值之差的抽样分布,抽样,总体,样本,X1,(N1),x1,(n1),抽样,总体,样本,X2,(N2),x2,(n2),估计,（1）如：,（2如果两个总体都是非正态总体，只要n1、n2足够大，根据中心极限定理，可知：,样本成数（即比例）的抽样分布（简称成数的分布）,抽样,总体,样本,成数,X,(N),成数P=Ni/N,x,(n),所有可能的样本的成数（）所形成的分布，称为样本成数的抽样分布。,成数分布的数学期望和方差,抽样方法均值方差标准差,（1）从无限总体抽样和有限总体放回抽样,（2）从有限总体不放回抽样,根据中心极限定理，只要样本足够大，的分布就近似正态分布。（np和nq大于5时）,抽样误差,抽样误差,两个样本成数之差的抽样分布,抽样,总体,样本,X1,(N1),x1,(n1),抽样,总体,样本,X2,(N2),x2,(n2),估计,当n1、n2都足够大时，样本成数都近似服从正态分布，两个样本成数之差（）也近似服从正态分布。,P1-P2=？,一个样本方差的抽样分布,抽样,总体,样本,若:从一个正态总体中抽样所得到的样本方差的分布,n,S2,则,当,则,两个样本方差之比的抽样分布,抽样,总体,样本,从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。,n1,S12,则,抽样,总体,样本,n2,S22,参数估计,点估计,以样本指标直接估计总体参数。,评价准则,的数学期望等于总体参数，即,该估计量称为无偏估计。,无偏性,有效性,当为的无偏估计时，方差越小，无偏估计越有效。,一致性,对于无限总体，如果对任意,则称,的一致估计。,是,充分性,一个估计量如能完全地包含未知参数信息，即为充分量,估计量,区间估计,估计未知参数所在的可能的区间。,评价准则,随机区间,置信度,精确度,随机区间,包含,（即可靠程度）越大越好。,的概率,的平均长度,（误差范围）越小越好,一般形式,或,总体参数,估计值,误差范围,：一定倍数的抽样误差,例如：,抽样误差,一定时，,越大，,概率（可靠性）大；,随之增大，,精确度就差。,抽样组织方式和参数的区间估计,简单随机抽样,待估计参数,已知条件,置信区间,正态总体，2已知,正态总体，2未知,非正态总体，n30,有限总体，n30 （不放回抽样）,总体均值（）,未知时，用S,未知时，用S,两个正态总体,已知,两个正态总体,未知但相等,两个非正态总体,n1，n230,两个总体均值之差 1-2,简单随机抽样,待估计参数,已知条件,置信区间,无限总体， np和nq都大于5,总体成数（p）,无限总体， N1P15, n1q15 N2P25, n2q25,两个总体成数之差（P1-P2）,有限总体， np和nq都大于5,有限总体， N1P15, n1q15 N2P25, n2q25,简单随机抽样,待估计参数,已知条件,置信区间,正态总体,总体方差,两个正态总体,两个总体方差之比,分层随机抽样,待估计参数,已知条件,置信区间,有限总体不放回抽样（n等比例分配于各层）各层nh30,总体均值（）,有限总体不放回抽样（n等比例分配于各层）各层nh30,总体成数(P),总体 N,样本 n,均值：,平均层内方差：,置信区间,抽样误差,估计,整群随机抽样,待估计参数,已知条件,置信区间,有限总体不放回抽样，样本群数r足够大,总体均值（）,有限总体不放回抽样，样本群数r足够大,总体成数(P),总体群数R,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,样本群数 r,估计,均值：,群间方差：,置信区间,抽样误差,样本数的确定,待估计参数,已知条件,样本数的确定,正态总体，2已知,总体均值（）,例：误差范围,简单随机抽样,有限总体，不放回抽样， 2已知,总体成数（P）,服从正态分布,有限总体，不放回抽样,待估计参数,已知条件,样本数的确定,总体均值（）,分层抽样,总体均值（）,整群抽样,有限总体不放回抽样，等比例分配样本,有限总体不放回抽样，服从正态分布,未知用,未知用,案例,假设检验,基本思想,检验规则,检验步骤,常见的假设检验,基本思想,小概率原理：,如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。,总体（某种假设）,抽样,样本（观察结果）,检验,（接受）,（拒绝）,小概率事件未发生,小概率事件发生,假设的形式：,H0原假设， H1备择假设,双尾检验：H0：=0 ， H1：0,单尾检验： H0：0 ， H1：0 H0：0 ， H1：0,假设检验就是根据样本观察结果对原假设（H0）进行检验，接受H0，就否定H1；拒绝H0，就接受H1。,检验规则,确定检验规则,检验过程是比较样本观察结果与总体假设的差异。差异显著，超过了临界点，拒绝H0；反之，差异不显著，接受H0,差异,临界点,拒绝H0,接受H0,c,c,判断,两类错误,接受或拒绝H0，都可能犯错误,I类错误弃真错误，发生的概率为,II类错误取伪错误，发生的概率为,检验决策 H0为真 H0非真,拒绝H0 犯I类错误（）正确,接受H0 正确犯II类错误（）,怎样确定c?,大就小，小就大,基本原则：力求在控制前提下减少,显著性水平，取值：0.1, 0.05, 0.001, 等。如果犯I类错误损失更大，为减少损失，值取小；如果犯II类错误损失更，值取大。,确定，就确定了临界点c。,设有总体：XN（，2），2已知。,随机抽样：样本均值,标准化：,确定值，,查概率表，知临界值,计算Z值，作出判断,0,接受区,拒绝区,拒绝区,当检验判断为接受原假设H0时，就有可能犯取伪的错误即II类错误。犯II类错误的概率计算： (1)先求出拒绝H0的临界值； (2)再求得在统计量真实的抽样分布下达到临界值的概率。统计中，称不犯取伪错误的概率1-为统计检验的能力或效力。,II类错误的概率的计算,检验步骤,建立总体假设 H0，H1,抽样得到样本观察值,1,2,选择统计量确定H0为真时的抽样分布,3,根据具体决策要求确定,确定分布上的临界点C和检验规则,计算检验统计量的数值,比较并作出检验判断,7,4,5,6,几种常见的假设检验,总体均值的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0：=0 H1：0,z,(2) H0：0 H1：0,(3) H0：0 H1：,z,0,z,0,正态总体2已知,总体均值的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0：=0 H1：0,t,(2) H0：0 H1：0,(3) H0：0 H1：,t,0,t,0,0,正态总体2未知(n30),总体均值的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0：=0 H1：0,z,(2) H0：0 H1：0,(3) H0：0 H1：,z,0,z,0,0,非正态总体n30 2已知或未知,两个总体均值之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0： 1=2 H1: 1 2,z,(2) H0：1 2 H1: 1 2,(3) H0： 1 2 H1：1 2,z,0,z,0,0,两个正态总体,已知,两个总体均值之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0: 1 = 2 H1: 1 2,t,(2) H0: 1 2 H1: 1 2,(3) H0： 1 2 H1： 1 2,t,0,t,0,0,两个正态总体,未知，但相等,两个总体均值之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0：1 = 2 H1：1 2,(2) H0：1 2 H1：1 2,(3) H0：1 2 H1：1 2,0,z,0,0,两个非正态体n130 n230,已知或未知,z,z,一个总体方差的检验,条件,检验条件量,拒绝域,H0、H1,总体服从正态分布,两个总体方差之比的检验,条件,检验条件量,拒绝域,H0、H1,总体服从正态分布,F,F,F,总体成数的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0：P=P0 H1：PP0,z,(2) H0：PP0 H1：PP0,(3) H0：PP0 H1：PP0,z,0,z,0,0,np5 nq5,两个总体成数之差的检验,条件,检验条件量,拒绝域,H0、H1,(1) H0：P1=P2 H1：P1 P2,z,(2) H0： P1 P2 H1：P1 P2,(3) H0：P1 P2 H1：P1 P2,z,0,z,0,0,n1p15 n1q15 n2p25 n2q25,案例,相关分析回归分析,第六章相关与回归,相关和回归分析是研究事物的相互关系，测定它们联系的紧密程度，揭示其变化的具体形式和规律性的统计方法，是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,主要内容,相关分析,概念,种类,线性相关,变量之间关系,函数关系,相关关系,因果关系,互为因果关系,共变关系,确定性依存关系,随机性依存关系,种类,一元相关,多元相关,负相关,正相关,线性相关,曲线相关,x,y,正相关,x,y,负相关,x,y,曲线相关,x,y,不相关,线性相关,相关系数,测定两变量是否线性相关？,定义式：,未分组：,已分组：,值：,|r|=0 不存在线性关系； |r|1 完全线性相关 0|r|1不同程度线性相关(00.3 微弱；0.30.5 低度； 0.50.8 显著；0.81 高度),符号：r0 正相关；r0 负相关,计算公式,相关系数的检验（t检验）,检验统计量,案例,回归分析,特点,线性回归,非线性回归,回归分析和相关分析的联系和区别,1理论和方法具有一致性；,2无相关就无回归，相关程度越高，回归越好；,3相关系数和回归系数方向一致，可以互相推算。,1相关分析中，x与y对等，回归分析中，x与y要确定自变量和因变量；,2相关分析中x，y均为随机变量，回归分析中，只有y为随机变量；,3相关分析测定相关程度和方向，回归分析用回归模型进行预测和控制。,线性回归,一元线性回归模型,1一元线性回归模型的一般形式,总体一元线性回归模型的一般形式,Y的数学期望E（Y）,随机误差,也称一元线性回归方程，是对应于自变量X,某一取值时因变量Y的均值。,未知参数,样本的一元线性回归模型和回归方程,一元线性回归模型,一元线性回归方程,截距,斜率（回归系数）,回归系数b表明自变量x每变化一个单位因变量y的增（减）量。,b与r的关系：,r0 r0 r=0 b0 b0 b=0,是理论模型，表明x与y两变量之间的平均变动关系。,（实际值）：,X对y的线性影响而形成的系统部分，反映两变量的平均变动关系，即本质特征。,随机干扰：各种偶然因素，观察误差和其他被忽视因素的影响。,的理论假定,值相互独立,服从正态分布,的数学期望E（）0,的方差,都相同，且,x,y,2一元线性回归模型的确定,根据实际数据，用最小平方法，即使，分别对a、b求编导并令其为零，求得两个标准方程：,解联立方程，得到,3一元线性回归模型拟合优度的评价,判定系数（r2）,是对回归模型拟合优度的评价。,x,y,总偏差 = 回归偏差 + 剩余偏差,r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。,r 的符号同 b,估计标准误（Sxy）,Sxy是二元正态分布中因变量实际值（yj）对估计值（）离散程度的量度。,Sxy 越小，拟合越好； Sxy 越大，拟合越差。 Sxy也是用自变量对因变量进行区间估计的抽样误差。,68.27% 94,45% 99.73%,4一元线性回归模型的显著性检验,回归系数b的检验,设总体回归系数为,H0：=0；H1：0,n30时,检验统计量,（=0）,b是样本回归系数抽样分布的标准差。通常是未知的，用其估计量代替。,给定显著性水平，查Z表可知其临界值。,n30时,（=0）,给定显著性水平，查t表可知其临界值。,0,0,Z,t,回归模型整体的F检验,H0：R2=0；H1：R20,检验统计量,F,检验假设,案例,5应用一元回归模型进行区间估计,n30时,给定x0，y0的置信度（1-）的置信区间为：,n30时,x,y,X0,0,给定的x0越接，y值估计的精确度越高。,平均值估计,n30时,特定值估计,线性回归,多元线性回归模型,1多元线性回归模型的性质与模型的确定,二元线性回归模型：,总体多元线性回归模型的一般形式,Y的数学期望E（Y）,随机误差,表明自变量,共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。,常数项，,和Y构成的平面与Y轴的截距,偏回归系数，表示在固定时每变化一个单位引起的Y的平均变动；,案例,偏回归系数，表示在固定时每变化一个单位引起的Y的平均变动；,随机误差，其理论假定与一元线性回归模型中的一样。,在多元回归模型中，还要求各自变量之间不存在显著相关，或高度相关也即不得存在多重共线性。,样本多元线性回归模型的一般形式,二元线性回归模型为：,其数学期望,也称样本（或估计的）二元线性回归方程。,二元线性回归方程的确定,根据实际资料，用最小平方法，即使，分别对a、b1、b2求编导并令其为零，求得三个标准方程：,解此联立方程便可得到a、b1、b2。,2多元线性回归模型的判定系数和估计标准误,判定系数,0r21,修正的判定余数：,估计标准误（Sy（x1、x2）,r2和Sy（x1、x2）都是对回归模型拟合优度的评价指标。 Sy（x1、x2）也是用自变量对因变量进行区间估计的抽样误差。,3多元回归模型的显著性检验,对偏回归系数的t检验,H0: 1=0 , H1: 10;H0: 2=0,H1: 20。,检验统计量：,按显著性水平和自由度（n-3）查t表可得到临界值,t,0,模型整体的F检验,检验统计量：,（k自变量个数）,或,按给定的和自由度（2）和（n-3）查F表可得到临界值,F,4多元回归中的相关分析,复相关：指一个因变量同多个自变量的相关关系。,复相关系数恒取正值。,偏相关

展开阅读全文

统计学原理(经典).ppt

最新文档