资源描述
统计程学教,jkjkkklkjk单击以编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计学教程,第一章 绪论,第二章 统计调查与整理,第三章 综合指标,第五章 参数估计和假设检验,第六章 相关与回归,第七章 非参数检验,第八章 时间序列,第九章 指数,结束,第一章 绪论,一、统计学的产生与发展,二、统计学的研究对象和研究方法,三、统计学的要素和内容,四、统计测定的层次,主要内容,目录,二、统计学的研究对象和研究方法,(一)统计包含,三种涵义,两重关系,1、统计工作:调查研究。资料收集、整理和分析。,2、统计资料:工作成果。包括统计数据和分析报告。,3、统计学:研究如何搜集、整理、分析数据资料的一,门,方法论,科学。,统计工作,统计资料,统 计 学,工作与工作成果关系,实践与理论关系,统计学的性质:是一门适用于自然现象和社会现象的方法论学科。,统计学的研究对象:大量现象的数量方面。包括数量,特征、数量关系、数量界限等。,(二)统计学的研究对象,(三)统计学的研究对象,1、大量观察法,是指对所研究的事物的全部或足够数量进行观察的方法。它可以使影响个体的偶然因素相互抵消,显示出现象的一般特征。其数理依据是反映随机现象基本规律的大数定律。,2、综合指标法,是从数量方面对现象总体特征的概括说明。综合指标法,就是运用各种综合指标对现象的数量特征、数量关系进行对比分析的方法。它是统计分析的基本方法。,3、统计推断法,是在一定置信程度(即可靠程度)下,根据样本资料的特征对总体特征作出估计和预测的方法。统计推断是现代统计学的基本方法。,一、统计学的产生与发展,产生,原始社会后期: 统计萌芽于计数活动;,奴隶制国家产生:使统计日显重要;,封建社会时期: 统计已具规模;,资本主义的兴起:统计扩展到社会经济各方面。,统 计学应运而生,统计学作为一门系统的科学,距今只有300多年的历史。,一、统计学的产生与发展,发展(三个时期),(一)统计学的萌芽期(17世纪中18世纪中),1、德国的记述学派(国势学派,康令 (16061681),阿痕瓦尔(17191772; 1764年首创统计学一词),他们在大学中开设“ 国势学”采用记述性材料,讲述国家,“,显著事项”,籍以说明管理国家的方法,。,特点是,偏重于事物质的解释而忽视量的分析,。,(二)统计学的近代期(18世纪末19世纪末),1、数理统计学派,代表人物:法国的拉普拉斯,比利时的凯特勒,。,拉普拉斯把,古典概率论引进统计学,,,发展了概率论,推广了概率论在统计中的应用。,2、政治算术学派,代表人物:英国的威廉配第、约翰格朗特等。,威廉配第的代表著政治算术对当时的英、荷、法等国的“ 国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作,。,他们开创了,从数量方面研究社会经济现象的先例,。,凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人,有“,统计学之父,”之称。,2、社会统计学派,代表人物:德国的克尼斯、恩格尔、梅尔等,。,他们强调统计学是,研究社会现象的科学,,,包括统 计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系,。,(三)统计学的现代期(20世纪初至今),统计学的主流从描述统计学,转向,推断统计学。20世纪30年代R,费希尔的推断统计理论标志着现代数理统计学的确立。,60年代以后统计学发展有三个明显的趋势:,1统计学依赖和吸收数学更多;,2以统计学为基础的边缘学科不断形成;,3与电子计算机技术相结合,应用范围更广,作用更大。,三、统计学的要素和内容,1、统计总体和总体单位,总体,统计研究所确定的客观对象,是具,有共同性质的许多单位组成的整体。,无限总体:含无限多个单位,范围,有限总体:含有限个单位。,总体单位:组成总体的各个单位(或元素),是各项统计数字的原始承担者。,同质性:总体中各个单位具有某种共同的性质。,大量性:总体总是包含大量的单位。,(一)统计学的要素,特点,2、标志,标志,总体单位的属性、特征。,品质标志:用文字表示属性,分类,数量标志:用数字表示特征,不变标志:各单位具体表现 相同,可变标志:各单位具体表现 不同,指标:综合反映总体数量特征的概念和数值。,构成:指标名指标数值,特点:具体性;综合性,3、指标和指标体系,分类:数量指标;质量指标,描述指标;评价指标;预警指标,绝对数指标;相对数指标;平均数指标,在推断统计中:说明总体的指标也称参数。,说明样本的指标称统计量。,指标体系:具有内在联系的一系指标构成的整体。,标志与指标的联系与区别:,联系(1)一些数量标志汇总可以得到指标的数值 。,区别(1)标志是说明总体单位特征的,而指标是说统,统计总体数量特征的;,(2)数量标志与指标之间存在变换 关系。,(2)标志的具体表现,有的用数值有的用文字表示,而指标都是用数值表示的。,4、变量和变量值,变量,可变的数量标志和统计指标。,确定性变量,分类,随机性变量,离散性变量,连续性变量,变量值:即变量的具体数值,包括标志值和指标数值,社会经济现象中许多变量,既受确定性因素影响,又受随机性因素影响。要根据具体情况加以认定。,5、样本,是从总体中随机抽取部分单位所构成的集合体。,必须取自所要研究的总体;,特点,从一个总体中可抽取许多个样本,这些样本的数值是不同的,也即存在着随机的差异;,样本必须具有代表性;,样本必须具有客观性,也即排除主观因素的影响,6、推断:就是以样本信息为依据对总体的某些特,征作出预测和估计。,7、推断的可靠性:根据随机抽取的样本对总体推断所得出的结果的可靠程度,也称,置信度,。,(二)统计学的内容,1、描述统计,指搜集、整理、分析并提供统计资料的理论和方法。,主要任务:使反映客观事物的统计数据可以一目了然,条理清晰,使用方便,可以说明现象的数量特征和数量关系。,2、推断统计,是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。,描述统计是推断统计的前提,推断统计是描述统计的发展。,四、统计测定的层次,统计测定(measurement),即对总体数量特征的量度,包括登记、分类、,标示、计算等。,四个测定层次的比较,1,2,3,4,量化等级,功能包容,1,2,3,4,测定层次,特征,运算功能,举例,1、定名测定,2、序列测定,3、间距测定,4、比率测定,分类,分类;排序,分类;排序;,有基本测量单位,分类;排序;,有基本测量单位;,有绝对零点,计数,计数;排序,计数;排序;,加减,计数;排序;,加减,乘除,产业分类,企业等级,产品质量,差异,商品销售,额,第二章 统计调查与整理,统计调查,统计整理,统计分析,有组织、,有计划地,搜集资料。,要求:准确、,完整、及时,对调查资料,去伪存真、,去粗取精、,科学分类、,浓缩简化,描述性分析,推断分析、,决策分析。,要求:定性,定量结合,统计工作的三个中心阶段,统计调查,一、调查组织方式,统计调查,二、调查方案设计,报表制度,普 查,重点调查,典型调查,抽样调查,方案内容,调查表、问卷设计,制度化的,经常性调查,专门组织调查,全面调查,非全面调查,一、统计调查的组织方式,统计报表制度,由政府部门组织,采用统一的表格,,自上而下,布置,,自下而上,报告。,任务:,搜集,国民经济和社会发展基本情况,的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。,优点:,精心周密设计、高度统一、规范。,回收率高,内容相对稳定,便于资料积累、对比。,层层上报、逐级汇总,可以满足各部门需要。,特点:,普查,特点:,工作量大,,,时间性强,,需要大量人力和财力。,任务:,搜集重要的,国情国力和资源状况,的全面资料,为政府制定规划、方针政策提供依据。,方式:,建立专门机构,配备专门人员调查。,利用基层单位原始记录和核算资料发表调查。,原则:,规定统一的标准时点。,规定统一的普查期限。,规定调查的项目和指标。,重点调查,特点:,在总体中选择,个别或部分,重点单位,进行调查,。,任务:,及时了解总体基本情况,为主管部门指导工作服务。,方式:,一次性调查;专门设计和备配人员现场调查。,重点单位,指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。,经常性调查;同报表制度结合,用统计报表调查。,典型调查,特点:,在全面分析的基础上,有,意识地,选择代表性的,典型单位,进行现场调查。,任务:,为研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的,本质特征,、,因果关系,、,变化趋势,。为理论和政策性问题研究提供依据。,作用:,适宜于研究处于萌芽状态事物和倾向性问题;,适宜于分析事物的类型,它们之间的差别和关系。,方法:,“解剖麻雀; 划类选典;抓两头”。,抽样调查,特点:,1按,随机原则,从总体中抽取样本;,2以样本指标(统计量)为依据,推断总体参数,或,检验总体的某种假设,;,3抽样误差可以事先,计算,并加以,控制,。,调查误差,登记性误差,代表性误差,编 差,随机误差,抽样平均误差,实际误差,统计推断中的抽样误差就是,抽样平均误差,。它是处于调查所固有的,是对抽样推断精确度的量度。,影响抽样误,差的因素,样本容量,抽样方式,总体内部差异,抽样调查的组织方式:,1简单随机抽样(纯随机抽样),方法:将总体单位编成抽样框,而后用抽签或 随机数表抽取样本单位。,适用:总体规模不大;总体内部差异小,2类型抽样(分层抽样),方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。,总体,N,样本,n,等额,等比例,最优,3等距抽样(机械抽样),方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。,排序依据的标志:(1),无,关标志;(2),有,关标志,(总体单位按某一标志排序),4整群抽样,方法: 将总体全部单位分为许多个“群”,然后随机抽取若干“群”,对被抽中的各“群”内的所有单位登记调查。,例:,总体群数R=16 样本群数r=4 样本容量,例:,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,例:,在某省100多万农户抽取1000户调查农户生产性投资情况。,5多阶段抽样,第一阶段:从省内部县中抽取5个县,第二阶段:从抽中的5个县中各抽4个乡,第三阶段:从抽中的20个乡中各抽5个村,第四阶段:从抽中的100个村中各抽10户,样本n=10010=1000(户),抽样方法,1,放回抽样,:抽出样本单位登记后放回总体,再抽时总体不变,2,不放回抽样,:抽出样本单位登记后不放回总体,再抽时总体渐次减少,二、调查方案统计,调查方案的主要内容,1、确定调查,目的,2、确定调查,对象,和,调查单位,3、拟订调查,提纲,4、确定调查,时间,5、编制调查的,组织计划,调查表与问卷设计,调查表,单一表,一览表,例:工业企业统计报表,问卷结构:,说明词 + 主题词句 + 作业记录,例:人口普查登记表,问卷,设计,基本要求:,主题明确,形式简明,,文字通俗,容易理解,,便于回答。词句编排,,层次分明,先易后难。,问卷形式:,开放式词句,对选式词句,多项选择式词句,顺位式词句,标度式词句,案例,统计整理,主要任务,资料审核、分组、,汇总、制表、制图等。,分组,频数分布,统计表,统计图,分组,分组前,分组后,25,33,42,1划分现象类型,作用:,例:按所有制性质划分,我国现有8种经济类型:,国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济,2研究总体结构,例:上海市按GDP计算的三次产业结构(%),1980年1990年 1996年1997年,GDP100 100 100 100,第一产业3.2 4.32.5 2.3,第二产业75.7 63.854.5 52.2,第三产业21.1 31.943.0 45.5,3研究现象之间的依存关系,例:中国农民家庭按收入分组的恩格尔系数(1984年),按收入分组(元) 200 300 400 500 600 800 1000,恩格尔系数(%) 64.9 60.2 56.7 54.4 50.5 49.9 43.6,分组标志的选择与分组形式,关键:服从研究任务需要,反映总体本质特征,形式,按分组标志性质分,品质标志分组,数量标志分组,按分组标志个数分,简单分组,复合分组,分组体系,频数分布(分布数列),是一种重要的分组资料,反映总体单位在各组的,分布状态。,基本形式:,分组,单位数,频率,合计,100,频数分布,频率分布,分类,品质数列,变量数列,单项数列,组距数列,等距数列,异距数列,例,例,例,例,变量数列的编制,1计算极差,2确定形式,单项数列:离散型且取值不多。,组距数列:离散型且取值多或连续型。,3组距数列:组距;组数;,4计算各组频数,频率,累计频数,累计频率等。,5组中值的计算:闭口组;开口组,统计表,构成,总表题,横行标题:统计研究的对象。也称,主词,。,纵栏标题:说明主词的指标名。也称,宾词,。,数字资料,分类,主词,简单表,分组表,复合表,宾词,平行形式,交叉形式,编制规则:,统计图,直方图,等距数列:(变量,频数),异距数列:(变量,频数密度),折线图,曲线图,等距数列:(组中值,频数),异距数列:(组中值,频数密度),单项数列:(变量,频数),向上累计分布:(变量上限,累计频数),向下累计分布:(变量下限,累计频数),变量的组数无限增多时,折线,便趋于一条光滑的曲线。,P55 图25,图形,某厂职工人数统计表,按性别分组,男 职 工,女 职 工,合 计,人数(人),(频数),比率(),(频率),253,115,368,68.75,31.25,100.00,返回,某厂职工家庭人口分组统计,按家庭人口分组,1,合 计,职工户数,(频数),比率(),(频率),7,返回,2,3,4,5,6,38,105,54,31,20,2.9,15.2,41.3,20.5,12.1,8.0,255,100,第三章 综合指标,一,、,综合指标概述,二、总量指标(绝对数指标),三、相对数指标(相对数),四、平均数指标(平均数),五、标志变异指标,主要内容,案例,一、,综合指标概述,统计指标,统计指标是综合反映统计总体数量特征的概念和数值。,指标名称,指标数值,反映总体某一方面的质的规定性,是对总体本质特征的一种概括。,是总体量的规定性在一定时间、地点、条件下的具体表现。,统计指标,重要特点:具体性; 综合性,描述指标,评价指标,监测指标,分类,数量指标,质量指标,绝对数指标,相对数指标,平均数指标,指标体系,具有内在联系的一系列指标所构成的整体,即称为指标体系。,分类,社会指标体系,经济指标体系,科技指标体系,基本统计指标体系,是针对某项社会经济问题而制定的专项指标体系,如工业经济效益指标体系、价格指标体系等。,专题统计指标体系,二、总量指标(绝对数指标),概念,总量指标是反映社会经济现象,总规模,、,总水平,的,总和,指标。,(1)反映国情、国力和企事业单位人、财、物,的状况;,(3)是计算相对指标和平均指标的基础。,(2)是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;,作用,分类,按反映总体的内容分,按反映的时间状态分,(1)社会总产品,,(2)增加值,,(3)国内生产总值(GDP),按计量单位分,国民经济统计中几个重要的生产总量指标,标志总量,总体单位总数,时期总量,时点总量,实物量,劳动量,价值量,三、相对指标(相对数),概念,相对指标是两个有联系的指标对比的,比值,,反映事物的数量特征和数量关系。,(1)反映总体内在的结构特征,(3)反映事物发展变化的过程和趋势。,(2)用于不同对象的比较评价;,作用,种类,计划完成相对数,结构相对数,比例相对数,比较相对数,强度相对数,动态相对数,六种相对数指标的比较,不同时期,比 较,动 态,相对数,强 度,相对数,不同现象,比较,不同总体,比较,比 较,相对数,同一总体中,部分与部分,比 较,部分与总体,比 较,实际与计划,比 较,比 例,相对数,结 构,相对数,计划完成,相对数,同一时期比较,同类现象比较,应用原则,(1)正确选择对比的基数;,(2)必须注意统计的可比性;,(3)相对指标要与总量指标相结合。,四、平均指标(平均数),概念,平均指标反映同类现象的,一般水平,,是总体内各单位参差不齐的标志值的,代表值,,也是对变量分布,集中趋势,的测定。,数据集中区,变量x,常用的几种平均数,概 念 计算 公 式 特 点,优点:容易理,,便于计算,灵敏度高,稳定性好,和,缺点:易受极值影响,在偏斜分布和U形分布中,,不具有代表性,1. 算术平均数,( ),标志总量与总体单位总数的比值,简单:,加权:,常用的几种平均数,概 念 计算 公 式 特 点,优点:灵敏度高,在某种不能计算的条件下,可以代替,缺点:不易理解,易受极值影响,有“ 0”值时不能计算,2. 调和平均数,( ),标志值倒数平均数的倒数,简单:,加权:,常用的几种平均数,概 念 计算 公 式 特 点,优点:灵敏度高,受极值影响小于 和,适宜于各比率之积为总比率的变量求平均,缺点:有“ 0”或负值时不能计算,偶数项数列只能用正根,3. 几何平均数,( ),几个变量值连乘积的几次根,简单:,加权:,常用的几种平均数,概 念 计算 公 式 特 点,4. 中位数,(,M,e,),标志值由小到大顺序排列中居中间位置的标志值位置平均数,上限公式:,下限公式:,优点:容易理解,,不受极值影响,适宜于开口组资料和些不能用数字测定的事物,缺点:灵敏度和计算功能差,间断数Me,常用的几种平均数,概 念 计算 公 式 特 点,5. 众数,(,M,o,),分配数列中出现次数最多的标志值位置平均数,上限公式:,下限公式:,优点:容易理解,,不受极值影响,缺点:灵敏度和计算功能差,稳定性差,具有不唯一性,要点解释,权数(Weighted),,是分布数列中的频数或频率。对求平均数具有,权衡轻重,的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。,权数,例,(1),(2),(3),X,4,5,6,合计,频数,频率(%),10,20,10,25.0,50.0,25.0,40,100.0,X,4,5,6,合计,频数,频率(%),20,40,20,25.0,50.0,25.0,80,100.0,X,4,5,6,合计,频数,频率(%),20,10,10,50.0,25.0,25.0,80,100.0,=5,=5,=4.75,调和平均数与算术平均数的区别,例,频率分布变了,均值也变。因此,严格地说,,权数应指,频率,。,凡是掌握被平均指标的分母资料时,用算术平均法。,凡是掌握被平均指标的分子资料时,用调和平均法。,平均指标,分子:标志总量,分母:总体单位总数,几何平均等于对数的算术平均,例,组矩数列求中位数,是用插值法对中位数组分割的结果。,例,组距数列求众数,是以频数之差计算的比例分割众数组组距的结果。,例,价格(元),3.3,2.5,2.0,合计,销售量(斤),3,4,5,12,算术平均,求某种商品三种零售价格的平均价格,调和平均,价格(元),3.3,2.5,2.0,合计,销售额(元),10,10,10,30,返回,例 求95%、93%、90%的几何平均数,(计算误差:0.0007),返回,例 (书上例11的资料),返回,分组:500 800 1100 1400 1700 2000,频数:4090110105705035,d,1,=20 d,2,=5,众数组,8001100,求比例:d,1,/(d,1,+d,2,)=20/(20+5)=0.8,分割众数组的组距:0.8(1100-800)=240(元),下限公式,加下限,即M,0,=800+240=1040(元),下页,返回,500,800,1100,1400,1700,2000,50,100,150,f,(人数),月收入:元,1040,上页,d,1,d,2,例 (书上例11的资料),返回,求比例:250-240/(345-240)=0.095,分割中位数组的组距:1400-1100)0.095=28.5,下限公式,加下限,即Me=1100+28.5=1128.5(元),下页,标志值由小到大,分组:500 800 1100 1400 1700 20000,SK0,(对称分布),正偏态分布(右),负偏态分布(左),2.偏度系数,(m,3,三阶中心矩),定义M=(X-A),k,/n为变量X关于,A的k阶矩,。,当,A=0,,即以原点为中心,上式称为“,K,阶原点矩”。,K=1,2,3时,有:,一阶原点矩M,1,=(X-0),1,/n=X/n,二阶原点矩M,2,=(X-0),2,/n=X,2,/n,三阶原点矩M,3,=(X-0),3,/n=X,3,/n,当,A= ,,即以 为中心,上式称为“,K,阶中心矩”。,K=1,2,3时,有:,一阶中心矩,二阶中心矩,三阶中心矩,所以,m,3,可以测定偏度。为消除量纲,转变为系数,再除以,3,。,0正偏态,计算标准分,即将原始分数X经过线性变换转变为标准分Z。反映各原始分的平均数为中心的相对位置。,X,O,任何原始分在总体中的位,置,用Z倍的来测定。,计算抽样误差(以平均指标为例),设:,抽样误差就是样本平均数分布数列的标准差。,第五章 参数估计和假设检验,推断统计:,利用样本统计量对总体某些性质或数量特征进行推断。,随机原则,总体,样本,总体参数,统计量,推断估计,参数估计,检验,假设检验,抽样分布,抽样分布,简单随机抽样和简单随机样本的性质,无限总体,有限总体,不放回,放 回,样本,样本,放回,不放 回,样本,样本,独立性和同一性,同一性,当n/N5%时,有限总体不放回抽样等同于放回抽样,无限总体,统计量与抽样分布,统计量:即,样本指标,。,样本均值,样本成数,样本方差,如:,抽样分布:,某一统计量所有可能的样本的取值形成的分布。,性 质,数字特征,0P(X,i,),1,P(X,i,)=1,均值E(X),方差Ex-E(x),2,方差的平方根即抽样分布的标准差就是,推断的,抽样误差。,样本均值的抽样分布(简称均值的分布),抽样,总体,样本,均值,X,(N),均值=X,i,/N,x,(n),样本均值是样本的函数,,故样本均值是一个,统计量,,,统计量是一个,随机变量,,,它的概率分布称为样本均,值的抽样分布。,均值分布的数学期望和方差,抽 样 方 法 均 值 方 差 标 准差,(1)从无限总体抽 样和有限总体放回抽样,(2)从有限总体不放回抽样,抽样误差,抽样误差,从正态总体中抽样得到的均值的分布也服从,正态分布,。,从非正态总体中抽样得到的均值的分布呢?,中心极限定理:无论总体为何种分布,只要样本n足够大(n30),均值( )标准化为(z)变量,必定服从标准正态分布,均值( )则服从正态分布,即:,两个样本均值之差的抽样分布,抽样,总体,样本,X1,(N1),x1,(n1),抽样,总体,样本,X2,(N2),x2,(n2),估计,(1)如:,(2如果两个总体都是非正态总体,只要n,1,、n,2,足够大,根据中心极限定理,可知:,样本成数(即比例)的抽样分布(简称成数的分布),抽样,总体,样本,成数,X,(N),成数P=N,i,/N,x,(n),所有可能的样本的成数( )所形成的分布,称为样本成数的抽样分布。,成数分布的数学期望和方差,抽 样 方 法 均 值 方 差 标 准差,(1)从无限总体抽 样和有限总体放回抽样,(2)从有限总体不放回抽样,根据中心极限定理,只要样本足够大, 的分布就近似正态分布。(np和nq大于5时),抽样误差,抽样误差,两个样本成数之差的抽样分布,抽样,总体,样本,X1,(N1),x1,(n1),抽样,总体,样本,X2,(N2),x2,(n2),估计,当n,1,、n,2,都足够大时,样本成数 都近似服从正态分布,两个样本成数之差( )也近似服从正态分布。,P,1,-P,2,=?,一个样本方差的抽样分布,抽样,总体,样本,若,:,从一个正态总体中抽样所得到的样本方差的分布,n,S,2,则,当,则,两个样本方差之比的抽样分布,抽样,总体,样本,从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。,n,1,S,1,2,则,抽样,总体,样本,n,2,S,2,2,参数估计,点估计,以样本指标直接估计总体参数。,评价准则,的数学期望等于总体参数,即,该估计量称为无偏估计。,无偏性,有效性,当 为 的无偏估计时, 方差 越小,无偏估计越有效。,一致性,对于无限总体,,如果对任意,则称,的一致估计。,是,充分性,一个估计量如能完全地包含未知参数信息,即为充分量,估计量,区间估计,估计未知参数所在的可能的区间。,评价准则,随机区间,置信度,精确度,随机区间,包含,(即可靠程度)越大越好。,的概率,的平均长度,(误差范围)越小越好,一般形式,或,总体参数,估计值,误差范围,:一定倍数的抽样误差,例如:,抽样误差,一定时,,越大,,概率(可靠性)大;,随之增大,,精确度就差。,抽样组织方式和参数的区间估计,简单随机抽样,待估计参数,已知条件,置信区间,正态总体,,2,已知,正态总体,,2,未知,非正态总体,n30,有限总体,n30,(不放回抽样),总体均值,(),未知时,用S,未知时,用S,两个正态总体,已知,两个正态总体,未知但相等,两个非正态总体,n,1,,n,2,30,两个总体均值之差,1,-,2,简单随机抽样,待估计参数,已知条件,置信区间,无限总体,,np,和nq都大于5,总体成数,(p),无限总体,,N,1,P,1,5, n,1,q,1,5,N,2,P,2,5, n,2,q,2,5,两个总体成数之差,(,P,1,-P,2,),有限总体,,np,和nq都大于5,有限总体,,N,1,P,1,5, n,1,q,1,5,N,2,P,2,5, n,2,q,2,5,简单随机抽样,待估计参数,已知条件,置信区间,正态总体,总体方差,两个正态总体,两个总体方差之比,分层随机抽样,待估计参数,已知条件,置信区间,有限总体不放回抽样(n等比例分配于各层),各层n,h,30,总体均值,(,),有限总体不放回抽样(n等比例分配于各层),各层n,h,30,总体成数,(,P),总体,N,样本,n,均值:,平均层,内方差:,置信区间,抽样误差,估计,整群随机抽样,待估计参数,已知条件,置信区间,有限总体不放回抽样,样本群数r足够大,总体均值,(,),有限总体不放回抽样,样本群数r足够大,总体成数,(,P),总体群数R,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,样本群数 r,估计,均值:,群间,方差:,置信区间,抽样误差,样本数的确定,待估计参数,已知条件,样本数的确定,正态总体,,2,已知,总体均,值(),例:误差范围,简,单,随,机,抽,样,有限总体,不放回抽样,,2,已知,总体成数,(P),服从正态分布,有限总体,不放回抽样,待估计参数,已知条件,样本数的确定,总体均,值(),分层抽样,总体均,值(),整群抽样,有限总体不放回抽样,,等比例分配样本,有限总体不放回抽样,,服从正态分布,未知用,未知用,案例,假设检验,基本思想,检验规则,检验步骤,常见的假设检验,基本思想,小概率原理:,如果对总体的某种假设是,真实,的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是,在一次,试验,中A竟然发生了,,就有理由怀疑该假设的真实性,,拒绝,这一假设。,总 体,(某种假设),抽样,样 本,(观察结果),检验,(接受),(拒绝),小概率事件,未 发 生,小概率事件,发 生,假设的形式:,H,0,原假设, H,1,备择假设,双尾检验:H,0,:=,0,, H,1,:,0,单尾检验: H,0,:,0,, H,1,:,0,H,0,:,0,, H,1,:,0,假设检验就是根据样本观察结果对原假设(H,0,)进行检验,接受H,0,,就否定H,1,;拒绝H,0,,就接受H,1,。,检验规则,确定检验规则,检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H,0,;反之,差异不显著,接受H,0,差 异,临界点,拒绝H,0,接受H,0,c,c,判 断,两类错误,接受或拒绝H,0,,都可能犯错误,I类错误弃真错误, 发生,的概率为,II类错误取伪错误,发生,的概率为,检验决策 H,0,为真 H,0,非真,拒绝H,0,犯I类错误() 正确,接受H,0,正确 犯II类错误(),怎样确定c?,大就小,小就大,基本原则:力求在控制前提下减少,显著性水平,取值:0.1, 0.05, 0.001, 等。如果犯I类错误损失更大,为减少损失,值取小;如果犯II类错误损失更,值取大。,确定,就确定了临界点c。,设有总体:XN(,,2,),,2,已知。,随机抽样:样本均值,标准化:,确定值,,查概率表,知临界值,计算Z值,作出判断,0,接受区,拒绝区,拒绝区,当检验判断为接受原假设H,0,时,就有可能犯取伪的错误即II类错误。犯II类错误的概率计算:,(1)先求出拒绝H,0,的临界值;,(2)再求得在统计量真实的抽样分布下达到临界值的概率。,统计中,称不犯取伪错误的概率1-为统计检验的能力或效力。,II类错误的概率的计算,检验步骤,建立总体假设,H,0,,H,1,抽样得到样,本观察值,1,2,选择统计量,确定H,0,为真,时的抽样分布,3,根据具体决策,要求确定,确定分布上的临,界点C和检验规则,计算检验统,计量的数值,比较并作出检验判断,7,4,5,6,几种常见的假设检验,总体均值的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,:=,0,H,1,:,0,z,(2) H,0,:,0,H,1,:,0,(3) H,0,:,0,H,1,:,z,0,z,0,正态总体,2,已知,总体均值的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,:=,0,H,1,:,0,t,(2) H,0,:,0,H,1,:,0,(3) H,0,:,0,H,1,:,t,0,t,0,0,正态总体,2,未知(n30),总体均值的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,:=,0,H,1,:,0,z,(2) H,0,:,0,H,1,:,0,(3) H,0,:,0,H,1,:,z,0,z,0,0,非正态总体n30,2,已知或未知,两个总体均值之差的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,: ,1,=,2,H,1,: ,1, ,2,z,(2) H,0,:,1, ,2,H,1,: ,1, ,2,(3) H,0,: ,1, ,2,H,1,:,1, ,2,z,0,z,0,0,两个正态总体,已知,两个总体均值之差的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,: ,1,= ,2,H,1,: ,1, ,2,t,(2) H,0,: ,1, ,2,H,1,: ,1, ,2,(3) H,0,: ,1, ,2,H,1,: ,1, ,2,t,0,t,0,0,两个正态总体,未知,,但相等,两个总体均值之差的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,:,1,= ,2,H,1,:,1, ,2,(2) H,0,:,1, ,2,H,1,:,1, ,2,(3) H,0,:,1, ,2,H,1,:,1, ,2,0,z,0,0,两个非正态体n,1,30,n,2,30,已知或,未知,z,z,一个总体方差的检验,条件,检验条件量,拒绝域,H,0,、H,1,总体服从正态分布,两个总体方差之比的检验,条件,检验条件量,拒绝域,H,0,、H,1,总体服从正态分布,F,F,F,总体成数的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,:P=P,0,H,1,:PP,0,z,(2) H,0,:PP,0,H,1,:PP,0,(3) H,0,:PP,0,H,1,:PP,0,z,0,z,0,0,np5,nq5,两个总体成数之差的检验,条件,检验条件量,拒绝域,H,0,、H,1,(1) H,0,:P,1,=P,2,H,1,:P,1,P,2,z,(2) H,0,: P,1,P,2,H,1,:P,1,P,2,(3) H,0,:P,1,P,2,H,1,:P,1,P,2,z,0,z,0,0,n,1,p,1,5,n,1,q,1,5,n,2,p,2,5,n,2,q,2,5,案例,相关分析,回归分析,第六章 相关与回归,相关和回归分析,是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,主要内容,相关分析,概念,种类,线性相关,变量之间关系,函数关系,相关关系,因果关系,互为因果关系,共变关系,确定性依存关系,随机性依存关系,种类,一元相关,多元相关,负 相 关,正 相 关,线性相关,曲线相关,x,y,正 相 关,x,y,负 相 关,x,y,曲线相关,x,y,不 相 关,线性相关,相关系数,测定两变量是否线性相关?,定义式:,未分组:,已分组:,值:,|r|=0 不存在线性关系; |r|1,完全线性相关,0|r|0,正相关;r0 负相关,计算公式,相关系数的检验(t检验),检验统计量,案例,回归分析,特点,线性回归,非线性回归,回归分析和相关分析的联系和区别,1理论和方法具,有一致性;,2无相关就无回归,,相关程度越高,回归越好;,3相关系数和回归系数,方向一致,可以互相推算。,1相关分析中,x与y对等,回归分析中,x与y要确定自变量和因变量;,2相关分析中x,y均为随机变量,回归分析中,只有y为随机变量;,3相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。,线性回归,一元线性回归模型,1一元线性回归模型的一般形式,总体一元线性回归模型的一般形式,Y,的数学期望E(Y),随机误差,也称一元线性回归方程,是对应于自变量X,某一取值时因变量Y的均值。,未知参数,样本的一元线性回归模型和回归方程,一元线性回归模型,一元线性回归方程,截距,斜率(回归系数),回归系数b表明自变量x每变化一个单位因变量y的增(减)量。,b,与,r,的关系:,r0 r0 r=0,b0 b0 b=0,是理论模型,表明x与y两变量之间的平均变动关系。,(实际值):,X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。,随机干扰:各种偶然因素,观察误差和其他被忽视因素的影响。,的理论假定,值相互独立,服从正态分布,的数学期望E( )0,的方差,都相同,且,x,y,2一元线性回归模型的确定,根据实际数据,用最小平方法,即使 ,分别对a、b求编导并令其为零,求得两个标准方程:,解联立方程,得到,3一元线性回归模型拟合优度的评价,判定系数(,r,2,),是对回归模型拟合优度的评价。,x,y,总偏差 = 回归偏差 + 剩余偏差,r,2,表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。,r,的符号同,b,估计标准误(,Sxy,),Sxy是二元正态分布中因变量实际值(y,j,)对估计值( )离散程度的量度。,Sxy 越小, 拟合越好;,Sxy 越大, 拟合越差。,Sxy也是用自变量对因变量进行区间估计的抽样误差。,68.27% 94,45% 99.73%,4一元线性回归模型的显著性检验,回归系数,b,的检验,设总体回归系数为,H,0,:=0;H,1,:0,n30时,检验统计量,(=0),b,是样本回归系数抽样分布的标准差。通常是未知的,用其估计量 代替。,给定显著性水平,查Z表可知其临界值 。,n30时,(=0),给定显著性水平,查t表可知其临界值 。,0,0,Z,t,回归模型整体的,F,检验,H,0,:R,2,=0;H,1,:R,2,0,检验统计量,F,检验假设,案例,5应用一元回归模型进行区间估计,n30时,给定x,0,,y,0,的置信度(1-)的置信区间为:,n3
展开阅读全文