资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第 四 章 估计与假设检验,4.1,参数估计,4.2,假设检验,4.3,方差分析,参数估计与假设检验在统计方法中的地位,参数估计,假设检验,统计方法,描述统计,推断统计,4.1,参数估计,一、估计量与估计值,二、点估计,三、评价估计量的标准,四、区间估计,五、样本容量的确定,估计量:用于估计总体参数的随机变量,如样本均值,样本比率、样本方差等,例如,:,样本均值就是总体均值,的一个估计量,参数用,表示,估计量,用 表示,估计值:估计参数时计算出来的统计量的具体值,如果样本均值,x,=80,,则,80,就是,的估计值,一、估计量与估计值,(estimator & estimated value),二、点估计,(point estimate),用样本的估计量直接作为总体参数的估计值,例如:用样本均值直接,作为,总体均值的估计,例如:用两个样本均值之差直接,作为,总体均值之差的估计,没有给出估计值接近总体参数程度的信息,点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等,三、点估计的常用评价标准,无偏性,有效性,一致性,无偏性,(,unbiasedness,),无偏性:,估计量抽样分布的数学期望等于被估计的总体参数,P,(,),B,A,无偏,有偏,有效性,(,efficiency,),有效性:,对同一总体参数的两个无偏点估计,量,有更小标准差的估计量更有效,A,B,的抽样分布,的抽样分布,P,(,),一致性,(,consistency,),一致性:,随着样本容量的增大,估计量的值越来越接近被估计的总体参数,A,B,较小的样本容量,较大的样本容量,P,(,),四、区间估计,(interval estimate),在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量,比如,某班级平均分数在,75,85,之间,置信水平是,95%,样本统计量 (点估计),置信区间,置信下限,置信上限,区间估计的图示,x,95% 的样本,-1.96,x,+1.96,x,99% 的样本,- 2.58,x,+2.58,x,90%的样本,-1.65,x,+1.65,x,将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平,表示为,(1 -,为总体参数,未在,区间内的比率,常用的置信水平值有,99%, 95%, 90%,相应的,为,0.01,,,0.05,,,0.10,置信水平,由样本统计量所构造的总体参数的估计区间称为置信区间,统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间,用,一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个,置信区间 (,confidence interval,),置信区间与置信水平,样本均值的抽样分布,(1 -,) % 区间包含了,% 的区间未包含,1 ,a,a,/,2,a,/,2,影响区间宽度的因素,1、总体数据的离散程度,,用,来测度,2、样本容量,,3、置信水平 (1 -,),影响,z,的大小,一个总体参数的区间估计,总体参数,符号表示,样本统计量,均值,比率,方差,1、大样本总体均值的区间估计,假定条件,总体服从正态分布,如果不是正态分布,可由正态分布来近似 (,n,30),使用正态分布统计量,z,总体均值,在,1-,置信水平下的,置信区间为,(一)总体均值的区间估计,总体均值的区间估计,(例题分析),【 例 】,一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%,25袋食品的重量,112.5,101.0,103.0,102.0,100.5,102.6,107.5,95.0,108.8,115.6,100.0,123.5,102.0,101.6,102.2,116.6,95.4,97.8,108.6,105.0,136.8,102.8,101.5,98.4,93.3,总体均值的区间估计,(例题分析),解:,已知,N,(,,10,2,),,n,=25, 1-,= 95%,,z,/2,=1.96。根据样本数据计算得:,总体均值,在1-,置信水平下的置信区间为,该食品平均重量的置信区间为,101.44g109.28g,总体均值的区间估计,(例题分析),【例】,一家保险公司收集到由,36,投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间,36,个投保人年龄的数据,23,35,39,27,36,44,36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32,总体均值的区间估计,(例题分析),解:,已知,n,=36, 1-,= 90%,,z,/2,=1.645。根据样本数据计算得:,总体均值,在1-,置信水平下的置信区间为,投保人平均年龄的置信区间为,37.37,岁,41.63,岁,2、,小样本,总体均值的区间估计,1.假定条件,总体服从正态分布,且方差(,),未知,小样本 (,n, 30),使用,t,分布统计量,总体均值,在,1-,置信水平下的,置信区间为,总体均值的区间估计,(例题分析),【例】,已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间,16,灯泡使用寿命的数据,1510,1520,1480,1500,1450,1480,1510,1520,1480,1490,1530,1510,1460,1460,1470,1470,总体均值的区间估计,(例题分析),解:,已知,N,(,,,2,),,n,=16, 1-,= 95%,,t,/2,=2.131,根据样本数据计算得: ,,总体均值,在1-,置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为,1476.8,小时,1503.2,小时,总体分布,样本容量,已知,未知,正态分布,大样本,小样本,非正态分布,大样本,(二)总体比率的区间估计,当 时总体比例的置信区间可以使用正态分布来进行区间估计。,总体比率,在,1-,置信水平下,的置信区间为,总体比率的区间估计,(例题分析),【例】,某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间,解:,已知,n,=100,,p,65%, 1,-,= 95%,,z,/2,=1.96,该城市下岗职工中女性比率的置信区间为,55.65%74.35%,总体比例的区间估计,解:显然有,因此可以用正态分布进行估计。,/2,=1.645,结论:我们有,90,的把握认为,悉尼青少年中每天都抽烟的青少年比例在,19.55%23.85%之间。,1986年对悉尼995名青少年的随机调查发现,有21.7%的人每天都抽烟。试估计悉尼青少年中每天都抽烟的青少年比例的90%的置信区间。,(三)总体方差的区间估计(),1、估计一个总体的方差或标准差,2、假设总体服从正态分布,3、总体方差,2,的点估计量为,s,2,且,4、总体方差在1-,置信水平下的置信区间为,五、样本容量的确定,(一)影响样本容量的主要因素:,1、总体标准差。,总体的变异程度越大,必要样本容量也就越大。,2、最大允许误差。,最大允许误差越大,需要的样本容量越小。,3、置信度1-,。,要求的置信度越高,需要的样本容量越大。,4、抽样方式,。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。,简单随机抽样下估计总体均值时样本容量的确定,式中的总体方差可以通过以下方式估计:,根据历史资料确定,通过试验性调查估计,简单随机抽样下估计总体比例时样本容量的确定,式中的总体比例,p,可以通过以下方式估计:,根据历史资料确定,通过试验性调查估计,取为0.5。,样本容量的确定(实例1),需要多大规模的样本才能在,90%,的置信水平上保证均值的误差在, 5,之内? 前期研究表明总体标准差为,45,.,n,Z,E,=,=,=,2,2,2,2,2,2,(1,645),(45),(5),219.2,220,.,向上取整,样本容量的确定(实例2),一家市场调研公司想估计某地区有电脑的家庭所占的比例。该公司希望对比例,p,的估计误差不超过,0.05,,要求的可靠程度为,95%,,应抽多大容量的样本(没有可利用的,p,估计值)?,解: 已知,E,=0.05,=0.05,,Z,/2,=1.96,当,p,未知时取为0.5。,练习,你在美林证券公司的人力资源部工作。你计划在员工中进行调查以求出他们的平均医疗支出。 你希望有,95%,置信度使得样本均值的误差在,$50,以内。 过去的研究表明,约为,$400,。需要多大的样本容量?,n,Z,E,=,=,=,2,2,2,2,2,2,(1,96),(400),(50),245,86,246,.,.,4.2 假设检验,
展开阅读全文