统计学复习资料抽样分布.ppt

上传人:za****8 文档编号:3234992 上传时间:2019-12-09 格式:PPT 页数:53 大小:781.56KB
返回 下载 相关 举报
统计学复习资料抽样分布.ppt_第1页
第1页 / 共53页
统计学复习资料抽样分布.ppt_第2页
第2页 / 共53页
统计学复习资料抽样分布.ppt_第3页
第3页 / 共53页
点击查看更多>>
资源描述
第四章抽样分布,主要内容第一节抽样的概念与方法第二节简单随机样本的抽样分布第三节抽样其它组织形式及其分布特征,统计应用:两个例子,ThepurposeofStatisticsinferenceistoobtaininformationaboutapopulationfrominformationcontainedinsample.例1:一汽车轮胎制造商生产一种被认为寿命更长新型轮胎。例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:,抽样估计方法主要用在下列两种情况:1、对所考查的总体不可能进行全部测度;2、从理论上说可以对所考查的总体进行全部测度,但实践上由于人力、财力、时间等方面的原因,无法或没有必要(不划算)进行全部测度。注意:抽样调查必须遵循随机原则。抽样估计只能得到对总体特征的近似测度,因此,抽样估计还必须同时考察所得结果的“可能范围”与“可靠程度”。,第一节抽样的概念与方法,一、抽样的基本概念二、简单随机抽样的方法,一、抽样的基本概念,例3:某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。总体:2500名中层干部(population),如果:上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。假如:1:已经得到了如下的结果:总体均值=51800总体标准差=4000,2、同时,有1500人参加了公司培训,则参加公司培训计划的比例为:P=1500/2500=0.60参数是总体的数值特征(Aparameterisanumericalcharacteristicofapopulation.)。如:例3中的中层干部平均年薪,年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。,假如抽取30名,得到样本平均数、标准差和成数是,则,样本:抽取到的30名中层干部。统计量:根据样本分布计算的综合指标,是样本变量的函数。另注意区分样本容量和样本个数:样本容量是指一个样本所包含的单位数。样本个数是指样本的可能数目。,二、简单随机抽样的方法,(一)放回抽样n个单位的样本是有n次试验的结果构成每次试验都是独立的每次试验都在相同条件进行样本的可能个数为(考虑顺序)或(不考虑顺序),(二)不放回抽样,n个单位的样本是有n次试验的结果构成每次试验不是独立的每个单位在多次试验中中选机会是不等的样本的可能个数为N(N-1)(N-2)(N-n+1)(考虑顺序)或(不考虑顺序),在社会经济统计中,往往采用的是较大总体(视为无限总体)下的无序不重复抽样。,第二节简单随机样本的抽样分布,一、重置抽样的抽样分布二、不重置抽样的抽样分布,一、重置抽样的抽样分布,样本统计量的分布就是抽样分布(一)样本均值的抽样分布容量相同的所有可能样本的样本均值的概率分布一种理论概率分布进行推断总体总体均值的理论基础,【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下,均值和方差,总体特征值,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布,样本均值的抽样分布,计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较,=2.52=1.25,总体分布,显然,不同的样本对应着不同的样本统计量,而由于样本抽取的随机性,样本统计量即为一种随机变量。一般地,样本统计量的可能取值及其取值概率,形成其概率分布,统计上称为抽样分布(samplingdistribution)。正是抽样分布及其特征使得用样本统计量估计总体参数的“精确程度”能够给予概率上的描述。由于样本统计量的随机性及其抽样分布的存在,同样可计算其均值、方差、标准差等数字特征来反映该分布的中心趋势和离散趋势。,1、样本平均数的期望值由于不同的样本可得到不同的样本均值,因此,考察样本均值的期望就显得非常重要。用表示样本均值的期望值,表示总体均值,可证明在简单随机抽样中。,结论:,样本平均数的标准差可得:样本均值的标准差可用来测度样本均值与总体均值的“距离”,即可用来计算可能的误差,它也被称为均值标准误(standarderrorofthemean)或抽样平均误差。,2.样本平均数的标准差,(二)样本比例的抽样分布,在经济与商务的许多场合,需要用样本比例p对总体比例P进行统计推断。样本比例抽样分布是样本比例所有可能值概率分布。同样地,要考察样本比例p与总体比例P的接近程度,需要有样本比例抽样分布的相关信息。,结论,根据p的期望值、标准差及前面样本平均数的特性(抽样分布形状)。1、期望值:E(p)=P2、标准差:,现从总体中抽取n2的简单随机样本,在不重复抽样条件下,共有12个样本。所有样本的结果为,二、不重置抽样的抽样分布(一)样本均值的抽样分布,样本均值的抽样分布,计算出各样本的均值,如下表。并给出样本均值的抽样分布,X,样本均值的分布与总体分布的比较,=2.52=1.25,总体分布,结论:(不放回抽样),1、样本平均数的期望值2、样本平均数的标准差称为有限总体修正因子(finitepopulationcorrectionfactor),(二)样本比例的抽样分布,不放回抽样p的期望值、标准差分别为。1、期望值:E(p)=P2、标准差:,附注:正态分布理论与中心极限定理,1、正态分布的密度函数式中为正态分布的平均数,是它的标准差。这两个参数决定正态分布密度函数的形状。也可简记为N,正态分布密度函数特性:,(1)对称性。(2)非负性。(3)当x处于中心位置时,密度函数值最大。(4)在处为密度函数的拐点,越大图形越扁平。,(5)当x时,密度函数f(x)0,即曲线向两边下垂,伸向无穷远处。,2、正态分布标准化,正态分布函数为:,不同的正态分布参数也就有不同的正态分布形式,利用上式分布函数计算各类不同的正态分布形式某点或某区间的概率是很困难的。必须对各种正态分布加以标准化,才能求其概率,标准化:要求平均数为0,方差为1,用N(0,1)来表示。即是原变量变为新变量:,例:某农场的小麦亩产量服从正态分布,已知平均亩产为550公斤,标准差50公斤,求亩产在525575公斤间所占的比例。,例:解放军战士的身高是按正态分布,经抽查平均身高175公分,标准差是4公分,现军服厂要裁制100,000套军服,问身高在171179公分之间要裁多少套?,3、正态分布再生定理,则无论样本容量n大小如何,样本均值都为正态分布。,当总体分布未知时,需要用到中心极限定理:对容量为n的简单随机样本,样本均值的分布随样本容量的增大而趋于正态分布。经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本(large-sample-size)。,4、中心极限定理(CentrallimitTheorem),5、样本容量与样本均值分布的关系由于样本标准差与总体标准差及样本容量有关:因此,样本容量增大,样本均值标准差变小,从而使样本分布峰度变高,于是在相同区间内,概率分布线下的面积变大,提高了样本均值落在该区间的可能性。注意:1、所有可能的样本均值的平均数等于总体均值,而与样本容量无关。2、点估计往往是在总体方差已知的情况下进行的。,附注:关于正态分布查表的基本方法,概率是曲线下的面积,关于正态分布查表的基本方法:f(z)f(z)f(z)zzz-0.500.5-0.50.5P(-0.5x0.5)=0.3829P(x-0.5)=(1-0.3829)/2=0.5-0.3829/2=0.30855P(x0.5)=0.30855P(x0.5)=1-0.30855=0.69145,第三节抽样其它组织形式及其分布特征,一、抽样其他组织形式二、抽样设计的基本原则三、抽样组织设计四、抽样方案的设计,一、抽样其他组织形式,类型抽样整群抽样系统抽样分层抽样多阶段抽样,(一)保证随机原则的实现(二)考虑样本容量和结构问题(三)关于抽样的组织形式问题(四)必须重视调查费用这个基本因素,二、抽样设计的基本原则,三、抽样的组织设计,(一)简单随机抽样1、有限总体的抽样方法:将总体单位编成抽样框,而后用直接抽选法、抽签法或随机数表法抽取样本单位。适用:总体规模不大;总体内部差异小。2、无限总体的抽样方法:必须特殊制定一种独立选取样本点的抽样过程,以避免由于某些类型的个体以较大概率被选入而产生误差。适用:总体太大或是无限的;总体内部差异小。,随机数字表(摘录),63271599867174451102151418071458683931081355479945885470989695436791150830301041200306375408459283645595757243838650991119761663554010226646601471570246276874534479067122455738435821625169991338522782553630744934835152907661667191127772186168689032636939392785499025844742048303788761826933406401628113186294318819004588387338129089541702904011308243177262865256836783514732718518922225520127340104933652064465055503015782242295206975372602237565493581628361003925456835376360242198063896416495399337随机数字表中,可以从任何一个位置、任何方向开始挑选随机数。一旦选择一个任意起点,就采用事先确定的程序。,(二)类型抽样(分层抽样或分类抽样)1、方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。,总体,层1,层2,层,2、类型抽样的特点:,根据方差定理:总方差=组内方差的平均数+组间方差在划分类型后,类型抽样实际是对每组都抽去了一个样本,如果各组内的抽样误差都为0,那么不论各组之间差异如何,整个样本的方差就等于总方差(总方差=组间方差),也就是说抽取得到的样本分布完全和总体分布一样,也就不存在抽样误差。所以说,类型抽样总的抽样误差主要取决于各组内的抽样误差。,3、类型抽样平均误差的计算,设总体有N个单位组成,把总体分为k组,然后从每组中抽取样本单位构成样本总体。怎样从每类中抽取呢?通常是等比例抽样。,(三)等距抽样(机械抽样或系统抽样),1、方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。设总体有N个单位组成,现在抽取一个容量为n的样本,现将总体N个单位按标志排队,然后将N划分为n个单位相等部分,每部分包含k个单位,(Nnk),然后在每部分中抽取一个单位。按排队标志性质的不同,可分为有关标志排队等距抽样和无关标志排队等距抽样。,按有关标志排队的抽取方法:()半距中点取样1234n()对称等距抽样或1234n按无关标志排队的抽取方法:()任意起点抽样1234n,1、方法,2、等距抽样平均误差的计算,关于等距抽样的平均误差,它和标志排列顺序有关,情况比较复杂。如果用来排队的标志是无关标志,而且是随机起点抽样,那么它的抽样误差就十分接近简单随机抽样的误差,为了简便起见,可以采用简单随机抽样误差公式来近似计算即:,(四)整群抽样(集团抽样),1、方法:将总体全部单位分为许多个“群”,然后随机抽取若干“群”,对被抽中的各“群”内的所有单位登记调查。,总体,群1,群2,群,2、整群抽样的特点:,根据方差定理:总方差=组内方差的平均数+组间方差在分群后,整群抽样实际是对中选群进行全面调查,其样本的代表性取决于抽中的群体对总体的代表性每组。如果各群体之间没有差异(即组间方差=0),群内方差就等于总方差(总方差=组内方差),则样本能完全代替总体,也就不存在抽样误差。所以说,整群抽样总的抽样误差主要取决于各群间的抽样误差或群间差异程度。,3、整群抽样平均抽样误差计算公式:设总体全部单位划分为群每群包含单位则现在从总体群中随机抽取群组成样本,并分别对中选群的所有单位进行调查,(五)阶段抽样,1、方法:是指在抽样时先抽总体中某种更大范围的单位,再从中选大单位中较小的单位,逐次类推,最后从更小的单位中抽选样本的基本单位,分阶段来完成抽样的组织工作。例在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从省内部县中抽取5个县第二阶段:从抽中的5个县中各抽4个乡第三阶段:从抽中的20个乡中各抽5个村第四阶段:从抽中的100个村中各抽10户样本n=10010=1000(户),四、抽样方案的设计,定义总体与样本单元确定抽样框选择抽样技术确定样本量的大小制定实施细节并实施,作业(结束下章后做),课本125页:一、选择题全做二、计算题1、2、5中选做一题3、4、6、8中选做一题9题也可以全做,这么多公式!,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!