经管类高等数学第十五章

上传人:陈** 文档编号:253048629 上传时间:2024-11-28 格式:PPT 页数:102 大小:3.67MB
返回 下载 相关 举报
经管类高等数学第十五章_第1页
第1页 / 共102页
经管类高等数学第十五章_第2页
第2页 / 共102页
经管类高等数学第十五章_第3页
第3页 / 共102页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十五章数理统计,第一节样本与样本数字特征,第二节统计量及其分布,第三节点 估 计,第四节区间估计,第五节单正态总体均值的假设,下一页,第六节单正态总体方差的假设检验,第七节方差分析,第八节方差分析举例,第九节一元线性回归分析,第十节一元线性回归分析的显著性检验,返 回,上一页,下一页,第一节样本与样本数字特征,一、总体与样本,二、简单随机样本,三、样本数字特征,返 回,上一页,下一页,数理统计中,常把研究对象的全体称为,总体,.,组成总体的每个元素称为,个体,.,一、总体与样本,总体中所包含的个体总数称为,总体容量,. 如果一个总体的数量是有限的,则称有限总体;否则,称为无限总体.,引例15.1 考察某车床加工的零件质量时,该车床加工的所有零件就是有限总体,其中的每个零件就是一个个体.,引例15.2 一个育苗室各处的温度的全体构成无限总体,每处的温度就是其中的一个个体.,返 回,上一页,下一页,在一个总体,X,中,进行一次抽样,从中抽取,n,个个体,X,1,,,X,2,,,X,n,,这,n,个个体称为总体,X,的,一个样本,,样本所含个体的数目,n,称为,样本容量,.,由于不能预知,X,1,,,X,2, ,,X,n,的值,故,X,1,,,X,2, ,,X,n,看成是,n,个随机变量.,在抽样之后,它们都有具体的数值,称为样本的,观测值,,简称样本值,记作,x,1,,,x,2, ,,x,n,.,总体实际上就是某个随机变量,X,取值的全体,总体,X,的分布函数称为,总体分布函数,,总体,X,的概率分布及数字特征分别称为总体的分布及总体的数字特征.,从总体,X,中抽取若干个个体的过程称为,抽样,.,返 回,上一页,下一页,二、简单随机样本,从总体,X,抽取样本,X,1,,,X,2, ,,X,n,,如果满足:,1. 随机性 为了使样本具有充分的代表性,抽样必须是随机的,总体的每一个个体都有同等的机会被抽取到;,2. 独立性 各次抽样必须是相互独立的,即每次抽样的结果不影响其他各次抽样的结果,也不受其他各次抽样结果的影响.,这种随机的、独立的抽样方法称为,简单随机抽样,,由此得到的样本称为简单随机样本.,返 回,上一页,下一页,设从总体,X,中抽取容量为,n,的简单随机样本,X,1,,,X,2, ,,X,n,,则这组样本可看作是,n,维随机变量(,X,1,,,X,2, ,,X,n,).,当总体的概率分布确定时,它的概率分布(称为联合概率分布)也是确定的.故可求得样本的联合概率分布.,返 回,上一页,下一页,三、样本数字特征,设,X,1,,,X,2, ,,X,n,是总体,X,的容量,n,的样本,则称,为,样本均值,,,为,样本方差,. 称,S,2,的算术平方根,S,为样本标准差,。,称,返 回,上一页,下一页,设,X,1,,,X,2, ,,X,n,是,n,个随机变量,故样本均值 和样本方差,S,2,也都是随机变量,由样本观测值,x,1,,,x,2, ,,x,n, 可得 和,S,2,的观测值分别为,在实际计算时,样本方差通常采用如下形式:,返 回,上一页,下一页,例,15.1对超市出售的某种食品抽取5件检查重量,测得其样本值分别为,4.9g,4.86g , 5.03g , 5.09g , 4.82g , 试求样本均值和样本方差.,解,返 回,上一页,下一页,第二节统计量及其分布,二、常用统计量及分布,一、统计量的定义,返 回,上一页,下一页,一、统计量的定义,定义15.1,设,X,1,,,X,2, ,,X,n,是总体,X,的一个,样本,则称样本不包含任何未知参数的连续函数,g,(,X,1,,,X,2, ,,X,n,)为一个,统计量,,若样本观测值为,x,1,,x,2, ,x,n,,则称,g,(,x,1,,,x,2, ,,x,n,)为统计量,g,(,x,1,,x,2, ,x,n,),的,观测值,.,由于,X,1,,,X,2, ,,X,n,是随机变量,所以统计量,g,(,X,1,,,X,2, ,,X,n,)也是随机变量.由定义,样本均值,X,和样本方差,S,2,均为统计量.,返 回,上一页,下一页,解,(1)(2)都是,X,1, X,2, X,3,的函数,且不含未知参数,故(1)(2)均是统计量.,( 3 )( 4 )虽是,X,1, X,2, X,3,的函数,但都含有未知参数, 故(3)(4)不是统计量.,例,15.2设,X,1, X,2, X,3,为来自总体,X,的样本,,是未知参数,试问下列样本的函数哪些是统计量?,(1),(2),(3),(4),返 回,上一页,下一页,1. 统计量 的分布,所以,将,X,的标准化随机变量记作,Z,,可得,二、常用统计量及分布,若,X,1,,,X,2, ,,X,n,是来自正态总体,X,N,(,2,)的一个样本,则样本均值,X,也是正态随机变量,且,返 回,上一页,下一页,解,已知总体标准差,=4,,样本容量,n,=25,,所以统计量,由此得所求的概率为,由 得,例15.3,设,总体,X,N,(,4,2,),其中,是未知的,若从总体中抽取 25 件样本,求样本均值,X,与总体均值,之差小于 2 的概率.,返 回,上一页,下一页,服从自由度为,n,-1 的,2,分布,记作,2. 统计量 的分布,若,X,1,,,X,2, ,,X,n,是来自正态总体,X,N,(,2,)的一个样本,则样本方差为,S,2,,,则,返 回,上一页,下一页,查表得,例15.4,设,总体,X,N,(,3,2,),其中,是未知的,若从总体中抽取 16 件样本,求样本方差小于 10.95 的概率.,解,已知总体标准差,=3,,样本容量,n,=16,,所以统计量,由此得所求的概率,即,所以,返 回,上一页,下一页,3. 统计量 的分布,服从自由度为,n,-1 的,t,分布,记作,若,X,1,,,X,2, ,,X,n,是来自正态总体,X,N,(,2,)的一个样本,样本均值为,X ,,样本方差为,S,2, 则,返 回,上一页,下一页,总体、样本、样本观察值的关系,总体,样本,样本观察值,理论分布,统计是从手中已有的资料样本观察值,去推断总体的情况总体分布。样本是联系两者的桥梁。总体分布决定了样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体.,返 回,上一页,下一页,第三节点 估 计,一、参 数 的 点 估 计,二、估 计 量 的 评 选 标 准,返 回,上一页,下一页,一、参数的点估计,定义15.2,设总体,X,的分布中含有未知参数,,从总体,X,中抽取样本,X,1,,,X,2,,,X,n,相应的样本观测值为,x,1,,x,2, , x,n, 用样本构造一个合适的统计量来估计未知参数,,则称 为,的,点估计量,,它的观测值,称为,的点估计值.,返 回,上一页,下一页,1.样本数字特征法,而 为,的点估计值.,(2)以样本方差,S,2,作为总体方差,2,的点估计量,即,而 为,2,的点估计值.,这样求估计量的方法,称为,样本数字特征法,,这是数理统计中最常用的一种估计法,它并不需要知道总体的分布形式.,(1)以样本均值,X,作为总体均值,的点估计量,即,返 回,上一页,下一页,例15.5,一台起重机装卸百件集装箱的时间,X,是一个随机变量,从历次装卸时间记录中随机抽取8次,它们分别是:,148 151 160 149 162 154 163 155,试求其装卸时间的均值和标准差,。,返 回,上一页,下一页,解,所以装卸时间的均值的估计值数值为155.3,标准差的估计值数值为5.8 .,例15.6 设总体,X,服从二点分布,X,1,0,P,p,1,- p,其中 0 ,p, 1是未知参数,,X,1, X,2, , X,n,是来自,X,的一个样本,求,p,的点估计.,解 已知总体均值,= E,(,X,),= p, 于是,p,的点值计量为,这里,n,是,n,次独立重复试验中事件,X,=1,发生的次数,,n,/n,是,X,=1,出现的频率,当用数字特征法估计,p,时,再现了用事件的频率来估计概率这一熟知的方法.,返 回,上一页,下一页,2.最大似然估计法,最大似然估计法是利用已知的总体的概率函数或概率密度及样本,根据概率最大的事件在试验中最可能出现的原理,寻求总体概率函数或概率密度中所含未知参数的点估计的方法.,有两个射手,一人的命中率为 0.9, 另一人的命中率为0.1, 现在他们中的一个向目标射击了一发,结果命中了,估计是谁射击的?,一般说,事件,A,发生的概率与参数,有关,取值不同,则,P,(,A,),也不同. 因而应记,事件,A,发生的概率为,P,(,A,|,).,若,A,发生了,则认为此时的,值应是在其取值范围内使,P,(,A,|,),达到最大的那一个,. 这就是极大似然思想 .,返 回,上一页,下一页,设总体,X,为离散型随机变量,概率函数为,P,X,=,x,=,p,(,x,;,);,其中,是未知参数,.,X,1, X,2, , X,n,是来自总体,X,的样本,则,X,1, X,2, , X,n,的联合概率函数为,对于给定的样本值,x,1, x,2, , x,n,L,是,的函数,称为,样本似然函数,.,设总体,X,为连续型随机变量,概率密度,f,(,x,;,q,),其中,是未知参数.,X,1,X,2, ,X,n,是来自总体,X,的样本,则,X,1,X,2, ,X,n,的联合概率函数为,对于给定的样本值,x,1, x,2, , x,n,L,是,的函数,称为,样本似然函数,.,样本的似然函数反映了样本观测值被取到的概率.,返 回,上一页,下一页,定义15.3,设总体,X,的概率函数或概率密度含有未知数,X,1,X,2, ,X,n,为来自,X,的样本,若对给定的观测值,x,1,x,2, ,x,n,未知参数,取时,使得似然函数,L,取得最大值,则称为,的最大似然估计值,记为,相应的统计量称为,的,最大似然估计量,.,一般情况下,概率密度,p,(,x,;,q,),和,f,(,x,;,)关于,可微,这时,可以从方程,解得,更方便的是方程,方程(15.1)(15.2)分别称为,似然方程,和,对数似然方程,.,(15.1),(15.2),返 回,上一页,下一页,例15.7,一大批产品中含有废品,从中随机抽取50件,发现废品 6 件.试用最大似然估计法估计这批产品的废品率.,解,由于这批产品数量很大,故可视为进行了 50 次有放回抽取,抽取结果可用随机变量表示.令,则,X,服从两点分布,分布律为,其中,p,为未知参数.,此时,第,i,次取得废品,,第,i,次取得合格品,,返 回,上一页,下一页,取对数得,解上面这个似然方程,得,令 ,即得,当 时,,L,的值最大.故这批产品废品率中的最大似然估计值为,由于在 50 件随机抽样中只有 6 件废品,所以得到,所以似然函数为,返 回,上一页,下一页,取对数得,例15.8,设总体,X,N,(,2,), 其中, ,,2,都是未知参数,,X,1,,,X,2,,,X,n,为来自,X,的样本,求未知参数, ,,2,的最大似然估计量 .,解,设样本,X,1,,,X,2,,,X,n,的观测值是,x,1, x,2, x,n, 则得似然函数为,返 回,上一页,下一页,解此方程组,得到未知参数,及,2,的最大似然估计值分别是,于是,及,2,的最大似然估计量分别是,将,ln,L,分别对,及,2,求偏导数,并令它们等于零,得到方程组,返 回,上一页,下一页,定义,15.5 设 与都是未知量,的无偏估计量,,,若,则称 较有效.,二、估计量的评选标准,1. 无偏性,2. 有效性,3. 一致性,定义,15.4 设 是参数,的估计量,若 则称 为,的无偏估计量,.,定义,15.6 设 是参数,的估计量,如果当,n,时, 依概率收敛于,,即对任意给定的正数 , 有,则称 为,的一致估计量.,返 回,上一页,下一页,第四节区 间 估 计,一、置 信 区 间,二、正态总体均值的区间估计,三、正态总体方差的区间估计,返 回,上一页,下一页,一、置信区间,定义15.7,设总体,X,的分布中含有一个未知参数,,,X,1,,,X,2,,,X,n,是总体,X,的样本,如果对于给定的概率 1,-,(0,1.96, 即,Z,的观测值落入拒绝域内,故作出拒绝,H,0,的判断,即认为生产线工作不正常.,解,例,15.12,若原假设,H,0,:,500 成立,则样本均值,这里,n,5,,2,=2,2,,于是,从而有,这里称,z, / 2,为临界值.由小概率事件,Z,z,/ 2,所确定的区域(,,,z, / 2,),及,(,z, / 2,+,),称为原假设,H,0,的拒绝域.,若给定置著性水平,0.05,,查附录表得,z,/ 2,=,z,0.025,=1.96,再由样本观测值计算得,x,=502.4,从而,Z,的观测值为,返 回,上一页,下一页,2.假设检验的程序,(1)根据实际问题提出原假设,H,0,与备择假设,H,1,,即说明需要检验的假设的具体内容;,(2) 选取适当的统计量,并在原假设,H,0,成立的条件下确定该统计量的分布;,(3) 对给定的显著性水平,,根据统计量的分布查表,确定统计量对应于,的临界值;,(4) 根据样本观测值计算统计量的观测值,并与临界值比较,从而对拒绝或接受,H,0,作出判断.,返 回,上一页,下一页,3.假设检验可以犯的两类错误,需要指出的是假设检验的推理方法是根据小概率事件的实际不可能性原理做出判断的一种方法. 然而,由于小概率事件,A,,无论其概率多么小,还是可能发生的. 所以利用上述方法进行假设检验,可能做出错误的判断. 这种错误的判断有以下两种情况:,第一类错误:原假设,H,0,是正确的,但是却错误地拒绝了,H,0,. 这类错误为“弃真错误”,称为第一类错误.由于仅当所考虑的小概率事件,A,发生时才拒绝,H,0,,所以犯第一类错误的概率就是,P,A,|,H,0,=,.,第二类错误:原假设是不正确的,但是却错误地接受了,H,0,. 这类错误为“取伪错误”,称为第二类错误,犯第二类错误的概率记为,.,为减少错误,一般说来,当取定显著性水平后,可以通过增加样本量,n,使,减小.,返 回,上一页,下一页,二、单正态总体均值的假设检验,设总体,X,N,(,2,),X,1,,,X,2,,,X,n,为,X,的样本,样本均值与样本方差分别为,下面给定显著性水平,,来检验假设:,H,0,:,0,;,H,1,:, ,0 .,1. 已知方差,2,此时选取统计量 由于,Z,N,(0,1),由,P,Z,z, / 2,=,便得拒绝域,Z,z,/ 2,.,2. 未知方差,2,此时选取统计量 由于,t,t,(,n,-1,),由,P,t,t, / 2,(,n,-1),=,便得拒绝域,t,t,/ 2,(,n,-1) .,返 回,上一页,下一页,例15.13,设某厂生产一种灯管, 其寿命,X,N,(,200,2,), 由以往经验知平均寿命,=1500小时, 现采用新工艺后, 在所生产的灯管中抽取25只, 测得平均寿命1675小时, 问采用新工艺后, 灯管寿命是否有显著提高。(,=0.05),解,这里,拒绝,H,0 .,H,0,:,=,1500,;,H,1,1500,H,0,真时,,由,P,Z,z, / 2,=,便得拒绝域,Z,z,/ 2,=1.645 .,返 回,上一页,下一页,由,p,|,t,|,t,0.025,(,n,1) = 0.05,得水平为,= 0.05,的拒绝域为,|,t,|,t,0.025,(6)= 2.4469,例15.14,用热敏电阻测温仪间接温量地热勘探井底温度,重复测量7次,测得温度(): 112.0 113.4 111.2 112.0 114.5 112.9 113.6 ,而用某种精确办法测得温度为112.6(可看作真值),试问用热敏电阻测温仪间接测温有无系统偏差(设温度测量值,X,服从正态分布,取,=0.05,)?,解,H,0,:,=,112.6,;,H,1,:,112.6,这里,接受,H,0 .,H,0,真时,,返 回,上一页,下一页,第六节单正态总体方差的假设检验,一、,2,的检验法,二、,单正态总体方差的假设,检验举例,返 回,上一页,下一页,一、,2,的检验法,设总体,X,N,(,2,),,,2,均未知,,X,1,,,X,2,,,X,n,是来自,X,的样本,则当显著性水平为,且,1.,2,检验的基本思想,(其中,0,是已知常数),则,H,0,的拒绝域为,返 回,上一页,下一页,而当,H,1,为真时,则,2,的观测值应倾向于偏离,n,-,1,,所以由,2,构造的小概率事件应具有的形式为,因此选取检验统计量,即有,则当,H,0,为真时,,2,的观测值应落在,n,-,1附近;,(,k,1,k,2,为常数,且,k,1,k,2,).,由于,由于,S,2,是,2,的无偏估计,当,H,0,为真时,观测值,s,2,与,0,2,比值,s,2,/,0,2,一般来说应该在 1 附近摆动,而不应过分大于1或过分小于1.,证,返 回,上一页,下一页,因为,H,0,为真时,,2,2,(,n,-1),于是由,2,分布的上,分布点得,从而,H,0,的拒绝域为,确定常数,k,1,k,2,的方式很多,为方便计算,习惯上取,且,上述由统计量,2,给出的检验法称为,2,检验法,.,返 回,上一页,下一页,2.,2,检验法的程序,2,检验法的一般程序为,(,1)提出给检假设,(2)构造统计量,2,,并确定其分布,(3)对给定的显著性水平,,由,查 ,2,分布表,确定临界值和,(4)由样本观测值计算,2,的观测值;,(5)作出判断,接受,H,0,;,若,否则拒绝,H,0,.,返 回,上一页,下一页,二、,单正态总体方差的假设,检验举例,例15.15,某工厂用自动包装机包装葡萄糖,工厂规定每袋葡萄糖质量的标准差不超过5,现随机抽取10袋,测得样本标准差为5.62. 假设每袋葡萄糖的质量,X,服从正态分布,N,(,2,),,,2,均未知,取显著性水平,检验自动包装机工作是否正常?,解,按题意需检验假设,这里的,H,0,比较复杂,我们分别讨论如下,(1),若,2,5,2,,则由,有,返 回,上一页,下一页,从而拒绝域即小概率事件为,(2),若,2,5,2,,因,2,是总体方差,故同样有,从而,因,2,5,2,时,有,从而,所以,返 回,上一页,下一页,由,(1)(2),所述,在原假设,H,0,:,2,5,2,成立的条件下,总有,即不论是,2,5,2,,还是,2,5,2,,事件都是小概率事件.,查附录表得,再由样本观测值计算,2,的观测值得,小概率事件没有发生,故接受,H,0,,即认为包装机工作正常.,返 回,上一页,下一页,第七节方差分析,一、单因素方差分析的概念,二、单因素方差分析具体步骤,返 回,上一页,下一页,一、单因素方差分析的概念,例15.16,人们在经过一定的体育运动后,心率往往要增高.为了研究年龄对心率增高的影响,在1019、2039、4059和6069岁这4个年龄段中分别随机地选择10名男子作试验,进行某种特定的运动,在运动之后心率增高数(每分钟增加的心跳次数)记录如下表所示.,1.单因素试验,年 龄,心 率 的 增 高 数,10,19,20,39,40,59,60,69,29 33 26 27 39 35 29 36 22 33,27 33 31 24 28 24 21 34 21 32,26 30 34 27 33 37 25 22 33 28,32 33 24 25 20 21 36 34 29 28,返 回,上一页,下一页,在这一项试验中,我们所要考察的是年龄这一因素对特性指标心率增高数的影响. 在试验过程中,假设除年龄这一因素在改变以外,其他条件保持不变,这种试验称为,单因素试验,,每个年龄段是年龄的一个状态,称为因素的一个水平,本试验共有4个水平.试验的目的是确定4个不同年龄段下心率的增高数是否有显著差异,如果有显著差异,就表明年龄这一因素对心率的增高的影响是显著的.,返 回,上一页,下一页,设因素,A,有,l,个水平,A,1,A,2, ,A,l,,在水平,A,i,下的总体,X,i,服从正态分布,N,(,i, ,2,),,i,= 1, 2, ,l,. 这里,我们假定总体,X,1, X,2, , X,n,的方差都等于,2,(虽然,2,是未知的),但总体均值,1, ,2, , ,l,(也是未知的)可能不相等.在水平,A,i,下进行,n,i,次试验(,i,= 1,2, ,l,.,),假定所有的试验都是相互独立的,得到的样本观测值,x,ij,如下表.,因素水平,观测结果,A,1,A,2,A,l,x,11,x,12,x,1,n,x,21,x,22,x,2,n, ,x,l,1,x,l,2,x,l n,因为在水平,A,i,下的样本,X,i j,(,j,= 1, 2,n,i,)与总体,X,i,服从相同的分布,所以有,X,i j,N,(,2,),,i,= 1,2, ,l,.,返 回,上一页,下一页,第,i,组样本的均值为,(,i,=1,2, ,l,),全体样本的均值为,2.方差分析的统计假设,如果因素,A,对试验结果的影响不显著,则所有样本,X,i j,就可以看作是来自同一总体,N,(, ,2,).,因此,因素,A,对试验结果的影响是否显著这一检验问题的待检假设为,不全相等.,3.偏差平方和的分析,为了检验上述原假设,H,0,,需要选取适当的统计量.记试验总次数为,n,,即,返 回,上一页,下一页,可以证明,其中,(15.3),全体样本,X,i j,(,i,=1,2, ,l,;,j,= 1, 2,n,i,)对样本均值,X,的偏差平方和 称为,总偏差平方和,.,公式(15.3)称为,偏差平方和的分解式,.这里,S,A,表示各组样本均值,X,i,对总的样本均值,X,的偏差平方和,称为,组间平方和,,反映了各组样本之间的差异程度,即由于因素,A,的不同水平所引起的系统误差;而,S,E,表示各个样本,X,ij,对本组样本均值,X,i,的偏差平方和的总和,称为,误差平方和,(或组内平方和),反映了试验过程中各种随机因素所引起的随机误差.,返 回,上一页,下一页,4.显著性检验,不全相等.,由于方差分析的任务就是检验假设,若原假设,H,0,是正确的,则所有的样本,X,i j,可以看作是来自同一正态总体,N,(,2,),从而有,其中,n,和,S,2,分别是全体样本,X,i j,的样本容量和样本方差.,可以证明,且,返 回,上一页,下一页,由此得统计量,这里,F,(,l,-1,n,-1),称为自由度为,l,-1,和,n,-1,的,F,分布.,一般地,若随机变量,X,具有概率密度,则称,X,服从自由度(,n,1,n,2,)的,F,分布,其中,n,1,称为第一自由度,,n,2,称为第二自由度. 一般将随机变量,X,记为,F,,即,返 回,上一页,下一页,对于给定的显著性水平,(通常取,0.05,或,0.01,),则由附表5可以查得临界值,F,(,l,-1,n,-1)(也称为,F,分布的上,分位点). 通过比较由样本观测值算得的,F,的观测值与,F,(,l,-1,,,n,-1,)的 大小,即可作出拒绝或接受假设检验,H,0,的判断.,返 回,上一页,下一页,二、单因素方差分析具体步骤,单因素方差分析的具体步骤为:,1. 求出,S,T,,S,A,,S,E,记,于是有,返 回,上一页,下一页,2. 写出方差分析表,为便于分析,常将上述计算结果列成下表的形式,称为,单因素方差分析表,.,方差来源,平方和,自由度,F,值,临界值,显著性,组间,误差,S,A,S,E,l,-1,n,-,l,总计,S,T,n,-1,3. 进行显著性检验,利用方差分析表中的,F,值与临界值,若则认为因素,A,的影响不显著;,若 ,则认为因素,A,的影响特别显著;,若 ,则认为因素,A,的影响显著.,返 回,上一页,下一页,第八节方 差 分 析 举 例,一、单因素方差分析举例,二、单因素方差分析应用,返 回,上一页,下一页,一、单因素方差分析举例,在,例15.16,中,将四个年龄段下的心率增高数看作是四个总体,若这四个总体都服从正态分布,且具有相同的方差,试检验不同年龄段下的心率增高数是否有显著的差异.,例,15.17,解 设年龄段10-19、20-29、40-59、60-69岁分别对应于水平A1,A2,A3,A4. 现在,由样本数据计算得,返 回,上一页,下一页,从而可得方差分析表:,方差来源,平方和,自由度,F,值,临界值,显著性,组间,误差,67.475,935.5,3,36,0.87,F,0.05,(3,36)=2.88,F,0.01,(3,36)=4.42,不显著,总计,1002.975,39,由方差分析表可知,各个年龄段的心率增高数无显著差异.,返 回,上一页,下一页,例,15.18 电灯泡厂用三种不同的灯丝材料试制了三批灯泡,从这三批灯泡中分别抽取若干个样品进行使用寿命的试验,得到数据如下表:,灯丝材料,灯泡使用寿命(h),A,1,1760,1610,1720,1800,1650,1700,A,2,1600,1540,1620,1740,1660,A,3,1530,1520,1570,1600,1540,1620,设这三批灯泡的使用寿命分别服从正态分布,检验它们的平均使用寿命是否有显著差异.,解,已知,由表中样本数据计算得,返 回,上一页,下一页,返 回,上一页,下一页,于是可得方差分析表:,方差来源,平方和,自由度,F,值,临界值,显著性,组间,误差,49479.8,51696.67,2,14,6.7,F,0.05,(2,14)=3.74,F,0.01,(2,14)=6.51,特别显著,总计,101176.47,16,由方差分析表可知,用不同灯丝材料制成的灯泡的平均使用寿命的差异特别显著,从而应该选用平均使用寿命最长的第1种灯丝制料,其平均使用寿命的估计值为,返 回,上一页,下一页,二、单因素方差分析应用,在进行统计抽样时,为保证抽取的样本的具有充分的代表性,在抽样时,不能有意识地只抽“好”的或只抽“差”的,而应采用随机方法抽样. 另外,为满足对观测结果所提出的精度要求,必须合理地确定样本容量.样本容量过小,不能保证必要精度要求;样本容量过大,花费过大,经济上不合理.因此由总体不同部位抽取样本,再运用方差分析法检验样本是否均匀. 若样本是均匀的,则由总体不同部位取样进行观测与总体任一部位取样进行重复观测,具有相同的代表性. 若样本是不均匀的,则在总观测次数相同的条件下,尽可能增加取样点的数目,对提高结果的精密度更为有利,。,返 回,上一页,下一页,第九节一元线性回归分析,一、回归分析的概念,二、回归方程及其求法,返 回,上一页,下一页,一、回归分析的概念,由一个(或一组)非随机变量(普通变量)来估计或预测某一个随机变量的观测值时,所建立的数字模型和所进行的统计分析,称为,回归分析,,如果这个模型是线性的,就称为,线性回归分析,,若这个模型只含一个非随机变量,则称,一元回归分析,,若含两个或两个以上的非随机变量,则称为多元回归分析.,两个变量,X,和,Y,,其中,X,是可以精确测量或控制的非随机变量(自变量),而,Y,是随机变量(因变量),,X,的变化将使,Y,发生相应的变化,但它们之间的关系是不确定的,如果当,X,取得任意可能值,x,时,,Y,相应地服从一定的概率分布,则称为,随机变量,Y,与变量,X,之间存在着相关关系,.,返 回,上一页,下一页,设进行,n,次独立的试验(观测),得到试验数据为,其中,x,i,及,y,i,分别是变量,X,及随机变量,Y,在第,i,次试验中的观测值,i,= 1, 2 , ,n, 以,x,作为横轴,,y,作为纵轴,将以上的点画在直角坐标平面上,所得的图叫做,散点图,.如图所示.,若散点图中,,n,个观测点大致分布在一条直线上,又不严格落在一直线上,这时,我们可认为变量,Y,与变量,X,存在如下的关系,x,y,o,(15.4),返 回,上一页,下一页,其中,a , b,是未知常数,,是随机误差,它表示许多没有考虑的因素的综合影响,可以认为,即,对每一组观测值(,x,i, y,i,),根据式(15.4)应有,(15.5),我们称(15.4)和(15.5)为,一元线性回归模型,,其中,b,称为回归系数.,返 回,上一页,下一页,二、回归方程及其求法,若由观测数据能确定(15.4)中的参数,a,和,b,的值,则任给变量,X,的值,x,,我们可用,a+bx,作为变量,Y,的估计(预测)值,即,一般地,我们称方程 为,Y,关于,X,的,一元线性回归方程,.,对于每一个,x,i,由回归直线方程 ,可以确定 的一个对应值 ,称为,回归值,.,回归值与实际观测值的偏差,反映了,y,i,与回归直线的偏差.,下面介绍由观测数据,(,x,1,y,1,) , (,x,2,y,2,),(,x,n, y,n,),确定,Y,关于,X,的一元线性回归方程的方法。,返 回,上一页,下一页,它反映了,n,个观测值,y,1,y,2, ,y,n,与回归直线总的偏离程度.,令,因为,Q,(,a , b,),是,n,个观测点与回归直线偏差的平方和,所以将这种估计参数,a , b,的方法称为,最小二乘估计法,.,由,n,个观测点 来确定回归直线 的参数,a , b,的值,使所选取的,a , b,的值 使得回归直线与,n,个观测点拟合得最好,即,所得的估计,叫做,最小二乘估计,.,返 回,上一页,下一页,或,由二元函数求极值的方法,知道可由下述方程组解得,这个方程组称为,正规方程组,.,返 回,上一页,下一页,解正规方程组,得,a , b,的估计值分别为,其中,返 回,上一页,下一页,为了计算和书写的方便,引入下述记号,于是,a , b,的估计值可写成,返 回,上一页,下一页,例,15.19,已知某商店的商品销售利润,Y,万元与商品进货额,X,万元的一组统计资料如下表:,商品进货额,x,65,50,48,40,37,25,15,商品销售利润,y,25,12,15,10,8,6,4,从这7对数据的散点图可以看出,变量,Y,与,X,间大致呈线性关系,试求,Y,关于,X,的线性回归方程。,解,设,Y,关于,X,的回归方程为,为了计算,列表如下:,x,y,o,返 回,上一页,下一页,由此得,x,i,y,i,x,i,2,y,i,2,x,i,y,i,65,25,4225,625,1625,50,12,2500,144,600,48,15,2304,225,720,40,10,1600,100,400,37,8,1369,64,296,25,6,625,36,150,15,4,225,16,60,返 回,上一页,下一页,于是得回归直线方程为,返 回,上一页,下一页,第十节一元线性回归分析的显著性检验,一、线性相关的显著性检验,二、回归预测,三、回归控制,返 回,上一页,下一页,一、线性相关的显著性检验,1.线性相关性检验的统计假设,因为当且仅当回归系数不,b,0时,变量,Y,与,X,之间存在线性相关关系,所以,为了检验,Y,与,X,之间的线性相关的显著性,应当提出的待检假设是,2.线性回归的方差分析,为了寻找检验,H,0,的方法,我们将,y,1, y,2, , y,n,的偏差平方和,L,yy,加以分解,即得,返 回,上一页,下一页,可以证明,其中,若记,则,因为,所以,U,是回归值的偏差平方和,它反映了回归值的分散程度,这种分散是由于,Y,与,X,之间存在线性相关关系引起的. 我们称,U,为,回归平方和,.,而,Q,则是偏差平方和,Q(a ,b),的最小值,它反映了,y,1, y,2, , y,n,偏离回归直线的程度,这种偏离是由于观测误差等随机因素引起的,称,Q,为,剩余平方和,.,返 回,上一页,下一页,可以证明,如果原假设,H,0,正确,则有统计量,如果变量,Y,与,X,之间的线性相关关系显著,则回归平方和,U,的观测值较大,因而,F,的观测值也较大;,相反,如果,Y,与,X,的线性相关关系不显著,则,F,的观测值较小. 因此我们可以根据统计量,F,的观测值的大小来检验上述原假设,H,0,. 这种检验法也称,一元线性回归相关性的方差分析检验,.,返 回,上一页,下一页,为计算,F,值的方便,我们常用下述计算公式:,返 回,上一页,下一页,解,在例15.19中已求得,例,15.20 在,例15.19,中,已求得商品销售利润Y关于商品进货额X的线性回归方程,试利用线性回归的方差分析检验与之间的线性相关关系是否显著,。,此外,方差来源,平方和,自由度,F,值,临界值,显著性,回归,剩余,257.16,38.54,1,5,33.36,F,0.05,(1,5)6.61,F,0.01,(1,5)16.26,特别显著,总计,295.7,6,于是可以写出该问题的方差分析表:,返 回,上一页,下一页,需要对给定的自变量,x,x,0,,预测因变量,Y,0,.,二、回归预测,一元线性回归预测问题的一般提法是:对观测数据,(,x,1,y,1,) , (,x,2,y,2,),(,x,n, y,n,) 所满足的线性模型,y,i,= a + bx,i,+,i, i =1 , 2 , , n , ,i,N,( 0, ,2,),.,假定已经求得回归方程,因为,所以,于是我们自然想到利用 作为,Y,0,的预测值,即,实际上, 是,Y,0,的点估计.,返 回,上一页,下一页,依照参数估计中的区间估计,我们还可给出,Y,0,的区间估计,即预测区间。根据复杂的计算,我们可得到,Y,0,的置信度为95%的置信区间近似为 ,其中 为点,Y,0,预测值,,返 回,上一页,下一页,例,15.21 在,例15.19,中,已求得商品销售利润,Y,关于商品进货额,X,的线性回归方程,试求进货额为 45 元时商品销售利润,Y,的预测值及置信水平为 95% 的预测区间.,解,Y,的预测值为,因为,所以,Y,的置信水平为,95%,的预测区间为,(13.6322.7763),即(8.0774 , 19.1826).,返 回,上一页,下一页,三、回归控制,回归控制就是将回归直线用于产品生产过程的控制,以便指导生产实践.,一般地,若求得,y,关于,x,的回归方程为 ,则可将 和 作为控制线,即对应于,x,的,y,的值应介于 和之间.,返 回,上一页,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!