数理统计基础

上传人:lis****210 文档编号:161846201 上传时间:2022-10-15 格式:DOCX 页数:24 大小:95.24KB
返回 下载 相关 举报
数理统计基础_第1页
第1页 / 共24页
数理统计基础_第2页
第2页 / 共24页
数理统计基础_第3页
第3页 / 共24页
点击查看更多>>
资源描述
11.1数理统计基础知识11.1.1统计的基本概念1总体和样本总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品 分类),学校全体学生的身高。总体中的每一个基本单位称为个体,个体的特征用一个变量(如X)来表示,如一件产 品是合格品记x 0,是废品记x 1 ; 一个身高170 (cm)的学生记x 170。从总体中随机产生的若干个个体的集合称为样本,或子样,女回件产品,100名学生的 身高,或者一根轴直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记 作x ,x ,x,n称为样本容量。12n简单地说,统计的任务是由样本推断总体。2频数表和直方图一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数 据的一个初步整理和直观描述。将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称 为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的 图,称为直方图,或频数分布图。若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。例1学生的身高和体重学校随机抽取100名学生,测量他们的身高和体重,所得数据如表身咼体重身咼体重身咼体重身咼体重身咼体重17275169551696417165167471716216867165521696216865166621686516459170581656416055175671737417264168571555717664172691695817657173581685016952167721705716655161491735717576158511706316963173611645916562167531716116670166631725317360178641635716954169661786017766170561675416958173731705816065179621725016347173671655817663162521656617259177661826917575170601706216963186771746616350172591766016676167631725717758177671697216650182631766817256173591746417159175681655616965168621776418470166491717117059S1数据输入数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量比较大, 这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件data.txt中,格式如例1 的表格,有20行、10列,数据列之间用空格键或Tab键分割,该数据文件data.txt存放在 matlabwork子目录下,在Matlab中用load命令读入数据,具体作法是:load data.txt这样在内存中建立了一个变量data,它是一个包含有20 10个数据的矩阵。为了得到我们需要的100个身高和体重各为一列的矩阵,应做如下的改变: high=data(:,1:2:9);high=high(:) weight=data(:,2:2:10);weight=weight(:)S2作频数表及直方图用hist命令实现,其用法是:N,X = hist(Y,M)数组(行、列均可)Y的频数表。它将区间min(Y),max(Y)等分为M份(缺省时M设定为10),N返回M个小区间的频数,X返回M个小区间的中点。hist(Y,M)数组Y的直方图。对于例1的数据,编写程序如下:load data.txt; high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:); n1,x1=hist(high)%下面语句与hist命令等价 %n1=length(find(high158.1),.% length(find(high=158.1&high161.2),.% length(find(high=161.2&high164.5),.% length(find(high=164.5&high167.6),.%length(find(high=167.6&high170.7),.% length(find(high=170.7&high173.8),.% length(find(high=173.8&high176.9),.%length(find(high=176.9&high180),.%length(find(high=180&high=97&data0称为右偏态,此时数据位于均值右边的比位于左边的多;1v 0称为左偏态,情况相反;而V接近0则可认为分布是对称的。1 1峰度是分布形状的另一种度量,正态分布的峰度为3,若v比3大得多,表示分布有沉2重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态分布的尺 度之一。Matlab中moment(x,order)返回x的order阶中心矩,order为中心矩的阶数。 skewness(x)返回x的偏度,kurtosis(x)返回峰度。在以上用Matlab计算各个统计量的命令中,若x为矩阵,则作用于x的列,返回一个 行向量。对例1给出的学生身高和体重,用Mat lab计算这些统计量,程序如下:clcload data.txt;high=data(:,1:2:9);high=high(:); weight=data(:,2:2:10);weight=weight(:);shuju=high weight; jun_zhi=mean(high weight) zhong_wei_shu=median(shuju) biao_zhun_cha=std(shuju) ji_cha=range(shuju) pian_du=skewness(shuju) feng_du=kurtosis(shuju)统计量中最重要、最常用的是均值和标准差,由于样本是随机变量,它们作为样本的函 数自然也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率分布有关, 因此我们需要知道几个重要分布的简单性质。4统计中几个重要的概率分布(1) 分布函数、密度函数和分位数随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。设有随机变 量X,其分布函数定义为X x的概率,即F(x)二PX x。若X是连续型随机变量, 则其密度函数P(x)与F(x)的关系为F(x) = J x p(x)dx.g分位数是下面常用的一个概念,其定义为:对于0 1,使某分布函数F(x) =的x,成为这个分布的a分位数,记作x。a我们前面画过的直方图是频数分布图,频数除以样本容量n,称为频率,n充分大时频 率是概率的近似,因此直方图可以看作密度函数图形的(离散化)近似。(2) 统计中几个重要的概率分布(i)正态分布正态分布随机变量X的密度函数曲线呈中间高两边低、对称的钟形,期望(均值)EX =卩,方差DX =b 2,记作XN(RQ 2),称均方差或标准差,当卩=0Q = 1时称为标准正态分布,记作XN(0,1)。正态分布完全由均值卩和方差b 2决定,它的偏度 为0,峰度为3。正态分布可以说是最常见的(连续型)概率分布,成批生产时零件的尺寸,射击中弹着 点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,多数情况下都服从正态 分布,这不仅是观察和经验的总结,而且有着深刻的理论依据,即在大量相互独立的、作用 差不多大的随机因素影响下形成的随机变量,其极限分布为正态分布。鉴于正态分布的随机变量在实际生活中如此地常见,记住下面3个数字是有用的:68%的数值落在距均值左右1个标准差的范围内,即Pyb X 卩+b = 0.68 ;95%的数值落在距均值左右2个标准差的范围内,即P卩2b X 卩 + 2b = 0.95 ;99.7%的数值落在距均值左右3个标准差的范围内,即Pp 3b X 卩 + 3b = 0.997 .(ii) X 2 分布(Chi square)若X X ,X为相互独立的、服从标准正态分布N(0,1)的随机变量,则它们的平方 12n和Y = X2服从X2分布,记作Y咒2(n),n称自由度,它的期望EY = n,方差ii=1DY = 2n。(iii) t分布X若XN(0,1), Y/2 (n),且相互独立,则T =服从t分布,记作Tt(n), 30时它与N(0,1)就相差无几了。(iv) F分布X / n若XX 2(n ), YX 2(n ),且相互独立,则F =- 1服从F分布,记作12Y / n2FF(n ,n ),(n ,n )称自由度。1 2 1 2(3) Matlab统计工具箱(ToolboxStats)中的概率分布Matlab统计工具箱中有20种概率分布,这里只对上面所述4种分布列出命令的字符:norm 正态分布;chi2 X 2分布;t t分布f F分布工具箱对每一种分布都提供5类函数,其命令的字符是:pdf概率密度;cdf分布函数;inv分布函数的反函数;stat均值与方差;rnd随机数生成当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数就行了,如:p=normpdf(x,mu,sigma) 均值mu、标准差sigma的正态分布在x的密度函数(mu=0,sigma=1时可缺省)。p=tcdf(x,n) t分布(自由度n)在x的分布函数。x=chi2inv(p,n) %2分布(自由度n)使分布函数F(x)=p的x(即p分位数)。m,v=fstat(n1,n2) F分布(自由度n1,n2)的均值m和方差v。几个分布的密度函数图形就可以用这些命令作出,如:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2); plot(x,y,x,z),gtext(N(0,1),gtext(N(0,2A2)分布函数的反函数的意义从下例看出:x=chi2inv(0.9,10)x =15.9872如果反过来计算,则P=chi2cdf(15.9872,10)P =0.9000(4) 正态总体统计量的分布用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的随机 变量,所以样本统计量的分布依赖于总体的分布。当总体服从一般的分布时,求某个样本统 计量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统计量(均值、标准 差)的分布才有便于使用的结果。另一方面,现实生活中需要进行统计推断的总体,多数可 以认为服从(或近似服从)正态分布,所以统计中人们在正态总体的假定下研究统计量的分 布,是必要的与合理的。设总体XN(2),X ,X , ,X为一容量n的样本,其均值X和标准差S由上面12n的估计式确定,则用X和s构造的下面几个分布在统计中是非常有用的。X N (卩,)或_i N(0,1)no / %1 n(n -1) s2X 2(n -1).o 2巳t (n -1)sI、n设有两个总体XN(卩,o2)和YN(卩,o2),及由容量分别为n,n的两个样本1 2 2 2 1 2确定的均值X, y和标准差s,s,则1 2(x 卩)-(y 卩)1A N (0,1)G2 / n +G2 / n1122(x叩(y 巴)t(n + n 2)-.s 2 / n + s 2 / n121 2(n 1) s2 + (n 1) s2 其中 s2 二 1122-n + n 21 2s 2 / C 21 4 F (n 1, n 1)s 2 / c 2122 2对于(7)式,假定c =c,但它们未知,于是用s代替。在下面的统计推断中我们要反1 2复用到这些分布。11.1.2参数估计利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分布,通常是 XN(比G 2),估计参数的分布,如卩Q 2。参数估计分点估计和区间估计两种。1点估计点估计是用样本统计量确定总体参数的一个数值。评价估计优劣的标准有无偏性、最小方差性、有效性等,估计的方法有矩法、极大似然法等。最常用的是对总体均值卩和 2方差(或标准差Q )作点估计。让我们暂时抛开评价标 准,当从一个样本按照式(1)、(2)算出样本均值x和方差s2后,对卩和 2 (或)一 个自然、合理的点估计显然是(在字母上加表示它的估计值)K = x, cT2 = s2, cf = s(9)2区间估计点估计虽然给出了待估参数的一个数值,却没有告诉我们这个估计值的精度和可信程 度。一般地,总体的待估参数记作e (如卩q2),由样本算出的e的估计量记作,人们 常希望给出一个区间0 ,0 ,使e以一定的概率落在此区间内。若有1 2P0 0 0 二 1a, 0a 225,0 0 1取a二0.05。Mat lab实现如下:x=159280101212224379179264.222362168250149260485170;h,p,ci=ttest(x,225,0.05,1)求得h=0, p=0.2570,说明在显著水平为0.05的情况下,不能拒绝原假设,认为元件的平均寿命不大于225小时。4两个正态总体均值差的检验(t检验)还可以用t检验法检验具有相同方差的2个正态总体均值差的假设。在Matlab中由函数ttest2实现,命令为:h,p,ci二ttest 2(x,y,alpha ,t ail)与上面的ttest相比,不同处只在于输入的是两个样本x,y (长度不一定相同),而不是一个样本和它的总体均值;tail的用法与ttest相似,可参看帮助系统。例5在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它条件都可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交换进行,各炼了 10炉,其得率分别为1 标准方法78. 172.476.274.377.478.476.075.676.777.32新方法79.181.077.379.180.079.179.177.380.282.1设这两个样本相互独立且分别来自正态总体N(卩Q2)和N(卩Q2),卩,卩Q2均未知,1 2 1 2问建议的新方法能否提高得率?(取a二0.05。)解 (i)需要检验假设H :卩一卩二0,H :卩一卩X2(k r-1),a在显著性水平匕下拒绝H,否则就接受。 0注意:在使用X 2检验法时,要求样本容量n不小于50,以及每个np都不小于5,而且inp最好是在5以上。否则应适当地合并A,以满足这个要求。ii例6下面列出了 84个伊特拉斯坎(Etruscan)人男子的头颅的最大宽度(mm),试检验这些数据是否来自正态总体(取Q二0.1)。141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145解编写Matlab程序如下:clcx=1411481321381541421501461551.1501401471481441501491451491.1431411441441261401441421411.1451351471461411361401461421.1481541371391431401311431411.1481351481521431441411431471.1501321421421431531491461491.1421491421371341441461471401.140137152145;min(x),max(x)求数据中的最小数和最大数hist(x,8)画直方图fi=length(find(x135),.length(find(x=135&x138),.length(find(x=138&x142),.length(find(x=142&x146),.length(find(x=146&x150),.length(find(x=150&x154),.length(find(x=154)各区间上出现的频数mu=mean(x),sigma=std(x)均值和标准差fendian=135,138,142,146,150,154区间的分点p0=normcdf(fendian,mu,sigma)分点处分布函数的值p1=diff(p0)中间各区间的概率p=p0(1),p1,1-p0(6)所有区间的概率皮尔逊统计量的值chi=(fi84*p).入2./(84*p) chisum=sum(chi)x_a=chi2inv(0.9,4)%chi 分布的0.9 分位数求得皮尔逊统计量chisum=1.9723, X2 (7 2 -1)=兀2 (4)二7.7794,故在水平0.1 0.10.1下接受H 0,即认为数据来自正态分布总体。6其它非参数检验Mat lab还提供了一些非参数方法。3.4.1 Wilcoxon 秩和检验在Mat lab中,秩和检验由函数ranksum实现。命令为:p,h二ranksum(x,y,alpha) 其中x, y可为不等长向量,alpha为给定的显著水平,它必须为0和1之间的数量。p返回产生 两独立样本的总体是否相同的显著性概率,h返回假设检验的结果。如果x和y的总体差别不 显著,贝血为零;如果x和y的总体差别显著,贝血为1。如果p接近于零,贝I可对原假设质疑。例7某商店为了确定向公司A或公司B购买某种产品,将A,B公司以往各次进货的 次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设 两公司的商品的次品的密度最多只差一个平移,取Q二0.05。A : 7.03.59.6& 16.2 5.110.44.02.010.5B: 5.73.24.211.0 9.7 6.9 3.64.85.6& 410.15.512.3解分别以巴、巴记公司A、B的商品次品率总体的均值。所需检验的假设是H :卩二卩,H :卩0ABiABMatl ab实现如下:a=7.03.59.68.16.25.110.44.02.010.5;b=5.73.24.211.09.76.93.64.85.68.410.15.512.3;p,h=ranksum(a,b)求得p=0.8041, h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零,且 h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。7中位数检验在假设检验中还有一种检验方法为中位数检验,在一般的教学中不一定介绍,但在实际 中也是被广泛应用到的。在Matlab中提供了这种检验的函数。函数的使用方法简单,下面只 给出函数介绍。(1) signrank 函数signrank Wilcoxon 符号秩检验p,h二signrank(x,y,alpha)其中p给出两个配对样本x和y的中位数相等的假设的显著性概率。向量x, y的长度必须相同, alpha为给出的显著性水平,取值为0和1之间的数。h返回假设检验的结果。如果这两个样本 的中位数之差几乎为0,则h=0;若有显著差异,则h=1 o(2) sign tes t 函数sign tes t 符号检验p,h= sig ntest( x,y,alpha)其中p给出两个配对样本x和y的中位数相等的假设的显著性概率。x和y若为向量,二者的长 度必须相同;y亦可为标量,在此情况下,计算x的中位数与常数y之间的差异。alpha和h同 上08综合案例:假设检验在数学建模中的应用(2012年高教社杯A题)(1)问题的分析:针对问题一,若要评论两组评酒员的评价结果有无显著性差异,则需在评酒员间的评价 尺度、评价位置和评价方向一致的前提下,利用附件一中的数据,考虑到每组只有十位评委, 属于小样本比较,而且每组样本数量相等,运用t检验法,求出P值与t的临界值比较,得出两组评酒员对红、白葡萄酒的评价结果是否有显著性差异。基于结果的准确性,本文建立了二值化可信度模型对评酒员的可信度进行定量描述。若可信度值P越大,则说明评价结 i果越可信。(2)模型一的建立与求解2.1模型一的建立在处理第一组、第二组评酒员品红葡萄酒评分时,首先,假设第一组,第二组无差异,即原假设A : x = X,那么对应的备择假设是:0 1 2处理平均数t测验公式:如x ,x 和SS ,SS分别是均值和离均差平方和,n ,n为处理的12 12 -重复次数,则t = x -x |/S_ _(1)1 2 X1-X2自由度df =n +n -21 2这里s 为x - x的标准误差,其计算公式为:s_X1-X2 1 2XX2(n + n )n n (n + n - 2)1 2 1 2(SS + SS )1 一(SS + SS)+2-n(n-1)(3)(2)p t0.05(18)0.01(18)0.01(1拒绝A0,即在p二001的水平上两组评酒员的评价结果无显著性差异。在解释结果时,根据P值大小直接进行统计,如P 0.05,表示差异显著,如果p 0,a+卩=1,并以下式近似作为评酒员,E的可信度:iP . =a p +0 p(8).1i0i当评价目标为“选优”时,a卩;而当评价目标为“汰劣”时,a0。从工程实践看,多数评价活动都要求评酒员个体的评价意见满足(A )(A ).jjj=1j=1实际上式(6)和式(7)确定的P和p 存在相关性。式(8)从数学意义上讲并不严格,1i0i但从应用角度讲按照前文给出的定义,由式(8)确定的P.值在一定程度上反映评酒员Ei评价意见的可信性,特别地,当a =丄丫 k (A )和0 =丄丫 (1-k (A )时,由式确定的出 mjmjj=1J=1为“群体先决条件下”评酒员Ei正确评价所有评价对象的概率,即p .=迟k(A )k (A )+ 迟(1-k(A ) (1-k (a.)(9).m j . j mj. jj=1j=1利用Matlab软件对两组各位专家对红、白葡萄酒各品种评分进行处理,(程序见附录1.2),得出各位评酒员评价意见的可信度见表3、表4:表3评酒员对红葡萄酒的评价意见的可信度评酒员E1E2E3E4E5E6E7E8E9E10可信度0.40650.38680.40380.35530.37590.3580.38270.36210.32480.3676综合排序810919141812172015评酒员EEEEEEEEEE11121314151617181920可信度0.46190.46440.46820.38550.36490.38140.48970.4770.52070.4644综合排序7541116132315结果分析:第一组评酒员评价红葡萄酒的可信度综合排名为8、10、9、19、14、18、12、17、20、15,而第二组评酒员评价红葡萄酒的可信度综合排名为7、5、4、11、16、13、 2、3、1、5。对两组评酒员的综合排名进行比较,第一组排名成绩从优至差为8、9、10、12、14、15、17、18、19、20,第二组排名成绩从优至差为 1,2,3, 4,5,5,7,11,13, 16,对其排名一一对应进行比较,发现第二组排名序数均比第一组大,则认为第一组评酒员 的评价结果可信度更高。表4评酒员对白葡萄酒的评价意见的可信度评酒员EiE2E3E4E5E6E7E8E9E10可信度0.6630.6730.6670.7300.7160.6290.7090.6910.6290.6295517365766综合排序14121315166101616评酒员EEEEEEEEEE11121314151617181920可信度0.6760.6950.7180.6460.7160.6990.6290.7040.6290.723497616166综合排序11931548167162结果分析:第一组评酒员评价白葡萄酒的可信度综合排名为14、12、13、1、5、16、6、 10、16、16,而第二组评酒员评价白葡萄酒的可信度综合排名为11、9、3、15、4、8、16、 7、16、2。对两组评酒员的综合排名进行比较,第一组排名成绩从优至差顺序为1、5、6、 10、12、13、14、16、16、16,第二组排名成绩从优至差顺序为2、3、4、7、8、9、11、 15、16、16,对其排名一一对应进行比较,发现第二组排名序数70%比第一组小,则认为第 一组评酒员的评价结果可信度更高。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!