资源描述
数据的统计描述和分析,统计的基本概念,参数估计,假设检验,一、总体与样本,设有n个一维数据:,它们是从所研究的对象(总体)X中观测得到的,这n个值称为,样本观测值,,n称为,样本容量,。,抽取样本需满足的条件:,随机性和独立性,任务:由样本推断总体,二、统计量,三、分布函数的近似求法,例、某班有31名学生,某门课程的考试成绩如下:,25 45 50 54 55 61 64 68 72 75 75 78 79 81,83 84 84 84 86 86 86 87 89 89 89 89 90 91,91 92 100,作出频率直方图。,分布函数的近似求解步骤,第一步:作出频率直方图;,第二步:让曲线大致经过每个竖着的长方形的“上边”,得出分布密度曲线的大致模样;,第三步:检验总体是否满足这一分布密度函数;,第四步:对分布密度函数中的参数进行估计。,四、几个在统计中常用的概率分布,-4,-2,0,2,4,6,0,0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,1,正态分布,),(,2,s,m,N,密度函数:,2,2,2,),(,2,1,),(,s,m,s,p,-,-,=,x,e,x,p,分布函数:,dy,e,x,F,y,x,2,2,2,),(,2,1,),(,s,m,s,p,-,-,-,=,其中,m,为均值,,2,s,为方差,,+,-,x,.,标准正态分布:,N,(0,1),密度函数,2,2,2,1,),(,x,e,x,-,=,p,j,dy,e,x,y,x,2,2,2,1,),(,-,-,=,F,p,分布函数,返回,F分布F(10,50)的密度函数曲线,参数估计,一、点估计的求法,(一)矩估计法,(二)极大似然估计法,二、区间估计的求法,1、已知DX,求EX的置信区间,2 未知方差DX,求EX的置信区间,(一)数学期望的置信区间,(二)方差的区间估计,返回,1,.,参数检验,:如果观测的分布函数类型已知,这时构造出的,统计量依赖于总体的分布函数,这种检验称为参数检验.,参数检验的目的往往是对总体的参数及其有关性质作出明,确的判断.,对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.,假设检验,2.非参数检验,:如果所检验的假设并非是对某个参数作出明,确的判断,因而必须要求构造出的检验统计量的分布函数,不依赖于观测值的分布函数类型,这种检验叫非参数检验.,如要求判断总体分布类型的检验就是非参数检验.,假设检验的一般步骤是,:,(一)单个正态总体均值检验,一、参数检验,(二)单个正态总体方差检验,(三)两个正态总体均值检验,(四)两个正态总体方差检验,二、非参数检验,(二)概率纸检验法,概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多.,返回,统计工具箱中的基本统计命令,1.数据的录入、保存和调用,2.基本统计量,3.,常见概率分布的函数,4.频 数 直 方 图 的 描 绘,5.参数估计,6.假设检验,7.综合实例,返回,一、数据的录入、保存和调用,例1,上海市区社会商品零售总额和全民所有制职工工资总额的数据如下,统计工具箱中的基本统计命令,1、,年份数据以1为增量,用产生向量的方法输入。,命令格式:,x=a:h:b,t=78:87,2、,分别以x和y代表变量职工工资总额和商品零售总额。,x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4,y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,3、将变量t、x、y的数据保存在文件data中。,save data t x y,4、进行统计分析时,调用数据文件data中的数据。,load data,To MATLAB(txy),方法1,1、,输入矩阵:,data=78,79,80,81,82,83,84,85,86,87,88;,23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;,41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,2、将矩阵data的数据保存在文件data1中:save data1 data,3,、进行统计分析时,先用命令:,load data1,调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:,t=data(1,:),x=data(2,:),y=data(3,:),若要调用矩阵,data,的第,j,列的数据,可用命令:,data(:,j),方法2,To MATLAB(data),返回,二、基本统计量,对随机变量x,计算其基本统计量的命令如下:,均值:,mean(x),中位数:,median(x),标准差:,std(x),方差:,var(x),偏度:,skewness(x),峰度:,kurtosis(x),例,对例1中的职工工资总额x,可计算上述基本统计量。,To MATLAB(tjl),返回,三,、,常见概率分布的函数,Matlab工具箱对每一种分布都提供五类函数,其命令字符为:,概率密度:,pdf,概率分布:,cdf,逆概率分布:,inv,均值与方差:,stat,随机数生成:,rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),在Matlab中输入以下命令:,x=-6:0.01:6;,y=normpdf(x);z=normpdf(x,0,2);,plot(x,y,x,z),1、密度函数,:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省),To MATLAB(liti2),如对均值为,mu,、标准差为,sigma,的正态分布,举例如下:,To MATLAB(liti3),3、逆概率分布,:x=norminv(P,mu,sigma).即求出x,使得PX50),按中心极限定理,它近似地,服从正态分布;,二.使用Matlab工具箱中具有特定分布总体的估计命令.,(1)muhat,muci=expfit(,X,alpha)-,在显著性水平alpha下,求,指数分布的数据,X的,均值的点估计及其区间估计.,(2)lambdahat,lambdaci=poissfit(,X,alpha)-,在显著性水平alpha下,求,泊松分布的数据,X,的参数的点估计及其区间估计.,(3)phat,pci=weibfit(,X,alpha)-,在显著性水平alpha下,求,Weibull分布的数据,X,的参数的点估计及其区间估计.,返回,六、假设检验,在总体服从正态分布的情况下,可用以下命令进行假设检验.,1、,总体方差,sigma,2,已知时,总体均值的检验使用 z-检验,h,sig,ci=ztest(x,m,sigma,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差,alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 m”,tail=1,检验假设“x 的均值大于 m”,tail=-1,检验假设“x 的均值小于 m”,tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,例7,Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(,=4),试检验一月份油价的均值是否等于115.,解,作假设:m=115.,首先取出数据,用以下命令:,load gas,然后用以下命令检验,h,sig,ci=ztest(price1,115,4),返回:h=0,sig=0.8668,ci=113.3970 116.9030.,检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115,是合理的.,2.sig-值为0.8668,远超过0.05,不能拒绝零假设,3.99.5%的置信区间为113.4,116.9,它完全包括115,且精度,很高.,.,To MATLAB(liti7),2、,总体方差,sigma,2,未知时,总体均值的检验使用t-检验,h,sig,ci=ttest(x,m,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 m”,tail=1,检验假设“x 的均值大于 m”,tail=-1,检验假设“x 的均值小于 m”,tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,返回:,h=1,sig=,4.9517e-004,,ci=,116.8 120.2,.,检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假,设油价均值115是不合理的.,2.99.5%的置信区间为,116.8 120.2,它不包括,115,故不能接受假设.,3.sig-值为,4.9517e-004,远小于0.05,不能接受零,假设.,To MATLAB(liti8),例8,试检验例8中二月份油价 Price2的均值是否等于115.,解,作假设:m=115,,price2为二月份的油价,不知其方差,故用以下命令检验,h,sig,ci=ttest(price2,115),3、,两总体均值的假设检验,使用 t-检验,h,sig,ci=ttest2(x,y,alpha,tail),检验数据 x,y 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail=0,检验假设“x 的均值等于 y 的均值”,tail=1,检验假设“x 的均值大于 y 的均值”,tail=-1,检验假设“x 的均值小于 y 的均值”,tail的缺省值为 0,alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间.,返回:h=1,sig=0.0083,ci=-5.8,-0.9.,检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的,假设“油价均值相同”是不合理的.,2.99.5%的置信区间为,-5.8,-0.9,说明一月份油,价比二月份油价约低1至6分.,3.sig-值为,0.0083,远小于0.05,不能接受“油价均,相同”假设.,To MATLAB(liti9),例9,试检验例8中一月份油价Price1与二月份的油价Price2均值是否相同.,解,用以下命令检验,h,sig,ci=ttest2(price1,price2),4、,非参数检验:总体分布的检验,Matlab工具箱提供了两个对总体分布进行检验的命令:,(1),h=normplot(x),(2)h=weibplot(x),此命令显示数据矩阵,x,的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.,此命令显示数据矩阵,x,的,Weibull,概率图.如果数据来自于,Weibull,分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.,返回,例10,一道工序用自动化车床连续加工某种零件
展开阅读全文