资源描述
数理统计浅谈刖言数理统计学是统计学的数学基础,从数学的角度去研究统计学,为各种应用统 计学提供理论支持。它研究怎样有效地收集、整理和分析带有随机性的数据,以对 所考察的问题做出推断或预测,直至为采取一定的决策和行动提供依据和 建议的数 学分支。概率论作为一门研究随机现象统计规律的数学学科,已在包 括控制,通 讯,生物,力学,金融,社会科学以及其他工程技术等领域得到了广泛的应用。当然上面这一段是百度的我承认,但我还要承认的是,通过这一学期的数学课 程,真的对数理统计有了更深的认识,虽然本科也学过概率论与数理统计,但是 这一期又对本科学习的课程进行了深入,其实之前对数学也不是很感兴趣的,不过 万老师的讲解真的很幽默风趣,把数学知识和生活中的例子联系了起来,我感觉 我还是学到一点东西的,虽然我学到的可能仅仅是皮毛,所以我这篇论文其 实也不 能称之为真正的论文,只是对我所学的东西进行一下总结,其中很多都是出自在老 师课堂上面记下的笔记,所以在这里要真心地谢谢万老师这一学期孜孜不倦的教 导!一、概述数理统计是以概率论为基础,根据实验或观察到的数据,研究如何利用有效的 方法对这些已知的数据进行整理、分析和推断,从而对研究对象的性质和统计规律 做出合理和科学的估计和判断。在自然科学、军事科学、工农业生产、医疗 卫生等 领域,哪一个门类都离不开数理统计。数理统计学内容庞杂,分支学科很 多,难于 做出一个周密而无懈可击的分类。大体上可以划分为如下几类:(1)特定的统计推断形式,如参数估计和假设检验。(2)特定的统计观点,如贝叶斯统计与统计决策理论。(3)特定的理论模型或样本结构,如非参数统计、多元统计分析、回归分析、相关分析、序贯分析,时间序列分析和随机过程统计。二、参数估计参数估计是指总体分布已知,其中全部或部分参数未知的情景下,利用样本信 息对这些未知参数进行的统计推断。涉及:(1)估计形式:点估计、区间估计(2)点估计的方法、依据、算法、使用对象和评价。(3)新问题:经典统计所 称的估计指未知参数;现代统计所称的估计指分布参数。经典估计关于区间估计基 本建立在正态分布场合。研究对象一一总体未知参数优化特征一一从无穷中取一优思维次序未知信息f不做选择f抽样f估计量f推断估计量一一设(Z1、Z2, Zn)为ZF(x,?)的样本,若有二(Z1、Z2, Zn)实现了对的估计,称二为一个估计量矩估计利用样本的原点矩估计响应的总体原点矩,达到对未知参数进行估计的 方法的过程称之为矩估计矩估计的依据一一大数定律:一定条件下,样本矩依据半 收敛到总体相应矩2.1基本算法(1)直接法8就是总体某阶矩,可直接估计。利用直接法的条件:已知,等于总体某阶矩例:(Z1、Z2, Zn)为 Z( 0,1)P=Z P=EZ(2)反解法第一步:建立矩方程(组),通过求原点矩、中心距实现第二部:反解方程 (组),反解成功,如果反解不成功,则有两种情况,一种是有显式解,二种是无 显示解2.2极大似然估计选择参数9,使已知数据丫在某种意义下最可能出现。某种意义是指似然函数 P(Y | 9 )最大,这里P (Y | 9 )是数据丫的概率分布函数。与最小二乘法不同 的是,极大似然法需要已知这个概率分布函数P(丫 | 9 )。在实践中这是困难 的,一般可假设P (丫|9)是正态分布函数,这时极大似然估计与最小二乘估计 相同。2.3最小二乘估计为了选出使得模型输出与系统输出yt尽可能接近的参数估计值,可用模型与系 统输出的误差的平方和来度量接近程度。使误差平方和最小的参数值即为所求的估 计值。2.4区间估计区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当 的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们 常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应 用。求置信区间常用的三种方法:利用已知的抽样分布。利用区间估计与假设 检验的联系。利用大样本理论。三、假设检验抽样分布、参数估计、假设检验为估计推断的主要内容。研究对象一一总体未知参数未知总体分布信息优化特征两者择一思维次序未知信息f统计假设f抽样f检验统计量f推断3.1统计思想假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(PvO.01或PvO.05)在一次试验中基本上不会发生。反证法思想是先提出假设 (检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小, 则认为假设不成立,若可能性大,贝U还不能认为假设成立 3.2基本步骤1、 提出检验假设(又称无效假设,符号是H0)和备择假设(符号是 H1)。H0 :样本与总体或样本与样本间的差异是由抽样误差引起的;H1 :样本与总体或样本与样本间存在本质差异;预先设定的检验水准为0.05 ;当检验假设为真,但被错误地拒绝的概率,记作a,通常取a =0.05或a =0.01。2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2 值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和 卡方 检验等。3、 根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若Pa,结论为按a所取水准不显著,不拒绝H0,即认为差别很可能是由于 抽样误差造成的,在统计上不成立;如果P a,结论为按所取a水准显著,拒绝 H0 ,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。 3.3两类错误判新结论分布真实情况成立)eee-(乩成立)接受正摘尊二类1错溟拒绝弟_类 错溟正确3.4几种检验方法(1) U检验若总体遵从正态分布N仆,6),其中c已知,X=(X1,X2, , ,Xn)是从总体中抽取 的简单随机样本,记,则遵从标准正态分布N(0,1),于是可考虑对的以下几种假 设的检验,其中口 0是给定的常数,a为检验的水平,U a为标准正态分布 的上a分 位数。t检验若总体服从正态分布N(P,c),但 c未知,记,,则t=遵从自由度为n-1的t分布, 可对口有以下的水平为a的检验,其中t a为自由度为n-1的t分布的上a分位数。四、方差分析概述三个或者三个以上独立正态总评在方差齐次的条件下,对均值差异 的显著性检验问题。指标 实验中的响应,系统中被解释的对象因素一一实验中的条件水平一一因素所处的状态单因素实验一一将其余因子控制在各自某一水平,仅改变其中某一因素不同 水平的实验假定条件:(1) 各处理条件下的样本是随机的。(2) 各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。(3 )各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。(4 )各处理条件下的样本方差相同,即具有齐效性。方差分析的作用:一个复杂的事物,其中往往有许多因素互相制约又互相依 存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中, 把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度 量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源 的部分离差平方和,这是一个很重要的思想。经过方差分析若拒绝了检验假设,只能说明多个样本总体均值不相等或不全相 等。若要得到各组均值间更详细的信息,应在方差分析的基础上进行多个样本均值 的两两比较。4.1单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里, 由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。例如,分析不同施肥量是否给农作物产量带来显著影响, 考察地区差异是否影响妇 女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析 得到答案。单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的 观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地 区、学历。单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量 值 得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量 总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述 为:SST=SSA+SSE单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比 例,推断控制变量是否给观测变量带来了显著影响。基本步骤:1、提出原假设:H0 -无差异;H1 -有显著差异2、选择检验统计量:方差分析采用的检验统计量是F统计量,&F值的检 验。3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计 量的观测值和相应的概率P值。4、给定显著性水平,并作出决策4.2多因素方差分析多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影 响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因 素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。例如:分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量 作 为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品 种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施 肥量是提高农作物产量的最优组合。五、回归分析5.1回归分析:当变量之间呈非确定关系,但表现出某种“相关”关系时,由观测数 据获得对变量之间某种模型的系数或参数的估计,从而建立某种“统计模型”,以 对变量之间的关系进行解释并达到控制或预测的目的的统计分析技术,称之为回归 分析5.2回归分析的一般模型:(1 )参数模型(2) 非参数模型(3) 半参数模型5.3最小二乘法求回归方程一是回归分析的过程,即:要研究两个定量变量是否具有某种关系 画散点图,直观判断用回归直线代表试验数据的趋势一用最小二乘法求得斜率和截距的估计值,得到经验方程 =b0+b1x 用经验回归 方程 对相应变量进行预测.二是用最小二乘法估计回归直线的过程.这个过程包括两个环 节,一是通过让学生自己寻求回归直线,引导他们认识到应该从“整体上”看待这 个问题,即“从整体上看,各观测数据点与直线的距离最小”是确定直线的一个合 理原则;二是让学生经历用数学语言刻画“从整体上看,各观测数据点与直线的距 离最小”的过程.首先建立回归直线的目的,是为了从整体上代表两个变量的观测数据的关系, 这与用平均数来代表一个变量的数据是类似的.二是观测值不可能正好落在回归直线 上.这是因为回归直线方程y=bO+b1x是线性回归模型Y=bO+b1x+t =y+二的一部分, 这里是误差项.该模型假定,变量x与y有线性关系y=bO+b1x,而凡是不能被该线 性关系描述的y的变化都由误差项来承担.由于误差,观测值 不可能正好落在这条直 线上.如果这个模型有意义的话,这些观测值不会离这条AA直线太远.而且bO和bl是通过样本估计出来的(通常用 热,可表示),存在随机误 差,这种误差也会导致预测结果的偏差.六、数理统计的应用数理统计作为一门研究随机现象统计规律的数学学科,已在包括控制,通讯,生物,力学,金融,社会科学以及其他工程技术等领域得到了广泛的应用。1在经济学中的应用当今概率统计与经济的关系可以说是息息相关的,几乎任何一项经济学的研 究、决策都离不开它的应用,例如:实验设计、多元分析、质量控制、抽样检查、 价格控制等都要用到概率统计知识。实践证明。数理统计是对经济学问题进行量的研究的有效工具, 为经济预测 和决策提供了新的手段。在经济管理决策、经济损失估计、最大经济利润求解、经 济保险、经济预测等几个经济学问题中都有很好的应用。(1) 在在经济管理决策中的应用 在进行经济管理决策之前,往往存在不确 定的随机因素,从而所作的决策有一定的风险,只有正确、科学的决策才能达到以 最小的成本获得最大的安全保障的总目标,才能尽可能节约成本。利用数理统计知 识可以获得合理的决策,从而实现这个目标。(2) 在经济损失估计中的应用随着经济建设的高速发展,火灾、车祸以及自然灾害等各种意外事故所造成的经济损失 呈明显上升的趋势,从而买保险成 为各单位及个人分担经济损失的一种有效方法。利用统计知识可以估计各种意 外事 故发生的可能性以及发生后导致的经济损失大小。为单位决策者及个人是否买保险及买何种保险提供依据。(3) 在求解最大经济利润问题中的应用如何获得最大利润是商界永远追求的 目标,随机变量函数期望的应用为此问题的解决提 供了新的思路。(4) 在经济预测中的应用 在实际经营中,许多量之间存在某种密切联系,依据数理统计原理,可以根据往年资料 或市场信息,通过对社会经济现象之间 客观存在的因果关系及其变化趋势进行线性回归分析预测,从而得出未来的数量状况。2在工程实践中的应用数理统计方法在工农业生产、自然科学和技术科学等领域中有也有着广泛的应用。在 农业中,对田间试验进行适当的设计和统计分析是实验中必不可少 的环 节。实验设计法、回归设计和回归分析、方差分析、多元分析等统计方法,在工业 生产的试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配 方等问题中起着广泛的作用,统计质量管理在控制工业产品的质量中起着十分重要的作用。医学是较早使用数理统计方法的领域之一,在防治一种疾病 时,需要找出导致这种疾病的种种因素。统计方法在发现和验证这些因素上,是一 个重要工具。另一方面的应用是,用统计方法确定一种药物对治疗某种疾病是否有 用,用处多大,以及比较几种药物或治疗方法的效力。在自然科学和技术科学中, 统计方法被普遍应用于地震、气象和水文方面的预报、地质资源的评 介等领域。应 用中的错误及贝叶斯学派3应用中的错误及贝叶斯学派统计学发展在趋于成熟并得到大量应用后,一些回避不了的弱点开始显露并逐渐为人们所重视。传统的统计方法不能充分利用过去经验积累起来的知识,小 样本问题里表现出来难以克服的局限性,这一点在可靠性统计问题中特别突出。二 战后数理统计的发展中,一个引人注目的现象是贝叶斯学派的崛起。他们用独到的方法,加入了过去积累的经验因素,在应用中常能得到意想不到的效果。虽然如此,贝叶斯方法仍存在很多困难,先验分布的客观性常引起非议。贝叶斯学派的观点还难以被广大统计工作者普遍接受,因此和传统学派的争论仍将长期存在。目前情况,后者大体上仍处于支配地位。
展开阅读全文