论文写作中存在的数理统计问题

上传人:wuy****ng 文档编号:246625859 上传时间:2024-10-15 格式:PPT 页数:48 大小:450.98KB
返回 下载 相关 举报
论文写作中存在的数理统计问题_第1页
第1页 / 共48页
论文写作中存在的数理统计问题_第2页
第2页 / 共48页
论文写作中存在的数理统计问题_第3页
第3页 / 共48页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据分析中数理统计方法的正确使用,报告人,:,张利田,环境科学学报,编委会执行副主编、编辑部主任,2006-11-26,重要假定,作者所处理的数据属于随机变量的特定样本。,作者已经掌握最基本的数理统计学常识,如概率、假设检验、均值、方差、标准差、正态分布、相关分析、回归分析、方差分析,。,数理统计问题的重要性,在科学研究中,经常会涉及到对随机变量,大小,、,离散,及,分布,特征的描述以及对,2,个或多个随机变量之间的,关系,描述问题。,地学、环境科学研究也不例外,。,对随机变量及随机变量之间的关系进行定量描述的数学工具就是,数理统计学,。,在科学研究中,能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。所以,,来稿中使用的数理统计方法是否正确,应是学术期刊编辑们极为重视的问题。,目前,国内环境科学与技术类学术期刊对稿件中数理统计方法问题的重视程度存在差异。,1,统计软件的选择,统计分析通常涉及大量的数据,需要较大的计算工作量。,在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及的今天,这样做是毫无必要的。,出于对,工作效率,以及对,算法的通用性、可比性,的考虑,一些学术期刊要求作者采用专门的数理统计软件进行统计分析。,1,统计软件的选择,环境科学学报,的编辑们在处理稿件时经常发现的问题是:,作者未使用专门的数理统计软件,而采用,Excel,这样的电子表格软件进行数据统计分析。,由于电子表格软件提供的统计分析功能十分有限,只能借助它进行较为简单的统计分析,故我们不主张作者采用这样的软件进行统计分析。,1,统计软件的选择,目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有,SPSS,(Statistical,Package for Social Sciences),和,SAS,(Statistical,Analysis System),。,此外,还有,BMDP,和,STATISTICA,等,。,SPSS,是专门为社会科学领域的研究者设计的,但此软件在自然科学领域也得到广泛应用。,BMDP,是专门为生物学和医学领域研究者编制的统计软件。,1,统计软件的选择,目前,国际学术界有一条不成文的约定:凡是用,SPSS,和,SAS,软件进行统计分析所获得的结果,在国际学术交流中不必说明具体算法。由此可见,,SPSS,和,SAS,软件已被各领域研究者普遍认可。,我们建议作者们在进行统计分析时尽量使用这,2,个专门的统计软件。目前,有关这,2,个软件的使用教程在书店中可很容易地买到。,2,均值的计算,:理论问题,均值(准确的称呼应为“样本均值”)的统计学意义:反映随机变量样本的大小特征。,均值对应于随机变量总体的数学期望,总体的数学期望客观上决定着样本的均值,反过来,通过计算样本的均值可以描述总体的数学期望。,在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。,为找到代表这些观测值总体大小特征的代表值(统计量,该统计量根据样本数据算出),多数作者会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的,不一定总是正确的。,2,均值的计算:技术问题,在数理统计学中,作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。,何时用算术平均值?何时用几何平均值?以及何时用中位数?,这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特征确定,。,2,均值的计算:技术问题,反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其数学期望就可以用样本的算术平均值描述。此时,可用样本的,算术平均值,描述随机变量的大小特征。,如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则几何平均值就是数学期望的值。此时,就可以计算变量的,几何平均值,。,如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。此时,可用,中位数,来描述变量的大小特征。,3,相关分析,:相关系数的选择,在相关分析中,作者们常犯的错误是:简单地计算,Pearson,积矩相关系数,而且既不给出正态分布检验结果,也往往不明确指出所计算的相关系数就是,Pearson,积矩相关系数。,在数理统计学中,除有针对数值变量设计的,Pearson,积矩相关系数(对应于“,参数方法,”)外,还有针对顺序变量(即“秩变量”)设计的,Spearman,秩相关系数和,Kendall,秩相关系数(对应于“,非参数方法,”)等。,Pearson,积矩相关系数可用于描述,2,个随机变量的线性相关程度,,Spearman,或,Kendall,秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。,3,相关分析:相关系数的选择,在相关分析中,计算各种相关系数是有前提条件的。,在相关分析中,对于秩变量,一般别无选择,只能计算,Spearman,或,Kendall,秩相关系数。,对于数值变量,只要条件许可,应尽量使用,检验功效最高,的参数方法,即计算用,Pearson,积矩相关系数。只有计算,Pearson,积矩相关系数的前提不存在时,才考虑退而求其次,计算专门为秩变量设计的,Spearman,或,Kendall,秩相关系数(,尽管这样做会导致检验功效的降低,)。,3,相关分析:相关系数的选择,对于数值变量,相关系数选择的依据是变量是否服从正态分布,或变换后的数据是否服从正态分布。,对于二元相关分析,如果,2,个随机变量服从二元正态分布假设,则应该用,Pearson,积矩相关系数描述这,2,个随机变量间的相关关系。,如果样本数据不服从二元正态分布,则可尝试进行数据变换,看变换后的数据是否符合正态分布?如果是,则可以针对变换后的数据计算,Pearson,积矩相关系数;否则,就不能计算,Pearson,积矩相关系数,而应改用检验功效较低的,Spearman,或,Kendall,秩相关系数(此时,如果强行计算,Pearson,积矩相关系数有可能会得出完全错误的结论)。,4,相关分析与回归分析的区别,相关分析和回归分析是极为常用的,2,种数理统计方法,在环境科学及其它科学研究领域有着广泛的用途。然而,由于这,2,种数理统计方法在计算方面存在很多相似之处,且在一些数理统计教科书中没有系统阐明这,2,种数理统计方法的内在差别,从而使一些研究者不能严格区分相关分析与回归分析,。,4,相关分析与回归分析的区别,最常见的错误是,:,用回归分析的结果解释相关性问题。例如,作者将“回归直线(曲线)图”称为“相关性图”或“相关关系图”;将回归直线的,R,2,(,拟合度,或称“可决系数”,),错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果宣称,2,个变量之间存在正的或负的相关关系。,4,相关分析与回归分析的区别,相关分析与回归分析均为研究,2,个或多个变量间关联性的方法,但,2,种数理统计方法存在本质的差别,即它们用于不同的研究目的。,相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。,4,相关分析与回归分析的区别,在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。这是相关分析方法本身所决定的。,4,相关分析与回归分析的区别,对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(有确定的取值)也可以是随机变量。,4,相关分析与回归分析的区别,如果自变量是普通变量,即模型,回归分析,采用的回归方法就是最为常用的最小二乘法。,如果自变量是随机变量,,即模型,回归分析,,所采用的回归方法与计算者的目的有关。,在以预测为目的的情况下,仍采用“最小二乘法”(但精度下降,最小二乘法是专为模型,设计的,未考虑自变量的随机误差);,在以估值为目的(如计算可决系数、回归系数等)的情况下,应使用相对严谨的方法(如“主轴法”、“约化主轴法”或“,Bartlett,法”)。,4,相关分析与回归分析的区别,显然,对于回归分析,如果是模型,回归分析,鉴于两个随机变量客观上存在“相关性”问题,只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段,因此,若以预测为目的,最好不提“相关性”问题;,若以探索两者的“共变趋势”为目的,,应该改用相关分析。,如果是模型,回归分析,就根本不可能回答变量的“相关性”问题,,因为普通变量与随机变量之间不存在“相关性”这一概念,(问题在于,大多数的回归分析都是模型,回归分析!)。此时,即使作者想描述,2,个变量间的“共变趋势”而改用相关分析,也会因相关分析的前提不存在而使分析结果毫无意义。,4,相关分析与回归分析的区别,需要特别指出的是,回归分析中的,R,2,在数学上恰好是,Pearson,积矩相关系数,r,的平方。因此,这极易使作者们错误地理解,R,2,的含义,认为,R,2,就是“相关系数”或“相关系数的平方”。问题在于,对于自变量是普通变量(即其取值有确定性的变量)、因变量为随机变量的模型,回归分析,,2,个变量之间的“相关性”概念根本不存在,又何谈“相关系数”呢?,更值得注意的是,一些早期的教科书作者不是用,R,2,来描述回归效果(拟合程度,拟合度)的,而是用,Pearson,积矩相关系数来描述。这就更容易误导读者。,5,重要的数理统计学常识,1,)假设检验,假设检验的基本思想,统计推断,:是根据样本数据推断总体特征的一种方法。,假设检验:,是进行,统计推断,的途径之一(另一种途径是参数估计,如点估计和区间估计)。,假设检验的基本思路是,:首先,对总体参数值提出假设(原假设);然后,利用样本数据提供的信息来验证所提出的假设是否成立(统计推断),-,如果样本数据提供的信息不能证明上述假设成立,则应拒绝该假设;如果样本数据提供的信息不能证明上述假设不成立,则不应拒绝该假设。,接受或拒绝原假设的依据,:小概率事件不可能发生。显然,这样做是有风险的(小概率事件真的发生了)。,假设检验中的关键问题,:,1,)在原假设成立的情况下,如何计算样本值或某一极端值发生的概率?,2,)如何界定小概率事件?,5,重要的数理统计学常识,1,)假设检验,假设检验的基本步骤,1,)提出原假设(或称“零假设”,,H,0,);,2,)选择检验统计量;,3,)根据样本数据计算检验统计量观测值的发生概率(相伴概率,,p,);,4,)根据给定的小概率事件界定标准(显著性水平,如,0.05,,,0.01,)做出统计推断。,假设检验的基本步骤,为什么要设计并计算检验统计量?,在假设检验中,样本值(或更极端的取值)发生的概率不能直接通过样本数据计算,而是通过计算,检验统计量观测值,的发生概率而间接得到的。,所设计的检验统计量一般服从或近似服从某种已知的理论分布(如,t-,分布、,F-,分布、卡方分布),易于估算其取值概率。,对于不同的假设检验和不同的总体,会有不同的选择检验统计量的理论和方法,。,假设检验的基本步骤,计算检验统计量观测值的发生概率,在假定原假设成立的前提下,利用样本数据计算检验统计量观测值发生的概率(即,p,值,又称“相伴概率,”,指该检验统计量在某个特定的极端区域在原假设成立时的概率)。该概率值间接地给出了在原假设成立的条件下样本值(或更极端值)发生的概率。,假设检验的基本步骤,进行统计推断,依据预先确定的“显著性水平”(即,值),如,0.01,或,0.05,,决定是否拒绝原假设。,如果,p,值小于,值,即认为原假设成立时检验统计量观测值的发生是小概率事件,则拒绝原假设。否则,就接受原假设。,显著性水平:概念与意义,在假设
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!