二因素模型下可决系数平方研究计算应用数学专业

资源描述

二因素模型下可决系数平方研究计算摘要：两个及两个以上控制变量对观测变量产生显著影响的被称作多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量产生的独立影响，而且能够分析多个控制因素的交互作用对观测变量的分布是否会产生显著影响，找到最有利于观测变量的最优组合。可决系数（即复可决系数或多重可决系数）为解释变差占总变差的比重，用来表示解释变量对被解释变量的解释程度。可决系数可以作为综合度量回归模型对样本观测值拟合优度的度量指标。关键词：二因素模型；可决系数；修正可决系数Study and calculation of the Square of the determinable coefficient under the Two-Factor ModelAbsrtact: Two or more control variables have a significant effect on the observed variables, which are called multivariate anova. Multi-factor analysis of variance can not only analyze the independent effects of multiple factors on the observed variables, and can analyze multiple control factors in the interaction of the distribution of observation variables will have a significant impact, find the most beneficial to the optimal combination of the observed variables. The coefficient of determination (i.e., the complex or multiple deterministic coefficient) is used to explain the degree of explanatory variable to the explained variable. The coefficient of determination can be used as a measure to measure the goodness of the sample.Keywords: Two-factor model; determinability coefficient; modified determinability coefficient引言在回归分析中，模型的拟合度一般采用可决系数（）和修正的可决系数（）来衡量，但会受到自变量个数，样本数和可决系数本身大小等多重因素的影响，所以难以得到准确的分布函数及其特征。判断回归模型拟合优度程度优劣最常用的数量是指标可决系数（又被称为决定系数），是建立在对总离差平方和进行分解的基础上。可决系数是对回归模型拟合程度的综合度量，越大，模型拟合程度越高。越小，则模型对样本的拟合程度越差。然而可决系数在实际的模型运用中往往会受到许多因素的影响，在检验回归方程与样本值的拟合优度是不恰当的。因此引入了修正的可决系数，即随着解释变量个数的增加而减少，不会增加，所增加解释变量个数会引起的可决系数的增大，但增大与拟合优劣无关。所以就必须对可决系数进行调整，使之能够更好的拟合。1 可决系数的定义及研究意义 1.1 可决系数的定义回归直线拟合的好坏取决于RSS及ESS的大小，或者说取决于回归平方和ESS占总平方和TSS比例（ESS/TSS）的大小。各观测点越靠近近直线，ESS/TSS则越大，直线拟合得越好。将回归平方和占总平方和的比例定义为样本决定系数，即可决系数，记为，即可决系数表示了回归直线对观测数据的拟合优度。若所有观测点都落在直线上，残差平方和RSS=0，=1，拟合是完全的；如果Y的变化与X无关，X完全无助于解释Y的变差，此时，,则=0。可见的取值范围是0，1。越接近于1，说明回归平方和占总平方和的比例越大，回归直线越接近于各个观测点，用X的变化来解释Y值变差的部分就越多，回归直线的拟合程度就越好；反之，越接近于零，回归直线的拟合程度就越差。1.2现实意义（1）理论意义：可决系数（也称R方），指的是回归平方和（ESS -explained sum of squares）在总变差（TSS -total sum of squares）中所占据的比重（其中或）。可以当作综合度量回归模型对样本观测值拟合优度的度量指标。通常取值范围为0-1之间，取值越大表示模型的拟合程度愈高，说明变量之间的相关程度也愈高，其因变量的变化可由自变量解释部分的比重愈大。取值越小则表示模型拟合程度越低，说明变量之间的相关程度也就越低，其因变量的变化可由自变量解释部分的比重越小。（2）现实意义：可决系数（即复可决系数或多重可决系数）为解释变差占总变差的比重，用来表示解释变量对被解释变量的解释程度。在实际运用中，拟合优度作为一种统计方法常用来衡量模型中期望值和实际值之间的差距。换言之是用来衡量怎样将实际观测的数值进行模拟的相关预测。拟合优度同样也可以运用到医学和药物检测、食品科学、电力建设、地震研究等多方面领域。 2可决系数以及修正可决系数的研究现状2.1国外研究现状Karl Pearson 在1900年发表的关于拟合优度检验的论文被看作是近代数理统计的开端，在这篇论文中对统计学应用一个常见的重要问题提出一个判定标准，即一组随机观测数据能否合理地看成是来自一个其分布完全已知的总体。自Karl Pearson第一次提出了拟合优度检验的定义，对于这个问题的研究便有了很大的发展，有的是扩展和深入，有的是基于新的概念上的研究。对于扩展和深入，其主要代表性的结论有1924年Fisher提出了估计参数丢失自由度的原则和所谓的极小估计。1946年Cramer提出了著名的似然比检验结果。1949年Neyman提出了修正的统计量1984年Cressie和Read提出了系统的幂偏差统计量理论等。对于在新概念上的研究，其主要代表性结论是1933年Kolmogorov提出了Kolgorov-Smilnov统计量。以及40年代末和50年代初发展起来的Cramer-von Miaes型统计量等一系列基于经验分布的检验方法。Cramer(1987),定义可决系数是的概率极限：对于给定的U，可以算出。然后依据，算出，其次应用系数和反复多次的随机序列，估计出Y，用估算出来的Y和原先解释变量样本回归就可以得出不同的可决系数，分析其性质，并和给定的U作对比，进而发觉可决系数的一般规律。PressandZellner（1978）指出的，可决系数可以反映反映模型的拟合度但由于可决系数分布的复杂性并且依附于未知参数，故其反应有限。PressandZellner（1978）证实了在估算的准确度，选取贝叶斯方法是很有用的，可以用后验分布来估算的置信区间。 Ohtani(1994)给出了的分布函数和高阶矩函数，分别是：其中，是分布函数，是Beta函数，。在公式中令和，就可以分别得出和的分布函数和高阶矩函数。而从公式中可以得知，分布函数和高阶函数包含未知参数，而又包含估计值，因此实际运用中就无法依据分布函数精准地算出和的均值和方差。对于和的估计值和标准误差，并建立它们的置信区间可以运用迭代算法，可以分析残差的特征对迭代方法的影响。蒙特卡洛试验证明了方法的可行性和有效性。迭代法是先依据样本估算出参数值，在应用估算出来的参数重新计算新的样本，在根据新的样本估计参数，重复一定的频率，从而得出参数估计的一个序列，用来分析其均值和方差，以反映参数的特点。2.2国内研究现状早在50年代初期，我国著名统计学家张里千教授就得出了Kolgorov-Smilnov统计量的精确分布，并对随机观察得到了一组以随机数据，而在90年代初，杨振海教授又运用引入的人工参数方法，从而建立出了拟合优度的线性模型，得出了检验统计量，并探究了一些关于大样本的性质。其基础思想是应用人工参数将P.P.plot作图法转变为对线性模型的说明，进而将拟合优度检验问题改变为参数的检验问题。3可决系数和修正的可决系数在拟合优度中作用作为检验回归方程与样本值拟合优度的指标，越大（），表明回归方程与样本拟合程度的愈好；反之，越小（）表明回归方程与样本值拟合程度的就愈差。当然，我们都期望愈大愈好，而在对的使用上很简单就可以看出，与模型中解释变量的数目有关联。4可决系数平方修正模型4.1修正可决系数的定义可决系数是回归解释变量数的非减函数，也就是说引入的解释变量越多可决系数可能会更高,但是并不是每个解释变量都有效的。因此引入了修正的可决系数，即随着解释变量个数的增加而减少，不会增加，所增加解释变量个数会引起的可决系数的增大，但增大与拟合优劣无关。所以就必须对可决系数进行调整，使之能够更好的拟合，其计算公式为：式中，（n-k-1）为残差平方和（）的自由度；（n-1）为总离差平方和（）的自由度。4.2可决系数与修正可决系数之间的关系修正的可决系数与未修正的多重可决系数之间的关系如下：或从可以看出，当增加一个解释变量是，会增加，引起（）的减少，但增加，因而不会增加。这样，用判定回归方程与样本值拟合优度就消除了对解释变量个数的依赖。另外从还可以看出，当k1时，；如果样本的观测数目n很多，与相差较小，当使用小样本时，解释变量的数目很多，就会远远小于，甚至可能会取负值。在中，当（）时，0。此时，修正的应视为零。在现实生活中，我们希望所建模型的越大越好。但可决系数只是对模型拟合优度的度量，越大，虽能阐述列入模型中的解释变量对被解释变量整体影响程度越大，但并不能全面阐明模型中各个解释变量对被解释变量的影响程度是显著。5可决系数的局限性是线性回归分析中反映回归方程对样本拟合程度的一个常用指标。但是，计量经济研究中大量的回归实践却说明，所表明的拟合优度存在重要的缺陷，在实践应用中还可见的不恰当检验，因此对数量经济学理论方法与实践的结合中往往会形成许多不好的影响。由于其总变差的局限，作为回归模型的拟合优度在理论上是不适当的。具体体现在：拟合优度检验只能说明模型对样本数据的近视情况，利用给定的样本值得到了回归方程，我们的目标就是利用回归方程对总体进行经济分析和预测。回归方程是否可以代表总体，就是总体模型的设定是否显著，就必须进行统计学意义上的检验。但是拟合优度与拟合误差一定是相互依存的，它们之间不可能独立于对方而孤立存在。与相对应的误差概念是：是关于Y的总变差的拟合误差率。与Y之间的残差是回归分析中最重要的拟合误差，总变差与Y总变差之间的拟合误差要次之。因此，一样由于其总变差有一定的局部性，用作回归模型的拟合误差率概念也是不确切的。6实证分析方程一k=0j=1方程二k=0j=2方程三k=0j=3方程四k=1j=1方程五k=1j=2方程六k=1j=3方程七k=2j=1方程八k=2j=2方程九k=2j=3-0.5490.0040.003-0.4980.0450.042-0.622-0.063-0.080(0.000)0.015(0.030)(0.821)(0.842)(0.000)0.032(0.000)(0.096)0.013(0.000)(0.143)0.015(0.000)(0.000)(0.256)0.027(0.000)(0.127)0.030(0.000)0.017(0.015)0.0120.073-0.016(0.000)-0.016(0.000)-0.024(0.000)-0.024(0.000)0.036(0.000)F5.464(0.001)47.200(0.000)9.145(0.000)9.950(0.000)14.943(0.000)9.553(0.000)11.169(0.000)调整后0.0940.0000.0000.2160.1110.1430.0960.1160.134（以我国货币供应量对股票价格的变化的可决系数为案例进行实证分析）观察以上结果，发现以下特征，当期以及提前1期和2期的M0同比增长率对上证综合指数的变化产生显著的正影响，但调整后的可决系数却变低，解释能力不强；而当期以及提前3期以内的M0的同比增长率对比上证180指数和深证综合指数却不产生影响。当期M1同比增长率对上证综合指数的变化有显著的正影响，且调整后的可决系数可达0.216，为7个整体显著的方程中最高，其他6个方程的调整后可决系数约在0.1左右；当期M1同比增长率对比上证180指数和深证综合指数的变化会产生显著的正影响，而提前2期的M1同比增长率则对当期的上证180指数和深证综合指数的变化产生显著的负影响，后者系数绝对值稍微大于前者。提前3期的M2同比增长率对上证综合指数的变化也有显著的正影响；当期M2同比增长率对上证180指数和深证综合指数的变化有显著的正影响，而提前2期的M2同比增长率则对当期的上证180指数和深证综合指数的变化有负影响，后者系数绝对值略小于前者。对以上的实证结果进行分析，当k=1或2是，方程中回归系数显著、方程整体显著，说明M1和M2供应量的变化的确会影响股票价格水平，而M0的变化与我国股市的联系没有M1和M2那么紧密。较低的调整后可决系数表明，货币供应量的变化只能解释股票价格变动很小的一部分原因。结束语在因变量的总变动中，被样本回归方程所解释的部分愈多，说明样本观测值与回归直线的拟合效果愈好，否则，就说明样本观测值与回归直线的拟合效果不理想。因此，可以用回归平方和占总的离差平方和的比重来衡量模型的拟合优劣程度，称为判定系数，记作。可决系数和修正的可决系数作为检验回归方程与样本值拟合优度的指标，越大（），表明回归方程与样本拟合的愈好；反之越小，则表明回归方程与样本值拟合就愈差。但在实际生活中的运用却表明着可决系数也存在着许多不足之处，对数量经济学理论方法与应用实践造成很多不良影响。现在可决系数及修正的可决系数被广泛应用于金融及医学等方面的领域，在未来的研究过程中，应该尽量修复可决系数的缺陷，降低其造成的不良影响，提高拟合优度的准确性，使其更广泛的应用于更多领域。参考文献1 Daniel C. Jupiter. Investigators Corner: Snug as a Bug: Goodness of Fit and Quality of ModelsJ 20172 Martin Eling. Data breaches: Goodness of Fit, pricing, and risk measurementJ 20173 王巧英. 回归估计标准误差与可决系数的比较J，统计与决策， 20064 李军军；张建涛. 回归模型可决系数的可决性研究J，统计与决策，20055 王重；刘黎明. 拟合优度检验统计量的设定方法J，统计与决策，20106 郭丽红. 多元分布拟合优度检验及其应用D，华北电力大学，20147 孙立宏. 析二因素无交互作用方差分析中数学模型的建立J，职大学报， 20108 李子奈. 计量经济学M,高等教育出版社，20009 李景华；朱尚伟：关于的几点质疑J，数量经济技术经济研究，201310 赵松山：对拟合优度的影响因素分析与评价J,东北财经大学学报，200311 赵文奇：经济计量学建模方法论研究M,成都：西南财经大学出版社，199812 姜诗章，王锦功：计量经济学教程M，吉林：吉林大学出版社，198913 刘明：线性回归模型的统计检验关系辨析J,统计与信息论坛，201114 程维虎：拟合优度检验的回归分析方法及其应用J，北京工业大学学报，200015 黄兴旺；胡四修；郭军：中国股票市场的二因素模型J,当代经济科学，2002

展开阅读全文

二因素模型下可决系数平方研究计算应用数学专业

最新文档