matlab回归分析方法

资源描述

第八章回归分析方法当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时，一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制，无法分析实际对象内在的因果关系，建立合乎机理规律的数学模型，那么通常的办法是搜集大量数据，基于对数据的统计分析去建立模型。本章讨论其中用途非常广泛的一类模型统计回归模型。回归模型常用来解决预测、控制、生产工艺优化等问题。变量之间的关系可以分为两类：一类叫确定性关系，也叫函数关系，其特征是：一个变量随着其它变量的确定而确定。另一类关系叫相关关系，变量之间的关系很难用一种精确的方法表示出来。例如，通常人的年龄越大血压越高，但人的年龄和血压之间没有确定的数量关系，人的年龄和血压之间的关系就是相关关系。回归分析就是处理变量之间的相关关系的一种数学方法。其解决问题的大致方法、步骤如下：（1）收集一组包含因变量和自变量的数据；（2）选定因变量和自变量之间的模型，即一个数学式子，利用数据按照最小二乘准则计算模型中的系数；（3）利用统计分析方法对不同的模型进行比较，找出与数据拟合得最好的模型；（4）判断得到的模型是否适合于这组数据；（5）利用模型对因变量作出预测或解释。应用统计分析特别是多元统计分析方法一般都要处理大量数据，工作量非常大，所以在计算机普及以前，这些方法大都是停留在理论研究上。运用一般计算语言编程也要占用大量时间，而对于经济管理及社会学等对高级编程语言了解不深的人来说要应用这些统计方法更是不可能。MATLAB等软件的开发和普及大大减少了对计算机编程的要求，使数据分析方法的广泛应用成为可能。MATLAB统计工具箱几乎包括了数理统计方面主要的概念、理论、方法和算法。运用MATLAB统计工具箱，我们可以十分方便地在计算机上进行计算，从而进一步加深理解，同时，其强大的图形功能使得概念、过程和结果可以直观地展现在我们面前。本章内容通常先介绍有关回归分析的数学原理，主要说明建模过程中要做的工作及理由，如模型的假设检验、参数估计等，为了把主要精力集中在应用上，我们略去详细而繁杂的理论。在此基础上再介绍在建模过程中如何有效地使用MATLAB软件。没有学过这部分数学知识的读者可以不深究其数学原理，只要知道回归分析的目的，按照相应方法通过软件显示的图形或计算所得结果表示什么意思，那么，仍然可以学到用回归模型解决实际问题的基本方法。包括：一元线性回归、多元线性回归、非线性回归、逐步回归等方法以及如何利用 MATLAB 软件建立初步的数学模型，如何透过输出结果对模型进行分析和改进，回归模型的应用等。8.1 一元线性回归分析回归模型可分为线性回归模型和非线性回归模型。非线性回归模型是回归函数关于未知参数具有非线性结构的回归模型。某些非线性回归模型可以化为线性回归模型处理；如果知道函数形式只是要确定其中的参数则是拟合问题，可以使用MATLAB软件的curvefit命令或nlinfit命令拟合得到参数的估计并进行统计分析。本节主要考察线性回归模型。811 一元线性回归模型的建立及其MATLAB实现y = B + P x + ee N（Oq2）01其中卩，P是待定系数，对于不同的兀y是相互独立的随机变量。O1假设对于x的n个值xi得到y的n个相应的值确定卩0，卩1的方法是根据最小乘准则，要使Q（卩，卩）=工匕2 =工y 一（B +卩x ）201ii01 ii=1i=16060八八取最小值。利用极值必要条件令霸 =0,善=0，求卩，卩的估计值卩，卩，从而得到6P6Po io 101回归直线y = 0 +0x。只不过这个过程可以由软件通过直线拟合完成，而无须进行繁杂的01运算。（1）参数的区间估计由于我们所计算出的0，0仍然是随机变量，因此要对0，0取值的区间进行估计， 0 1 0 1如果区间估计值是一个较短的区间表示模型精度较高。（2）对误差方差的估计设y为回归函数的值，y为测量值，残差平方和ii0 =工(y - y)2iii=1剩余方差s 2 =3）线性相关性的检验由于我们采用的是一元线性回归，因此，如果模型可用的话，应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R的值及F值观察（后面的例子说明）。（4）一元线性回归的MATLAB实现MATLAB工具箱中用命令regress实现，其用法是：b=regress(y,x)b ,bint , r ,rint , s=regress（y , x , alpha）输入y （因变量，列向量）、x（1与自变量组成的矩阵，见下例），alpha是显著性水平（缺省时默认 0.05）。输出b =（打，0丿，注意：b中元素顺序与拟合命令polyfit的输出不同，bint是00,几的置信区间，r是残差（列向量），rint是残差的置信区间，s包含4个统计量：决定系数R2 （相关系数为R）； F值；F（1,n-2）分布大于F值的概率p；剩余方差s2的值（MATLAB7.0以后版本）。s2也可由程序sum（r42）/（n-2）计算。其意义和用法如下：R2的值越接近1,变量的线性相关性越强，说明模型有效；如果满足F （1,n - 2） F，则认为变量y与x显著地有线性关系，其中F （1,n -2）的值可查F分 1-a1-a布表，或直接用MATLAB命令finv(l ,1, n-2)计算得到；如果p m）得n组观察值，采用最小1 2 m二乘估计求得回归方程y=0 +0 x +0 x .0 1 1 k m建立回归模型是一个相当复杂的过程，概括起来主要有以下几个方面工作（1）根据研究目的收集数据和预分析；（2）根据散点图是否具有线性关系建立基本回归模型；（3）模型的精细分析；（4）模型的确认与应用等。收集数据的一个经验准则是收集的数据量（样本容量）至少应为可能的自变量数目的610倍。在建模过程中首先要根据所研究问题的目的设置因变量，然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量，同时这些变面通过一个案例探讨MATLAB软件在回归分析建模各个环节中如何应用。多元线性回归的MATLAB实现仍然用命令regress , X），只是要注意矩阵X的形式，将通过如下例子说明其用法。8.2.2 某类研究学者的年薪1. 问题例2 工薪阶层关心年薪与哪些因素有关，以此可制定出它们自己的奋斗目标。某科学基金会希望估计从事某研究的学者的年薪 Y 与他们的研究成果（论文、著作等）的质量指标X、从事研究工作的时间X2、能成功获得资助的指标x3之间的关系，为此按一定的实验设计方法调查了 24位研究学者，得到如下数据（i为学者序号）：表 8-2 从事某种研究的学者的相关指标数据i123456789101112xi13.55.35.15.84.26.06.85.53.17.24.54.9x9201833311325305472511xi36.16.47.46.77.55.96.04.05.88.35.06.4yi33.240.338.746.841.437.539.040.730.152.938.231.8i131415161718192021222324xi18.06.56.63.76.27.04.04.55.95.64.83.9xi223353921740352333273415xi37.67.05.04.45.57.06.03.54.94.38.05.8y43.344.142.533.634.248.038.035.940.436.845.235.1i试建立Y与X,X ,X之间关系的数学模型，并得出有关结论和作统计分析。1232. 作出因变量Y与各自变量的样本散点图作散点图的目的主要是观察因变量Y与各自变量间是否有比较好的线性关系，以便选择恰当的数学模型形式。下图分别为年薪Y与成果质量指标X、研究工作时间X、获得资助的指 12标 X 之间的散点图，3subplot(1,3,1),plot(x1,Y, g*),% subplot 是 MATLAB 中的函数。1使用方法：subplot (m,n,p)或者 subplot (m n p)。subplot是将多个图画到一个平面上的工具。其中，m表示是图排成m行，n表示图排成n列，也就是整个figure中有n个图是排成一行的，一共m行，如果m=2就是表示2行图。p表示图所在的位置，p=l表示从左到右从上到下的第一个位置。subplot(1,3,2),plot(x2,Y, k+),subplot(1,3,3),plot(x3,Y, ro),从图可以看出这些点大致分布在一条直线旁边，因此，有比较好的线性关系，可以采用线性回归。555045403551055504540350 50Y 与 x2 的散点图55504540350 5 10Y 与 x3 的散点图30 0Y 与 x1 的散点图图 8.1 因变量 Y 与各自变量的样本散点图3. 利用MATLAB统计工具箱得到初步的回归方程设回归方程为：y = 0 +0x + 0 x + 0 x .0 11 2 3 33建立m-文件输入如下程序数据：x1=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9; x2=9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15;x3=6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0; Y=33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1;n=24; m=3;X=ones(n,1),x1,x2,x3;b,bint,r,rint,s=regress(Y,X,0.05); b,bint,r,rint,s,运行后即得到结果如表8-3 所示。表 8-3 对初步回归模型的计算结果回归系数回归系数的估计值回归系数的置信区间0018.015713.9052 22.1262011.08170.39001.7733020.32120.2440 0.3984031.28350.66911.8979R2=0.9106 F=67.9195 p F (m,n -m-1),即认为因变量y与自变量x ,x , ,x之间显1d1 2m著地有线性相关关系；否则认为因变量y与自变量x,x ,x之间线性相关关系不显著。12m本例 F=67.919 F(3,20) = 3.10 (查 F 分布表或输入命令 finv(0.95,3,20)计算)。1-0.05(3) p值检验：若p(a为预定显著水平)，则说明因变量y与自变量x ,x , ,x之1 2 m间显著地有线性相关关系。本例输出结果，p0.0001,显然满足Pa =0.05。以上三种统计推断方法推断的结果是一致的，说明因变量y与自变量之间显著地有线性相关关系，所得线性回归模型可用。 s 2当然越小越好，这主要在模型改进时作为参考。4. 模型的精细分析和改进(1) 残差分析残差e = y - y (i = 1,2, n)，是各观测值y与回归方程所对应得到的拟合值y之i i iii差，实际上，它是线性回归模型中误差*的估计值。N(0,o2)即有零均值和常值方差, 利用残差的这种特性反过来考察原模型的合理性就是残差分析的基本思想。利用MATLAB 进行残差分析则是通过残差图或时序残差图。残差图是指以残差为纵坐标，以其他指定的量为横坐标的散点图。主要包括：(1)横坐标为观测时间或观测值序号；(2)横坐标为某个自变量的观测值；(3)横坐标为因变量的拟合值。通过观察残差图，可以对奇异点进行分析还可以对误差的等方差性以及对回归函数中是否包含其他自变量、自变量的高次项及交叉项等问题给出直观的检验。以观测值序号为横坐标，残差为纵坐标所得到的散点图称为时序残差图，画出时序残差图的MATLAB语句为rcoplot(r,rint)(图8.2)。可以清楚看到残差大都分布在零的附近, 因此还是比较好的，不过第4、12、19这三个样本点的残差偏离原点较远，如果作为奇异点看待，去掉后重新拟合，则得回归模型为：y = 19.0808 + 0.8616x + 0.3176x +1.3463 x1 2 3 且回归系数的置信区间更小均不包含原点，统计变量 stats 包含的三个检验统计量：相关系数的平方R2，假设检验统计量F,概率P ，分别为：0.9533 ；115.5586 ；0.0000，比较可知R，F均增加模型得到改进。图 8.2 时序残差图（2）变量间的交互作用讨论变量间的交互作用包括：不同自变量之间的交互作用以及同一变量的自相关性。不同自变量之间的交互作用：有时，在实验中不仅单因素对指标有影响，而且因素间还会联合起来对指标产生影响，常称这种联合作用为交互作用。处理两个因素间交互作用的一个简单办法是加入这两个自变量的乘积项。本文案例如果加入交互项则为：/ / / / / / /y = |3+|3x + |3 x + |3 x+ |3xx + |3xx + |3x x0 11 23 33 412 513 6 23用表8.2的数据，利用MATLAB统计工具箱得到回归系数分别为：27.0727 ,1.1147,-0.0215 ， -0.1843 ， 0.0033 ， -0.0054 ， 0.0511 。但它们的置信区间均包含原点，其他指标也不理想,因此,本例中其交互作用并不显著,该模型不如前面两个模型好。自相关性的诊断和处理：若数据是以时间为序的,称为时间序列数据。在时间序列数据中,同一变量的顺序观测值之间出现的相关现象称为自相关。一旦数据中存在这种自相关序列,如果仍采用普通的回归模型直接处理,将产生不良后果,使预测失去意义。自相关的诊断主要有图示检验法、相关系数法和DW检验法。图示检验法是通过绘制残差e散点图观t察，如果散布点匕Jet），t = 2,3,n大部分点落在第1,11像限，表明存在着正的序列相关；如果大部分点落在第II,IV象限，表明存在着负的序列相关。对DW检验法可以利用MATLAB软件编程计算统计量:DW沁然后查阅DW检验上下界表，以决定模型的自相关状态。当一个回归模型存在序列相关性时，首先要查明序列相关产生的原因。如果是回归模型选用不当，则应改用适当的回归模型；如果是缺少重要的自变量，则应增加自变量；如果以上方法都不能消除序列相关性，则需要采用差分法、迭代法等处理，更详细内容参见相关概率统计参考文献。8.2.3 逐步回归方法建模逐步回归就是一种从众多自变量中有效地选择重要变量的方法。逐步回归的基本思路是，先确定一个包含若干自变量的初始集合，然后每次从集合外的变量中引入一个对因变量影响最大的，再对集合中的变量进行检验，从变得不显著的变量中移出一个影响最小的，依此进行，直到不能引入和移出为止。引入和移出都以给定的显著性水平为标准。MATLAB统计工具箱中逐步回归的命令是stepwise，它提供了一个人机交互式画面，通过此工具可以自由地选择变量进行统计分析。该命令的用法是：stepwise（X , Y , inmodel , alpha）其中X是自变量数据，排成nxm矩阵（m为自变量个数，n为每个变量的数据量），Y是因变量数据，排成nx 1向量,inmodel是自变量初始集合的指标，缺省时为全部自变量,alpha 为显著水平，缺省时为0.05。运行 stepwise 命令时产生图形窗口： Stepwise Plot , Stepwise Table , Stepwise History当鼠标移到图形某个区域时，鼠标点击后产生交互作用。Stepwise Plot窗口中的虚线表示回归系数的置信区间包含零点，即该回归系数与零无显著差异，一般应将该变量移去；实线则表明该回归系数与零有显著差异，应保留在模型中(蓝色表示该变量已进入模型，红色表示该变量已移出模型)。引入和移出变量还可参考Stepwise History窗口中剩余标准差RMSE是否在下降，剩余标准差RMSE最小的就是最好的模型。Stepwise Table窗口中列出了一个统计表，包括回归系数及其置信区间，以及模型的统计量剩余标准差RMSE、相关系数R-square、F 值、与F对应的概率。关于本节案例2，如果引入新的自变量x = xx , x = xx ,x = x x .也可以采用逐4 1 2 5 1 3 6 2 3 步回归法解决,源程序如下：A=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;9 2018 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15;6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.05.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0;Y=33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.5 33.6 34.2 48.0 38.035.9 40.4 36.8 45.2 35.1;x1=A(:,1);x2=A(:,2);x3=A(:,3);x4=x1.*x2;x5=x1.*x3;x6=x2.*x3;X=A,x4,x5,x6;stepwise(X,Y)运行并按上述步骤操作后可以得到本文前面线性回归相同的结论，即不含交互项的模型是最好的。在此只介绍操作过程，其交互界面，只要在MATLAB软件上一试便知。8.2.4 多项式回归多项式回归仍然属于多元线性回归，可以是一元多项式回归或多元多项式回归。一元多项式回归模型的一般形式为y = 0 +0 x + +0 xm + 801m用MATLAB求解一元多项式回归，除了使用命令polyfit(x,y,m)外，还可以使用如下命令：Polytool(x,y,m,alpha)输入x,y,m同命令polyfit，alpha是显著性水平(默认0.05)，则输出一个交互式画面，画面显示回归曲线及其置信区间，通过图左下方的 export 下拉式菜单，还可以输出回归系数估计值及其置信区间、残差等。下面通过一个用多元多项式回归的实例说明什么时候用多项式回归以及如何通过 MATLAB软件进行处理。例 3 为了了解人口平均预期寿命与人均国内生产总值和体质得分的关系，我们查阅了国家统计局资料，北京体育大学出版社出版的2000国民体质监测报告，表8-4是我国大陆 31 个省市的有关数据。我们希望通过这几组数据考察它们是否具有良好的相关关系，并通过它们的关系从人均国内生产总值(可以看作反映生活水平的一个指标)、体质得分预测其寿命可能的变化范围。体质是指人体的质量，是遗传性和获得性的基础上表现出来的人体形态结构，生理机能和心理因素综合的、相对稳定的特征。体质是人的生命活动和工作能力的物质基础。它在形成、发展和消亡过程中，具有明显的个体差异和阶段性。中国体育科学学会体质研究会研究表明，体质应包括身体形态发育水平、生理功能水平、身体素质和运动能力发展水平、心理发育水平和适应能力等五个方面。目前，体质的综合评价主要是形态机能和身体素质三类指标按一定的权重进行换算而得。表 8-4 31 个省市人口预期寿命与人均国内生产总值和体质得分数据序号预期寿命体质得分人均产值序号预期寿命体质得分人均产值序号预期寿命体质得分人均产值171.5466.165128571265.4956.77587442369.8764.30517717273.9271.25244951368.9566.01114942467.4160.48515205373.2770.135242501473.3467.97204612578.1470.2970622471.2065.125100601565.9662.953822676.1069.34547319573.9169.99299311672.3766.1190702774.9168.41540643672.5465.765182431770.0764.51109352872.9166.49511781770.6667.29107631872.5568.385220072970.1765.76510658871.8567.7199071971.6566.205135943066.0363.2811587971.0866.525132552071.73,65.77114743164.3762.8497251071.29,67.1390882173.1067.065143351174.7069 .505337722267.4763.6057898模型的建立和求解作表站数据(xi,y)(ry)的散点图如图83图 8.3 预期寿命与人均国内生产总值和体质得分的散点图从图8.3可以看出人口预期寿命y与体质得分x有较好的线性关系，y与人均国内生 2产总值x的关系难以确定，我们建立二次函数的回归模型。1一般的多元二项式回归模型可表为y =x +B x + Y B x x + 80 1 1 m m jk j k1 j ,k m。记拟合误差8 (0) = y - f (x ,0)，求 0 使误i i ii1imii i差的平方和Q(0了82(0) = 1Ly - f (x , 0)2iiii =1i=1最小。作为无约束非线性规划的特例，解非线性最小二乘拟合可用MATLAB优化工具箱命令 lsqnonlin 和 lsqcurvefit。8.3.2 非线性回归模型非线性回归模型记作y=f(x,0)+8,x=(x,x ),0=(0,0,0 )1 m01 k其中f对回归系数0是非线性的，8N(0,Q 2)。求得回归系数0的最小二乘估计。 MATLAB统计工具箱中非线性回归的命令是：b,R,J=nlinfit(x,y, model,bo)输入 x 是自变量数据矩阵，每列一个向量； y 是因变量数据向量； model 是模型的函数名(M文件)，形式为y = f (b,x) , b为待估系数0 ； b0是回归系数0的初值。输出b是0 的估计值，R是残差，J是用于估计预测误差的Jacobi矩阵。这个命令是依据高斯一牛顿法求解的。将上面的输出作为命令Bi=nlparci(b,R,J)的输入，得到的bi是回归系数0的置信区间。用命令nlintool(x,y, model,b)可以得到一个交互式画面，其内容和用法与多项式回归的Polytool类似。例 4 酶促反应速度与底物浓度酶促反应动力学简称酶动力学，主要研究酶促反应速度与底物(即反应物)浓度以及其它因素的关系。在底物浓度很低时酶促反应是一级反应；当底物浓度处于中间范围时，是混合级反应；当底物浓度增加时，向零级反应过渡。某生化系学生为了研究嘌呤霉素在某项酶促反应中对反应速度与底物浓度之间关系的影响，设计了两个实验，一个实验中所使用的酶是经过嘌呤霉素处理的，而另一个实验所用的酶是未经嘌呤霉素处理的。所得实验数据见表 8-5。试根据问题的背景和这些数据建立一个合适的数学模型，来反映这项酶促反应的速度与底物浓度以及嘌呤霉素处理与否之间的关系。表 8-5 嘌呤霉素实验中的反应速度与底物浓度数据底物浓度(ppm)0.020.060.110.220.561.10反应速度未处理6751848698115131124144158160/处理764797107123139159152191201207200分析与假设记酶促反应的速度为y，底物浓度为x ,二者之间的关系写作y = f (x, 0 )，其中B为参数(B可为一向量)。由酶促反应的基本性质可知，当底物浓度很低时酶促反应是一级反应, 此时反应速度大致与底物浓度成正比；而当底物浓度很大,渐近饱和时,反应速度将趋于一个固定值(即零级反应)。下面的两个简单模型具有这种性质：Michaelis-Menten 模型0xy 二 f(x，0) = 0 + X尸2指数增长模型y 二 /(X,0) = 0 (1 e-02X)1非线性模型的求解首先作出给出的经过嘌呤霉素处理和未经处理的反应速度与底物浓度的散点图，可以看出，上述两个模型与实际数据得到的散点图是大致符合的。我们将主要对前一模型即Michaelis-Menten模型进行详细的分析。首先对经过嘌吟酶素处理的实验数据进行分析，在此基础上，再来讨论是否有更一般的模型来统一刻画处理前后的数据，进而揭示其中的联系。我们用非线性回归的方法直接估计模型的参数 0， 0 ，模型的求解可利用 MATLAB12 统计工具箱中的命令进行，使用格式为：beta,R,J=nlinfit(x,y,model,beta0)其中输入x为自变量数据矩阵，每列一个变量；y为因变量数据向量；model为模型的M文件名，M函数形式为y=f (beta,x),beta为待估计参数；betaO为给定的参数初值。输出beta为参数估计值，R为残差，J为用于估计预测误差的Jacobi矩阵。参数beta的置信区间用命令 nlparci(beta,R,J)得到。首先建立函数M文件huaxue.m，非线性模型参数估计的源程序如下：x=O.O2 O.O2 O.O6 O.O6 O.11 O.11 O.22 O.22 O.56 O.56 1.1O 1.1O;y=76 47 97 107 123 139 159 152 191 201 207 200;beta0=195.8027 0.04841; beta,R,J=nlinfit(x,y,huaxue,beta0);betaci=nlparci(beta,R,J);beta,betaciyy=beta(1)*x./(beta(2)+x); plot(x,y,o,x,yy,m+),pause nlintool(x,y,huaxue,beta) 得到的数值结果见表 8-6。Nlintool 用于给出一个交互式画面，可以得到因变量 y 的预测值和预测区间，左下方的 Export 可向工作区传送剩余标准差等数据。表 8-6 模型参数的估计结果参数参数估计值置信区间01212. 6818197.2028228.1608卩20. 06410.04570.0826从上面的结果可以知道,对经过嘌呤霉素处理的实验数据,在用 Michaelis-Menten 模型进行回归分析时，最终反应速度为卩1=212.6818,反应的半速度点（达到最终反应速度的一半时的底物浓度x值）恰为P2 =0.06412。混合反应模型由酶动力学知识我们知道,酶促反应的浓度依赖于底物浓度,并且可以假定,嘌呤霉素的处理会影响最终反应速度参数P1，而基本上不影响半速度参数P2 表8-5的数据也印证了这种看法。 Michaelis-Menten 模型的形式可以分别描述经过嘌呤霉素处理和未处理的反应速度与底物浓度的关系（两个模型的参数0会不同），为了在同一个模型中考虑嘌吟霉素处理的影响,我们采用对未经嘌呤霉素处理的模型附加增量的方法,考察如下的混合反应模型：（B Y x）xy 二 f （X，0） = （n +7 X ） + Xl022 21其中自变量X1为底物浓度，X2为一示性变量（0-1变量），用来表示是否经嘌吟霉素处理, X2=1表示经过处理，X2=0表示未经处理渗数优是未处理的反应的最终反应速度,Y是经处理后最终反应速度的增长值， 02是未经处理的反应的半速度点， Y 是经处理后反应的半 22速度点的增长值。混合模型的求解和分析为了给出初始迭代值，从实验数据我们注意到，未经处理的反应速度的最大实验值为160,经过处理的最大实验值为207，于是可取参数初值卩0二170,Y0二60 ；又从数据可大11致估计未经处理的半速度点约为 0.05，经过处理的半速度点约为 0.06，我们取P 0 = 0.05, y o = 0.01。22建立函数 M 文件 model.m function yhat=model(beta0,x) a=beta0(1);b=beta0(2); c=beta0(3); d=beta0(4); x1=x(:,1); x2=x(:,2);yhat=(a+c*x2).*x1)./(b+d*x2+x1);建立 M 文件 meicu.mx=0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 1.10 1.10 0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 1.10 1.10; 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0;y=76 47 97 107 123 139 159 152 191 201 207 200 67 51 84 86 98 115 131 124 144 158 160 170;beta0=170 0.05 60 0.01; beta,R,J=nlinfit(x,y,model,beta0); betaci=nlparci(beta,R,J);beta,betaci a=beta(1); b=beta(2); c=beta(3); d=beta(4); x1=x(:,1); x2=x(:,2);yy=(a+c*x2).*x1)./(b+d*x2+x1); %yy=(beta(1,:)+beta(3,:)*x(2).*x(1)./(beta(2,:)+beta(4,:)*x(2)+x(1); plot(x1,y,o,x1,yy,+),pausenlintool(x,y,model,beta) 运行后即得如下表8-7 结果表 8-7 混合模型参数的估计结果参数参数估计值置信区间P1165.3259152.1100178.5418020.05240.03470.0700yi47.357428.51066.6637y20.0118-0.01260.0361从表8-7可以发现，丫2的置信区间包含零点这表明参数丫2对因变量y的影响并不显著,即：嘌呤霉素的作用不影响半速度参数。因此，可以考虑下面的模型：y（卩 +丫 x ） xI21卩+ X2 1可以采用类似方法计算和分析，所得结果统计指标差不多，不过显然最后一个模型具有更为简洁的形式。

展开阅读全文

matlab回归分析方法

最新文档