多元线性回归与因子分析研究各因素对银行不良贷款的影响.doc

资源描述

多元线性回归与因子分析研究各因素对银行不良贷款的影响姓名宋婧怡赵志强张俊杰学号910104006901101055专业信息与计算科学农学电话152386305101523715221013513890569邮箱sjy61643089612175937651124636826多元线性回归与因子分析研究各因素对银行不良贷款的影响摘要银行不良贷款，是指银行贷款给个人或者企业，企业逾期很长还款或者甚至无偿还能力，导致银行长期回收不了资金的贷款。不良贷款可以说是银行体内的“毒瘤”，侵蚀银行的利润或资本金，严重的还会引发银行破产。本文利用商业银行基本数据对不良贷款各影响因素进行分析，建立数学模型提出有效控制银行不良贷款发生金额方法。先对有关数据进行相关性分析，建立线性回归模型，并进行显著性检验。常量的标准误差较小，除X1外各变量标准误差相比因子分析法得出的相对较大再由各因素之间存在显著相关性，进行因子分析，得到公因子G，对公因子与不良贷款线性回归，显著性分析。常量的标准误差相对多元线性回归得出的较大，公因子标准误差较小。关键字银行不良贷款线性回归因子分析控制因素引言不良贷款是一直以来困扰我国商业银行发展的重大问题。近几年，政府加大了对商业银行不良贷款的处理力度，使银行的不良贷款率有所下降。但是不良贷款并不是一个单纯的历史问题，不良贷款的产生也从未间断。在当前经济走势依然不明朗的情况下，防范控制风险显得尤为重要我国的贷款风险分类方法也经历了一些发展变化。财政部在1988年金融保险企业财务制度中，按照是否超过贷款期限，把贷款划分为四类：正常、逾期、呆滞、呆账，后三类合称不良贷款，即“一逾两呆”；1998年，中国人民银行制定贷款风险分类指导原则(试初)，开始试点采用国际通行标准下的五级分类制度；2O01年12月，中国人民银行发出关于全面推行贷款质量五级分类管理的通知，决定从2002年1月1日起，我国各类银行全面施行贷款质量五级分类管理。五级分类标准的划分核心是贷款归还的可能性。国有商业银行控制不良贷款的改进措施：第一，在银行内部建立科学、有效的审批流程策略。风险识别的关键主要受制于审查部门对每个风险资产潜在风险的预测、监视、识别的能力。因此现代商业银行必须对信贷风险防范进行研究，建立一套合理、科学的标准的审批流程和防范措施，以提高对信贷风险的识别。第二，在贷款管理模式上，我国国有银行可以借鉴银行家埃德加M摩尔斯曼提出的有效贷款管理方法。将不良贷款的发展变化概括为5个阶段，即安全阶段、借新还旧阶段、过渡阶段、清偿阶段及覆没阶段，并介绍每一阶段截然不同的借款人资产状况、心理行为、银企关系特征，认为只要银行对这些信息和表现进行适当分析和总结。银行可以正确预测不良贷款的下一步发展从而有利于银行赢得时间、制定适当的不良贷款管理方法。正文基本假设与符号说明某银行一年贷款主要业务数据分行编号不良贷款（亿元）Y各项贷款余额（亿元）X1本年累计应收贷款（亿元）X2贷款项目个数X3本年固定资产投资额(亿元)X410.967.36.8551.921.1111.319.816903934.81737.71773.743.280.87.21014.557.8199.716.51963.262.716.22.212.271.6107.410.71720.2812.5185.427.11843.89196.11.71055.9102.672.89.11464.3110.364.22.11142.7124132.211.22376.7130.858.661422.8143.5174.612.726117.11510.2263.515.634146.716379.38.91529.9170.214.80.6242.1180.473.55.91125.319124.75413.4206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.2121097.1假设因变量Y与自变量X1，X2，X3，X4之间存在线性关系异常数据检验得9039（第2个X4）为异常值，变为90.39进行计算模型分析与建立一.Pearson模型进行非参数相关分析Pearson相关系数用来衡量两个数据集合是否在一条直线上面，其计算公式为：二线性回归1线性回归分析简介若自变量xi和因变量yi之间存在如下关系：yi=b0+bixi+ei， i=1，2，3，N， (22.1)其中e1，e2，en分别表示其它随机因素对yi的影响的总和，一般假设它们是一组相互独立并服从同一正态分布N (0，s2)的随机变量；变量x可以是一般变量，也可以是随机变量；变量y是服从正态分布N (b0+bixi，s2)的随机变量。式(22.1)就是一元线性回归模型，但在许多实际问题中，与某一变量y有关的自变量不止一个，而是多个。因此，在此主要讨论多元线性回归分析的数学模型。设变量y与变量x1，x2，xp之间存在线性回归关系，它的第i次试验数据是yi，xi1，xi2，xip (i=1，2，N)，于是有多元线性回归的数学模型：y1=b0+b1x11+b2x12+bpx1p+e1，y2=b0+b1x21+b2x22+bpx2p+e2， (22.2). . . . . .yN=b0+b1xN1 +b2xN2 +bpxNp +eN，其中b0，b1，b2，bp是p+1个待估参数，x1，x2，xp是p个可以精确测量的或可以控制的变量，e1，e2，eN是N个相互独立且服从同一正态分布N (0，s2)的随机变量。为简明起见，可用矩阵形式来描述回归分析问题。设：，Y=(y1，y2，.，yN)，b=b0，b1，b2，.，bp，e=e1，e2，.，eN。则多元线性回归的数学模型可以写成矩阵形式，即：Y=X b + e。 (22.3)2多元回归统计检验(1) 回归方程显著性检验回归方程显著性检验实际是检验所有的自变量xj，j=1，2，p作为一个整体与因变量Y的线性关系是否显著。其假设为：H0：b1 =b2 =bp = 0；HA：至少一个bj0， 1jp检验方法仍为方差分析。可以证明，在多元回归的情况下y的校正平方和可分解为回归平方和与残差平方和两部分：，它们的自由度分别为n-1，n-p-1，和p；其中。因此，我们可用统计量：，作显著性检验。当显著水平p0.05时，H0成立；若p0.05，H0不成立。若上述检验拒绝H0：1 =2 = =p = 0，则应进一步对各自变量的回归系数j，j=1，2，p作t检验，以剔除不重要的因素。在H0：j = 0下，统计量，若对某一bj的检验不显著，则接受H0：bj = 0，即说明相应的自变量xj对因变量Y没有明显影响，可将它从变量组中剔除。但剔除一个自变量后，都应对方程重新进行回归分析。(2) 方差膨胀系数VIF方差膨胀系数VIF是诊断每个自变量所受到多重共线性影响大小的重要指标，其计算公式是：，式中Rj2是把第j个自变量看作因变量，用其余m-1个自变量作线性回归分析所得到的决定系数。当一个变量的VIF值很大时，表明自变量间存在有多重共线性效应。(3) 残差分析拟合残差诊断目的主要是：残差是否呈随机分布；残差是否是正态分布；残差中方差的改变异方差性检验；异常值的存在；高度相关的自变量引起的共线性。残差诊断所用的指标，较重要的是标准化残差r和Cook距离D。标准化残差计算公式为：，式中H=(hij )=X(XTX)-1.XT。cook距离计算公式定义为：。三因子分析因子分析方法用于研究相关矩阵的内部依赖关系，它将多个变量综合为少数几个“因子”，但仍可再现原始变量与“因子”之间的相关关系。在统计学中，因子分析属于多元分析的范畴。因子分析主要是由心理学家发展起来的，1904年Chales Speraman 用这种方法对智力测验得分进行统计分析。目前，因子分析在心理学、社会学、经济学、人口学、地质学、生物学，生态学、医学，甚至在化学和物理学领域都有成功的应用。它主要应用于两个方面：一是将为数众多的变量减少为几个新因子，再现系统内变量之间的内在联系；二是用于分类，根据变量或者样本的因子得分值在因子轴所构成的空间中进行分类处理。因子分析(factor analysis)是寻找对观察结果起支配作用的潜在因子(潜变量，latent variable)的探索性统计分析方法。利用主要因子描述数据集内部结构，实际上起着数据降维的作用。因子分析是主成分分析的发展和延伸。1方法原理因子分析的结果不仅要给出因子模型，而且要得出变量和因子间的相关系数，并由这些相关系数构成“因子结构”。一个完全的因子解包括因子模型和因子结构两个方面，因子结构反映变量与因子间的相关关系，而因子模型则是以回归方程的形式将变量表示为因子的线性组合。因子分析的基本问题是用变量之间的相关系数来决定因子载荷。因子模型的求解过程简述如下：设原始数据矩阵为：，n为样本数，p为变量数。(1) 将原始数据进行标准化处理。用公式：， i=1，2，n；k=1，2，p，其中，。经标准化处理之后，xij的均值为零，方差为1，这样的相关矩阵R和协方差矩阵S完全一样。这时相关矩阵R=XX，为方便起见，将标准化处理后的矩阵仍记为X。求解R矩阵的特征方程RlI=0，记特征值为l1l2lp0，由特征向量矩阵：，而得：，其中 U为正交矩阵，并且满足UU=UU=，即有：，将上式两边左乘以U，右乘以U得：，令F=UX，于是上式变为：，F称为主因子阵，并且Fa=UXa (a=1，2，n)，即每个Fa为第a 个样品主因子观测值。在因子分析中，通常只选其中m个(mp)主因子。根据变量的相关选出第一主因子F1，使其在各变量公共方差中的贡献为最大，然后消去这个因子的影响，再从剩余的相关中选出与F1不相关的因子F2，也使其在各个变量剩余因子方差中贡献最大。余此类推，直到各个变量公共因子方差被分解完毕为止。例如，按所选主因子的信息量之和占总体信息量的85%，即有这样的m，使得：，成立。这m个主因子将U矩阵剖分为：U =U1 U2 Um Um+1 Up=U(1) U(2) ，pm p(pm)由 F = UX 将此式两端左乘U得：X = U F =U(1) U(2) = U(1) F(1) + U(2) F(2) ，(pm) (mn) (p(pm) (pm) n)其中 U(1)F(1)为m个主因子所能解释的部分，而U(2)F(2)为其残余部分。记残余部分：，则有：X=U(1)F(1)+，该式称为因子模型，U(1)称为因子载荷矩阵，F(1) 称为主要因子，称为特殊因子。由此可得因子模型的表达式(略去特殊因子)：x1=u11F1+u12F2+u1mFm，x2=u21F1+u22F2+u2mFm， xp=up1F1+up2F2+upmFm。特征向量Ui通常用单位向量表示，需进行规格处理，即aij=uij。因子载荷矩阵为：。因此有R型的因子模型：x1= a11F1+a12F2+a1mFm+a1e1，x2= a21F1+a22F2+a2mFm+a2e2， xp= ap1F1+ap2F2+apmFm+apep，在该因子模型中，F1，F2，Fm称为公共因子，即在各个变量中共同出现的因子，是在高维空间中所张起的互相垂直的m个坐标轴。aij叫做因子载荷，意即第i个变量在第j个主因子上的负荷，或者称为第i个变量在第j个主因子上的权，它反映出第i个变量在第j 个主因子上的相对重要性。如果把xi看成m维因子空间上的一个向量，则aij表示xi 在坐标轴Fj上的投影。ei为特殊因子，它们相互独立地遵从正态分布N (0，s2)，ai为特殊因子的载荷。2因子载荷的统计意义因子模型中，在原始数据已经实施标准化，即原始变量的均值为0，方差为1。且假定各公共因子和特殊因子都已标准化(平均值为0，方差为1)的基础上。可进一步讨论与因子载荷有关的一些量的统计意义。(1) 因子载荷的统计意义。设因子载荷矩阵为：，因子载荷aij表示第i个变量和第j个公共因子的相关系数，即，aij越大表示公共因子Fj与变量xi关系越密切。(2) 变量共同度的统计意义。因子载荷矩阵中各行元素的平方和：h21=a211+a212+a21m，h22=a221+a222+a22m， h2p=a2p1+a2p2+a2pm，称为变量x1，x2，xp的共同度。计算各变量xi的方差：。由于原始变量xi和主因子、特殊因子都已进行标准化处理，所以有：，即变量xi的方差由两部分组成：第一部分为共同度h2i，它是全部公因子对变量xi的总方差的贡献。如果公因子的方差接近于1，说明该变量的几乎全部原始信息都被所选取的因子所描述。如h1=0.97，说明变量x1的97%信息量被第一、二两个主因子描述。第二部分是特殊因子的方差，它仅与变量xi本身的变化有关，同时也是变量xi的方差为1的补充值。当不考虑特殊因子时，公因子方差1(i=1，2，p)。公因子方差的意义在于说明由原始变量空间转为因子空间后所保留的原来各变量的信息量，如果越接近于1，说明空间转化性质越好。(3) 公因子Fj的方差贡献及统计意义。各列元素的平方和Sj称为公因子Fj的方差贡献，即：S1=a211+a221+a2p1，S2=a212+a222+a2p2， Sp=a21m+a22m+a2pm，Sj是公因子Fj对各原始变量所提供方差贡献的总和，它是衡量公因子相对重要性的指标，而且等于公因子Fj所对应的特征值，即。模型求解(一)相关性分析用SPSS做相关系数表。选用Pearson模型进行非参数相关分析见表Correlations，结果表明：因变量不良贷款Y跟其他自变量的相关性都很强，所以，可以建立因变量与众多自变量之间的线性回归模型，模型具有合理性。CorrelationsYX1X2X3X4YPearson Correlation1.844*.732*.700*.519*Sig. (2-tailed).000.000.000.008N2525252525X1Pearson Correlation.844*1.679*.848*.780*Sig. (2-tailed).000.000.000.000N2525252525X2Pearson Correlation.732*.679*1.586*.472*Sig. (2-tailed).000.000.002.017N2525252525X3Pearson Correlation.700*.848*.586*1.747*Sig. (2-tailed).000.000.002.000N2525252525X4Pearson Correlation.519*.780*.472*.747*1Sig. (2-tailed).008.000.017.000N2525252525*. Correlation is significant at the 0.01 level (2-tailed).*. Correlation is significant at the 0.05 level (2-tailed).(二)建立线性回归模型由于自变量的个数较多，而且由相关系数矩阵表也可以看出自变量之间也存在明显的相关性，这样在建立模型时就可能会出现严重的共线性。为验证是否存在多重共线性问题，首先建立因变量Y与自变量X1，X2，X3，X4的多元线性回归模型。设Y=B1X1+B2X2+B3X3+B4X4+E模型汇总b模型RR 方调整 R 方标准估计的误差1.893a.797.7571.77994a. 预测变量: (常量),X4, X2, X3, X1。b. 因变量: YAnovab模型平方和df均方FSig.1回归249.286462.32219.671.000a残差63.364203.168总计312.65024a. 预测变量: (常量), X4, X2, X3, X1。b. 因变量: Y系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)-1.022.783-1.305.207X1.040.010.8913.832.001.1875.338X2.148.079.2591.874.076.5291.891X3.014.083.034.173.864.2613.835X4-.029.015-.324-1.929.068.3592.787a. 因变量: YB1=0.04B2=0.148B3=0.014B4=-0.029E=-1.022Y=0.04*X1+0.148*X2+0.014*X3-0.029*X4-1.022系数相关a模型X4X2X3X11相关性X41.000.137-.262-.430X2.1371.000-.060-.438X3-.262-.0601.000-.547X1-.430-.438-.5471.000协方差X4.000.000.000-6.792E-5X2.000.006.000.000X3.000.000.007.000X1-6.792E-5.000.000.000a. 因变量: Y共线性诊断a模型维数特征值条件索引方差比例(常量)X1X2X3X4114.5381.000.01.00.01.00.002.2034.732.68.03.02.01.093.1575.376.16.00.65.01.134.0668.298.00.09.20.36.725.03611.218.15.87.12.62.06a. 因变量: Y残差统计量a极小值极大值均值标准偏差N预测值-1.538011.89053.72803.2228825标准预测值-1.6342.533.0001.00025预测值的标准误差.4271.353.761.23825调整的预测值-2.003412.28873.60143.1820825残差-2.916323.10997.000001.6248625标准残差-1.6381.747.000.91325Student 化残差-2.0312.501.0301.09125已删除的残差-4.574246.37324.126632.3748125Student 化已删除的残差-2.2222.941.0471.17425Mahal。距离.42412.9163.8403.20625Cook 的距离.0001.313.114.27825居中杠杆值.018.538.160.13425a. 因变量: Y从回归结果看，调整后的判定系数R2=0757，说明模型总体拟合效果非常好。计算各自变量的方差扩大因子，VIFl=5.338，VIF2=1.891， VIF3=3.835，VIF4=2.787,各自变量的方差扩大因子F都介于010，可见自变量之间不存在多重共线性统计量F=19.671，P=0000 ,说明Y与X1，X2，X3，X4间线性关系显著。频率期望的累计效率回归标准化残差(三)因子分析相关矩阵aX1X2X3X4相关X11.000.679.848.780X2.6791.000.586.472X3.848.5861.000.747X4.780.472.7471.000Sig.（单侧）X1.000.000.000X2.000.001.009X3.000.001.000X4.000.009.000a. 行列式 = .054相关矩阵的逆矩阵X1X2X3X4X15.338-1.391-2.475-1.660X2-1.3911.891-.163.314X3-2.475-.1633.835-.857X4-1.660.314-.8572.787KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。.792Bartlett 的球形度检验近似卡方63.655df6Sig.000一般KMO统计量大于0.9时效果最佳，0.7以上可以接受，0.5以下不宜做因子分析，KMO=0.792进一步印证了作因子分析的必要性。Bartlett球形检验统计量的Sig值小于0.01，即认为变量之间存在显著相关性，与相关性分析得出结论一致。反映像矩阵X1X2X3X4反映像协方差X1.187-.138-.121-.112X2-.138.529-.022.060X3-.121-.022.261-.080X4-.112.060-.080.359反映像相关X1.726a-.438-.547-.430X2-.438.828a-.060.137X3-.547-.060.814a-.262X4-.430.137-.262.836aa. 取样足够度度量 (MSA)公因子方差初始提取X11.000.903X21.000.587X31.000.839X41.000.743提取方法：主成份分析。方差提取多数在70%以上左右，可见公因子对变量方差的解释效果可以接受解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.07376.82376.8233.07376.82376.8232.55413.85390.6763.2416.02196.6974.1323.303100.000提取方法：主成份分析。只有第一个公因子的特征值大于1，达到76.823%，也就是将近80%的信息可以由这1个公因子来解释，提取成份1进行分析成份矩阵a成份1X1.950X3.916X4.862X2.766提取方法 :主成分分析法。a. 已提取了 1 个成份。再生相关性X1X2X3X4再生的相关性X1.903a.728.871.819X2.728.587a.702.661X3.871.702.839a.790X4.819.661.790.743a残差bX1-.049-.022-.039X2-.049-.116-.189X3-.022-.116-.043X4-.039-.189-.043提取方法：主成份分析。a. 重新生成的公因子方差b. 将计算观察到的相关性和重新生成的相关性之间的残差。有 2 (33.0%) 个绝对值大于 0.05的非冗余残差。成份得分系数矩阵成份1X1.309X2.249X3.298X4.281提取方法 :主成分分析法。公因子1得分公式为：G=0.309*X1+0.249*X2+0.298*X3+0.281*X4成份得分协方差矩阵成份111.000提取方法 :主成分分析法。（四）回归方程分析对公因子G和因变量不良贷款Y作多元线性回归模型汇总模型RR 方调整 R 方标准估计的误差1.791a.625.6092.25730a. 预测变量: (常量), G。Anovab模型平方和df均方FSig.1回归195.4561195.45638.359.000a残差117.194235.095总计312.65024a. 预测变量: (常量), G。b. 因变量: Y系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-.873.869-1.004.036G.076.012.7916.193.000a. 因变量: Y从而可得不良贷款Y与公因子G的回归方程如下：Y=0.076*G-0.873用回归方程的方差分析法对回归方程作显著性检验，其中F=38.359，P=0000，R2=0609，常数项的显著性概率00360.05，所以回归方程显著成立。Y=0.023484*X1+0.018924*X2+0.022648*X3+0.021356*X4-0.873模型的优化最后的系数表中，常量的显著性概率0036有点偏大，需要改进减小Sig与表准误差的值模型的结论与推广得到两个关系式：直接线性回归Y=0.04*X1+0.148*X2+0.014*X3-0.029*X4-1.022因子分析法Y=0.023484*X1+0.018924*X2+0.022648*X3+0.021356*X4-0.873可推广到分析多个自变量对单个因变量的影响问题参考文献【1】梁爽，林红，事故树法解析银行不良贷款产生原因，中国外资，2010年4月，总第215期：56-57【2】杜强，贾丽艳，SPSS统计分析，人民邮电出版社，2009【3】谢冰，商业银行不良贷款的宏观经济影响因素分析，财经理论与实践（双月刊），2009,30,162,2225【4】王丹娜，关于降低我国商业银行不良贷款率的思考,金融与经济，2010.02,26-29,6218

展开阅读全文

多元线性回归与因子分析研究各因素对银行不良贷款的影响.doc

最新文档