数据挖掘分类技术在商业银行贷款信用风险类别预测中的应用(可编辑)

上传人:r****d 文档编号:117128657 上传时间:2022-07-07 格式:DOC 页数:46 大小:55.50KB
返回 下载 相关 举报
数据挖掘分类技术在商业银行贷款信用风险类别预测中的应用(可编辑)_第1页
第1页 / 共46页
数据挖掘分类技术在商业银行贷款信用风险类别预测中的应用(可编辑)_第2页
第2页 / 共46页
数据挖掘分类技术在商业银行贷款信用风险类别预测中的应用(可编辑)_第3页
第3页 / 共46页
点击查看更多>>
资源描述
数据挖掘分类技术在商业银行贷款信用风险类别预测中的应用 学校代码:剧矽手芗亏节贸易声学硕士学位论文数据挖掘分类技术在商业银行贷款信用风险类别预测中的应用培养单位:国际经济贸易学院专业名称:国际贸易学单独考试研究方向:商业银行管理作 者:高歌指导教师:于瑾教授论文日期:二。一一年五月十八日, 学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文所涉及的研究工作做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。特此声明唁丑学位论文作者签名:厶,年月日洲学位论文版权使用授权书本人完全了解对外经济贸易大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或部分的阅览服务;学校有权按照有关规定向国家有关部门或者机构送交论文;学校可以采用影印、缩印或者其它方式合理使用学位论文,或将学位论文的内容编入相关数据库供检索;保密的学位论文在解密后遵守此规定。学位论文作者签名:辱其年员逸导师签名:多王摘要贷款资产是商业银行的主要资产,同时也是商业银行日常经营中的一个重要利润来源。然而,不良的放贷行为将使银行蒙受巨大的经济损失,并可能导致银行经营失败,甚至妨碍社会经济稳定。所谓“不良放贷,是指银行向其交易对手出借货币资金使用权,而交易对手未能按照贷款协议约定履行还本付息的责任;造成银行的实际贷款收益与预期贷款收益发生偏差。在银行实际运营中,这种偏差现象是否将发生的不确定性被称为银行贷款的“信用风险,有时也称为“违约风险”。正式论文将由“导论、“文献综述”、“数据挖掘分类技术及其优越性、“数据挖掘分类模型的应用和“结论五部分组成。“第章导论主要讨论数据挖掘技术应用于商业银行中的研究背景、研究的意义及研究目标、以及前人所做的相关研究。“第章文献综述主要对信用风险评估做了回顾。“第章数据挖掘分类技术及其优越性讨论了数据挖掘技术的基本思想及其在应用于信用风险分类的优越性。“第章数据挖掘分类模型的应用”是本文的重点,分析数据风险类别预测,并采用某银行的数据对该问题做数据实验,以验证方法的有效性和准确性,最后分析试验结果,以得到该问题的有效解决方法。最后,本文搭建并规范化了一套“由数据仓库导出数据到数据格式转换到以类别为单位的数据集融合为整集再到数据录入数据挖掘系统并实施挖掘任务朋的银行数据挖掘工作流程。从结果评估部分看,我们可以准确地超过%的准确率为新的贷款协议申请判别其风险类别,即区分“不良类或“良好类。同时,我们可以向此风险分类系统的使用者清楚地展现用以判定协议类别的分类规律。本文通过数据实验得到:数据挖掘分类模型对于商业银行贷款信用风险类别预测问题广泛适用,它能够完全解决传统违约度量技术对于分值排序居中的贷款数据在类别判定上模棱两可、难以辨识的问题。同时,没有一种唯一最优的数据挖掘技术适用于贷款风险分类问题,应用者需要根据数据的实际情况选择最优的方法。关键词: 信用风险数据挖掘分类技术预测 。 . . ,.谢,.,. ,. . .,., .,%.唱 , . ., .:, ,目录第章导论.研究背景.选题意义.研究目标.论文新颖性及主要结构第章文献综述?.第章数据挖掘分类技术及其优越性.数据挖掘分类技术.数据挖掘技术源起.数据挖掘分类技术的基本思想?.数据挖掘模型的优越性第章数据挖掘分类模型的应用.研究思路与方法.模型的数据来源及处理?.数据挖掘模型试验.多种分类模型结果分析?.模型推广的可行性分析?.第章结论?.?.?.参考文献?.?.?.?.致谢?简历?。近年来,随着世界经济对金融依赖程度加深,商业银行作为信用中介、支付中介、信用创造的作用越来越大。商业银行的经营情况将直接影响到经济的发展,如果银行发展健康,对经济将产生重要的推动作用,反之,将严重阻碍经济的发展,甚至引发社会的动荡。年金融危机就给我们了深刻的教训,美国金融系统由于过分追求高利润而忽略了对信贷风险的控制,最终导致众多银行和企业的倒闭,经济陷入困境,影响了世界经济的发展进程。虽已历时两年,目前仍有许多国家仍处于金融危机后的缓慢复苏期。由此可见,国家的金融系统稳定、健康发展将不仅关系本国经济的发展,且在经济全球化的时代还会对其他国家产生重要影响。为避免重蹈覆辙,在金融危机后,各国都加强了对金融机构的监管,以推动金融机构在经济增长中发挥积极作用。商业银行面临的风险指在经济活动中商业银行由于受到各种不确定性因素的影响而导致银行实际收益与预期收益出现偏差,收入或利润出现损失的可能性。按照风险产生的类别,主要包括信用风险、国家及转移风险、市场风险、利率风险、流动性风险和操作风险等风险,其中信用风险是指由于借款人不能按期还本付息而给商业银行造成损失的风险,也称“违约风险,是这几类风险中最重要的风险之一。信用风险产生的主要原因是银行和客户的信息不对称,以至于在银行发放贷款时并不能准确判断客户的还款意愿和未来的还本付息能力,只能依赖抵质押物、联保以及贷后监管等手段来尽量减小客户违约带来的损失。随着现代经济和科技的发展,银行对客户的还款意愿以及还款能力更难分辨。首先,欺诈客户,即通过向银行提供虚假信息而恶意套取银行资金的客户,提供虚假信息的手段也逐渐变得高明,银行越来越难准确的判断客户资料的真实性和准确性,从而影响银行对客户还款意愿的判断,导致客户借款后发生违约。其次,虽然客户在借款时还款意愿和还款能力都很强,但由于现代经济的复杂性,影响客户还款能力因素众多和复杂,客户未来还款意愿和还款能力在借款后可能都会下降,但银行在借款时并不能完整了解这些因素,因此现代经济的复杂性导致银行比以前更难识别和管理信用风险。年金融危机以来,我国采取了适度宽松的货币政策和积极的财政政策等刺激经济。这些刺激政策虽然稳定了经济,但由于财政所配套资金大部分来源能把真实违约率高的客户判定为违约率低的客户。因此,在运用模型之前首先要验证模型的假设分布是否与实际分布相符,以确定模型的适用性。然而,验证变量的统计分布将是一项较为困难的事情。由于传统的统计技术度量信用风险上有上述的缺点,近年来随着数据挖掘技术的兴起和发展,运用数据挖掘技术来预测客户信用风险的研究逐渐增多。其研究思路是把客户的信用情况抽象为一个二分问题,并用数据挖掘中的分类技术来解决。具体来讲,银行贷款的信用状况可以分为“良好与“不良”两类。“良好贷款是指贷款不存在信用风险,即银行的交易对手有能力并有意愿按照贷款协议约定履行其还本付息的责任;而“不良贷款则指贷款存在信用风险,即银行的交易对手没有能力或意愿按照贷款协议约定履行其还本付息的责任。因此,商业银行贷款信用风险判定问题可以被抽象为一个数据挖掘二类分类问题。从大量历史数据中选定若干良好与不良贷款协议数据样本;选择分类方法,对给定数据样本进行学习,挖掘其潜在的可用于类别判定的分类隐藏规律;基于所挖掘出的规律或直接参照数据样本学习结果,创建分类器;使用测试数据样本对分类器进行评估,应用并推广效果显著的分类器;通过将银行新增贷款协议数据输入信用风险分类器,存在信用风险的贷款申请将被自动识别。相比信用风险评分的统计模型,数据挖掘模型在理论上至少有两方面的优点。首先,数据挖掘技术可以使用的变量数量更多,不用过多的考虑变量之间的关系。因为对贷款信用状况产生影响的数据变量相当广泛且十分琐碎。例如,贷款当事人的性别、年龄、学历、职务、收入情况等,贷款机构的企业规模、注册资本、成立日期、主营业务收入、资产负债总额等,贷款自身的品种、类型、金额、年限等,以及上述因素相互组合、相互作用,这些都可能对银行贷款的信用状况产生影响。使用数据挖掘分类技术时可以把这些变量都放入模型中,而不需要过多考虑变量之间存在的共线性关系,但传统统计模型就必须分析这种关系,因为它直接影响估计值的准确性。因而,采用涉及大量数据变量的数据挖掘技术相比传统统计方法似乎更令人信服。其次,数据挖掘技术纯粹基于数据,不需要对产生数据的真实分布做出假设,用一部分真实数据产生数据挖掘模型,用另一部分数据修正模型,最后用剩下的部分去评价模型的有效性。因此,数据挖掘模型不依赖于对数据背后分布的假设,仅从历史数据中提取数据上存在的关系,这就避免了统计技术在分布假设方面的一些缺点。当然数据挖掘方法也有明显的缺点,就是它仅中现有数据中提取数据上存在的“规律”,这些“规律”有可能并不是真正的规律,从而误导决策者的判断。总体来看,这两类方法都在理论上都各有优缺点。由于数据挖掘技术在近几年才兴起,目前许多研究目前仍停留在理论上,模型是否真的能运用于实践中仍有待检验,理论模型的实用性仍未得到有效验证。本文运用银行真实数据来验证数据挖掘二分技术在信用风险度量方面的适用性和有效性,并比较几种经典数据挖掘技术在运用上的差异,以弥补数据挖掘技术在信用风险度量实证方面的缺乏,为银行运用数据挖掘信用分类模型提供依据。.研究目标针对商业银行贷款信用风险类别预测问题,本论文试图研究:数据挖掘二类分类模型对于该问题的适用性,即验证模型是否真下的能运用于实践中,同时验证此类建立模型的方法具有普遍性。采用二类分类技术解决该问题的有效性,即验证模型是否能准确的预测出银行客户是否在贷款后违约。在诸多分类方法中,探求并对比各方法的显著性,即寻找最优的分类方法。.论文新颖性及主要结构本论文主要利用数据挖掘二类分类技术研究商业银行贷款信用风险类别预测问题。相比于传统研究,本文在以下三个方面具有一定的创新性:在选择信用风险度量的技术上,本文直接选用数据挖掘分类技术,抛弃了传统的统计方法。相比传统违约度量研究,该研究尤其在数据挖掘应用领域属于新兴科研方向。在验证数据挖掘分类模型适用性和有效性上,本文选取了“回归、“神经网络和“.分类树三种数据挖掘分类技术进行对比,并结合所收集的数据进行全面测试,以探求在贷款风险类别预测上数据挖掘分类方法的适用性和有效性。在数据选取方面,本论文通过国内某商业银行近期在零售业务条线上的贷款风险数据来进行测试和验证模型的有效性,相比传统论文中多采用模拟数据来验证模型的做法,本文研究结果的可信度更强。正式论文将由“导论”、“文献综述”、“数据挖掘分类技术、“分析与实验”和“结论”四个部分组成。“第章导论主要讨论数据挖掘技术应用于商业银行中的研究背景、研究意义及研究目标、以及论文的结构。“第章文献综述树的操作原理及其理论的优缺点,同时回顾了对前人对信用风险度量模型方面的研究。 “第章分析与实验是本文的重点,分析数据挖掘分类技术如何应用于信用风险类别预测,并采用某银行的数据对该问题做数据实验,以验证方法的有效性和准确性,最后分析试验结果,以得到该问题的有效解决方法。“第章结论主要对本论文的研究结果做总结,并提出进一步研究的方向。第章文献综述明确指出:“对于大多数银行来说,贷款总额占到总资产的/或者更多,贷款收入占总收入/到/”。这充分说明贷款资产在商业银行日常经营中的重要性。此外,还分析说:“当一家银行遇到严重的财务困难时,问题通常归咎于贷款无法收回。由此,防范贷款的信用风险、确保贷款本息的顺利回收对于商业银行来说,其重要性可见一斑。中国人民银行正式发文规范了:“评估银行贷款质量,采用以风险为基础的分类方法,简称贷款风险分类法,即把贷款分为正常、关注、次级、可以和损失五类;后三类合称为不良贷款”。由此,商业银行贷款信用风险判定问题被抽象为一个“五类分类问题,或更为宽泛地由一个“二类分类问题,即“良好贷款与“不良贷款”所描述。作为对信用风险类别预测问题的初步探索,本论文将着重研究“二类分类问题,即对贷款申请进行数据挖掘分析,预测其日后是否将成为“不良贷款”。据叶蜀君介绍:早期的、最具代表性的信用风险度量模型是计分模型,由“美国纽约大学斯特商学院教授 在鹤年提出。对至年间申请破产的家公司和相同数量的非破产公司进行了调研,通过统计方法从个财务比率中筛选出个财务指标,从而建立了一个多元线型模型,将企业偿债能力指标、获利能力指标和营运能力指标有机地结合,并计算出一个判别分值,称为值,用以预测企业违约或经营失败的可能示该公司存在信用风险;若其值大于.则表示该公司不存在信用风险;值为.至.之间则表示该公司信用风险难以辨识。而对于非上市公司来说,认为值小于.则存在信用风险;大于.则不存在信用风险;.至.之间则信用风险难以辨识。、和对原来的评分模型进行了修正和完善,建立了信用风险模型。模型的数值型变量由模型的个增加至个。模型在变量选择、变量稳定性等方面较模型有很大程度上的改进,这有效提高了商业银行对不良贷款申请的辨识度。显然,与模型均为基于统计技术的信用风险度量方法,并不涉及数据挖掘学习过程,并呈现出简洁实用的特征。然而,叶蜀君认为:虽然“评分模型和模型两种模型简单易行,可操作性强,甚至可以在公司破产之前两到三年预见到违约”,但两个模型却存在一些问题,如两个模型均以“是否违约作为信用风险的判别依据,缺乏对违约和违约风险的系统认识,理论基础比较薄弱,会对其判断结果的准确性产生质疑”。另外,两个模型均仅从余个财务比率中筛选出少数几个数值型变量,并以此搭建线性模型。在此,少数几个财务类指标对于描述企业信用状况来说似乎并不足够,而且“两个模型都假设变量之间存在线性关系,而现实经济现象是非线性的。此外,与风险模型显然都是针对商业银行对公企业贷款业务而设计的,它们并不适用于个人贷款等其它类型的贷款业务。武剑在中介绍:“公司年创立了一种估计上市公司违约概率的模型,它分三个步骤来确定客户的违约概率。模型的核心基础是年由、和提出的期权定价模型。事实上,早已于年撰文论述了将模型应用于贷款风险与证券估价的想法。则在其基础上进一步改进了模型的应用效果。虽然模型在预估违约概率方面效果颇佳,但该模型仅适用于股权公开交易的公司或银行。武剑还介绍了:使用逻辑回归方法进行违约概率的计算,“其基本原理是对已有客户的违约和不违约样本进行一分类,根据业务规则,选取一组指标作为解释变量”;“取得这些已有先验数据的样本后,将设为客户违约概率,一为客户不违约的概率,将比率/一取自然对数得/一,即对作转换,由此建立线性回归方程进行分析”。相比上述其它方法,逻辑回归违约概率估计法可广泛适用于商业银行包括房地产、农业、工商业、个人等在内的各类贷款业务中。以上述、和逻辑回归为代表的违约风险打分模型,其优点是能够对新增贷款业务进行违约数值预测,这尤其适用于对若干新增贷款业务进行排序。当然,排序靠前的贷款业务不存在信用风险,而排序靠后的贷款业务则存在信用风险。但是对于排序居中的贷款业务,其信用风险的存在情况难以辨识,这将直接干扰银行贷款审批人员的决策。此外,对于一个原本明晰的二类问题,将本应“离散的结果“连续化,这可能会影响类别预测的准确率。、和基于数据挖掘分类模型,并采用“一最近邻”、“神经网络和“支持向量机三种分类方法,对土耳其某商业银行贷款信用风险数据进行了研究。他们所使用的数据包含条记录,其中条为不良贷款,条为良好贷款。经过建立分类器并进行实验,三种分类方法均达到%的预测准确率。然而,这一结果似乎仍存有很大的提升空间。第章数据挖掘分类技术及其优越性.数据挖掘分类技术.数据挖掘技术源起随着人类社会的进一步发展,人们的物质和精神文化生活越来越丰富,数据的来源也越来越多。同时近年来数据库技术的发展、大容量、高效率和低价格的储存设备的诞生,以及收集数据手段的多样化,现在人们拥有的数据越来越多,数据类型也变得更加丰富,因此人们希望充分利用这部分收集的数据,以期望进一步改进技术、提高产品质量和产量,更进一步推动社会的进步。这种数据处理和分析的需求催生了一门新的基于海量的处理与分析的学科?数据挖掘。目前数据挖掘有很多定义,但在这些定义中,我们认为著名的数据挖掘大师.的定义最为完善,即把数据挖掘定义为“通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律”。因为这个定义首先明确了数据挖掘的目的;其次它还强调了对海量数据进行挖掘,这是数据挖掘技术与传统统计学方法最重要的区别之一;最后,它强调用自动或半自动的工具。按照上述定义,只要是对海量数据用自动和半自动的工具进行处理和分析,以求寻找数据中隐藏的有价值知识的过程都可以称为数据挖掘,而在挖掘中使用的挖掘工具也就称为数据挖掘技术。从现阶段数据挖掘的发展来看,它是一门结合了传统统计学、机器学习、人工智能和数据库技术等学科的交叉学科。它主要包含六种典型方法:分类、估计、预测、组合或关联法则、聚类和描述与可视化。前三种方法是数据挖掘中典型的有目标学习方法,即数据挖掘过程中有明确的目标变量,如分类方法中明确的目标变量就是要分类别变量;而后三种是典型的无目标学习方法,之所以被称为无目标学习方法,是因为数据挖掘过程中没有目标变量,如聚类分析就没有明确的目标变量。.数据挖掘分类技术的基本思想分类是指通过对一个新的客观事物特征的描述,将客观事物分配到事先确定好的类别之中,分类方法或技术是数据挖掘中最早兴起的技术之一。下面主要介绍本文将要应用于信用风险分类比较的三种重要的分类技术:“回归”、“神经网络和“.分类树”。由于本文的主要研究是这些技术的应用,同时又因为这些技术的细节可以在目前的大多数数据挖掘书籍中找到,因此本文在介绍时侧重描述方法的原理及其意义,而忽略相关的公式。数据挖掘中的回归技术来源于统计学方法,与线性回归很相似。主要区别是回归的因变量为包含几个类别的分类变量,如度量信用风险的目标变量就包含“良好贷款”或“不良贷款”两类。它与线性回归相似之处在于它们都是通过样本数据估计自变量与因变量的函数关系,从而把新数据中的自变量值输入该函数关系预测因变量的值。由于回归的因变量是分类变量,因此不能直接用于函数关系估计,需要对类别变量做变换把类别变量转换成连续变量,即/,其中表示目标变量属于某一类的概率。在寻找到自变量与变换后的因变量之间的函数关系后,对于一个新的数据,输入其自变量的值进入该函数关系后就能求得其属于某一个类别的概率。在分类问题中,?般把.作为临界点,即大于.就属于这一类,反之属于另外一类。但在实际操作中为了使分出的类别更加准确,可能会定义.属于这一类,而.不属于这一类,在.这之间的值不做判定,需要采用其他办法判定。神经网络是模仿人脑的功能,是模式识别和误差最小化过程的一种。它一般由输入层、中间隐藏层和输出层三层组成,每一层都包含很多节点,层间的节点之间用神经连接。输入层表示各种输入的变量,而输出层表示分类变量的各个类别,中间隐藏层在输入层和输出层之间,用于调节它们之间的关系。在寻找输入和测层与输出层之间的关系之前,首先需要将数据分成训练集试集 ,然后将权重分配到联系层间节点的神经上,通过输入变量和初始化的权重计算输出变量的类别,然后将计算出的类别与真实值比较,从而得到度量误差并反馈给系统,最终调整权重。如此反复,最后把误差调整到预先定义的最小误差水平时就得到了神经网络模型。运用训练好的模型就可以对新的数据做类别的判断。神经网络的优势在于它具备在数据中寻找非线性关系的能力,从而能够应用于某些回归很难应用的数据;但它的缺点也是明显的,该技术很容易造成过度拟合,即模型非常适合于训练的样本,但应用于新数据时效果奇差。分类树的建立过程就是通过自变量的值连续地划分数据,使因变量的差别最大。首先,分类树首先要有一个度量应变量差别的指标,通常用系数、熵等指标。其次,选出最能区分因变量的自变量作为分类树的根节点。再次,通过一定规则在根节点上不断的生长出新的枝叶,从而形成一个使因变量差别最大的树。这个树相当于一个通过自变量到因变量的规则集,对每个新来的数据,通过这个规则集就可以预测因变量的类别。目前不同的决策树算法、.和.主要区别在于三方面:、树每一层允许的树枝叶数量;、选择枝叶的原则;、为防止过度拟合,应该如何限制树的生长。决策树的优点是能产生易于解释和操作的规则集,人们可以通过这个规则集能迅速地对新数据做出预测。当然,它和神经网络一样,在建立树之后需要采用剪枝技术对树的枝叶进行剪裁,以防止过度拟合。总体来看,这三种技术在理论上都各有优缺点,在实践中还需根据问题的具体情况来选择恰当的方法。在信用风险分类的预测中,我们显然比较关注模型预测的准确率问题,因此在下文的实际运用中主要通过模型在测试集中的准确率来选择合适的模型;但在解释因变量的成因的分类模型中,人们往往不太多关注模型的准确率,而关注模型中自变量对因变量的解释。.数据挖掘模型的优越性在第章本文的研究意义中我们简要的提到,数据挖掘模型在预测贷款信用风险时与传统统计模型方法相比具有一定的优越性,本节结合实际问题更加详细解释数据挖掘模型的优越性。具体来讲,数据挖掘模型的优越性主要体现在以下三个方面:、数据挖掘分类模型解决问题比传统信用评分更加直接首先回到我们使用模型的目的上,模型的作用无外乎是给我们提供给工具,用以了解影响贷款违约的主要因素,并依据这些主要因素来预测未来贷款是否会发生违约。从本质上讲,我们使用模型的根本目的是希望通过模型给我们的一笔未知信用风险的贷款做出一个判断,预测该笔贷款是否未来会发生违约。传统信用评分方法在解决该问题时,首先需要对该笔贷款做出一个信用评分,该评分是一个连续的变量,反映了客户信用风险的大小;然后根据信用评分的大小人为的划出一个分段,最后根据这个分段来判断该笔贷款未来是否会发生违约。这其实是一种间接的解决问题的方法,它的主要问题在于我们应该如何把信用评分做出分段才能真实的反应贷款的违约风险。不同的模型使用者可能会得到一个不同的分段,从而影响了模型的客观性。数据挖掘分类模型与上述方法不同的是,它直接面对我们使用模型的最终目的,对贷款的信用风险做出分类,在分类过程中不需要人为的判断。因此我们可以直接使用模型的结果,对未知信用风险的贷款做出预测,而在此期间不需要人为的干预。在此种意义上说,数据挖掘分类模型更加贴合问题的本质。、数据挖掘模型不需要对模型的主要变量做出假设我们知道,传统信用评分模型主要是以统计模型为主,因此统计模型的缺点也就是传统信用评分模型的缺点。首先,由于统计模型主要基于数理统计相关理.论,一般都对模型变量的总体分布具有一定的假设,比如服从正态分布、对数正态分布等,只有当总体分布的假设成立的时候,模型才能成立。所以,我们使用传统信用模型预测风险时,需要首先验证我们实际的分布与总体的分布是否致,只有当它们是一致的时候才能使用该模型。如果分布不一致,还需要考虑重新建设模型,以适用于实际问题的分布。其次,验证实际问题的分布较为困难,且具有一定的误差。由于验证变量的分布的主要方法是假设检验,而假设检验又是基于“否定思想,即只能较为准确的回答实际分布与假设分布不一致,而不能不能回答实际分布与假设分布一致。因此,我们在检验实际分布与模型假设分布是否一致时,只能较为准确的回答不一致的情况,而不能准确的说明实际分布与假设分布一致,只能说不能拒绝假设分布,但实际分布与假设分布是否真的是同一分布无从知晓。这是统计模型的主要缺陷。数据挖掘模型不同的是,它主要通过数据算法来寻找现有数据寻找数据中存在的关系,不需要对模型的变量做出任何假设。因此数据挖掘模型在应用时不需要对变量的分布做出假设,只要现有样本的数据的代表性足够强,那么模型得到的规则和预测效果至少在理论上的效果较好。、数据挖掘模型可以容纳更多的影响因素和数据进入模型数据挖掘模型是基于海量数据,它依赖于数据挖掘算法来寻找关系,因此模型本身对数据和变量都没有明确的要求,只要计算机的计算性能足够强,我们可以在模型中纳入更多的数据和影响信用评分的变量,以求更准确的反映贷款信用风险的实际情况,以提高模型预测的准确性。当然我们在模型中纳入更多变量时需要考虑这些变量是否是冗余变量。与数据挖掘模型不同,统计模型一般要求模型中的变量不能太多,否则会产生模型参数不能估计或估计不准确。而随着经济环境日益变得更加复杂,影响贷款信用风险的因素逐渐增多,因此在理论上需要一个能处理更多变量的模型,以便能准确的反映贷款信用风险的实际情况,从而在复杂的环境中认识信贷风险,预测信用风险。第章数据挖掘分类模型的应用.研究思路与方法年月,中国人民银行参照国际惯例,结合我国国情,制定了贷款分类指导原则,要求商业银行依据借款人的实际还款能力进行贷款质量的五级分类,即按风险程度将贷款划分为五类:正常、关注、次级、可疑、损失,后三种为不良贷款。由此,本文所探讨的问题被抽象为一个数据挖掘二类分类问题,即:给定若干“良好类“正常和“关注与若干“不良类“次级、“可疑和“损失贷款协议样本;选择合适的分类模型,对这些样本数据进行学习,挖掘其潜在的可用于判定类别的隐藏规律;基于所挖掘的规律或直接参照样本数据学习结果,创建分类器;使用测试数据样本对分类器进行评估,应用并推广有效的分类器。通过将某银行相关贷款数据输入本文所搭建的贷款风险分类机制,存在较高风险的贷款申请将被自动识别,这为银行提供了平行于传统方法的风险评估依据。.模型的数据来源及处理本文采用的实验数据来源于某商业银行,包括了年期间个人贷款协议中个不良类贷款协议样本和个良好类贷款协议样本,共个样本。从商业银行的实际数据来看,一般银行的良好类贷款协议样本一定会远远大于不良类协议样本,否则这家银行面临巨额的损失,但为保证数据挖掘分类技术较好的学习良好类贷款协议样本与不良类贷款协议在属性上的区别,我们随机见资料【选取了与不良协议数量相等的良好类贷款协议样本。为了保证样本的数据质量,在随机选取良好类数据样本时,我们要求各数据字段的值均不为空且不为未知值。样本的字段信息主要包括借款人申请贷款时提供的个人的背景信息,包括年龄、受教育程度、家庭信息、还款来源等一系列信息,但由于数据中存在很多对贷款信用风险无用的字段,因此我们首先要对字段意义分析,去掉没有意义的字段。比如由于“单位地址”、“单位 ”、“家庭住址”、“家庭 、“ ”等这类代表借款详细信息的数据显然不具备普遍的意义,因而不能直接使用,还需要进行一定的加工。参考公司 技术成功案例中研究贷款风险分类问题所涉及的部分字段和该银行具有的其他字段,本文初步选取和加工了个字段,包括:“分行、“国籍、“性别”、“证件种类”、“国家代码”、“婚姻状况、“抚养人口、“学历”、“月总收入、“偿债比率、“还款方法、“币种”、“放款年限”、“贷款品种代码、“担保方式代码”、“五级分类贷款类型代码”、“借据分摊抵押品评估价值”,以及“民族代码”、“年龄”、“家庭结构代码”、“职业代码”、“职称代码、“职务代码”、“个人行业代码”、“户籍代码”、“住房状况代码、“工作年限”等。显然这些字段只经过了意义分析,并不能立即运用于模型中,还需要对这些字段进行探索性分析,进一步的筛选对模型有用的字段。经过进一步对数据仓库进行操作,我们发现:“国家代码、“个人行业代码”和“工作年限”这三个字段噪音性很强,其数值缺失太多,从数据集中剔除;“币种字段仅有一个值?人民币,从数据集中剔除;“放贷年限”字段存在因不能按时收回贷款金额而追加“放贷年限”的可能,因此在风险分类问题中我们建议不涉及此字段;“贷款品种代码”字段内包含了过多的数值,共个值。我们也直接忽略此字段。最终,在我们所生成的数据集中一共含盖了个字段,依次为:“担保方式代码”、“五级分类贷款类型代码”、“借据分摊抵押品估计价值”、“证件种类代码、“年龄、“学历代码、“职业代码、“职称代码”、“月收入、“偿债比率”、“房屋状况代码”、“性别代码以及“供养人数”。使用语句分别生成上述“不良”类与“良好类贷款协议样本,并将上述两个以类别为单位的数据样本集从数据仓库中导出,分别存为两个文本文件。在本文数据挖掘模型部分,我们使用了数据挖掘工作平台中的分类模型与见资料【资料技术。因此,我们需要将之前从数据仓库中导出的数据集转化成所要求的数据输入格式。这首先需要了解存在于“不良类与“良好类样本数据各字段中的全部数据值。最终,我们编写了另一个程序,用以将已转为格式的“良好类与“不良类数据集以“洗牌的方式,汇总成一个拥有个样本的数据整集,使得任意从此数据整集中取出一段,其“良好类与“不良类样本比例趋于:。.数据挖掘模型试验被判定的。为了进一步探及存在于数据中的分类隐藏规律,更好地解释分类结果,在系统中,我们另外选择了五种基于规律找寻的分类方法,它们是:.提升方法交互式决策树技术、.决策表技术、.重复递增修剪以减少误差技术、.非嵌套泛化样本最近邻技术、以及.默认规则特例学习技术。在此,我们不对上述十种分类算法及其工作原理进行具体描述,相关理论知识可从教材中获得。.多种分类模型结果分析我们将程序安装在一部配置为“.内存的电脑上,并将所生成的横向包括类标在内的个字段,纵向为个样本的“个贷风险分类”数据整集导入程序。由于本问题主要为预测性问题,因此我们十分关心模型的准确性,因此主要使用分类的准确率来对模型进行评估。所谓准确率,就是:实为“不良类贷款而预测结果也是“不良”类贷款的样本数与实为“良好类贷款而预测结果也是“良好”类贷款的样本数之和除以全部参与测试的样本总数。表.:【分类技术应用于某银行。个贷风险分类”问题分类技术 错误分类样本 正确分类样本 总样本数 错误率 准确率数 数 .;% .%. .% . .% .瞩 .;% .“,.【 .% .孺.%.魄 .翮.嘶 .%.: ; .% . : .% .锅本文主要采用分类评估模式中的交叉验证来计算模型的准确率,即:将全部的数据样本平分为等份,随后循环使用不同的一份样本进行学习,并使用所剩下的一份样本进行测试,最终求得次测试结果的平均值。通常来说,被定值为“,即“分层十折交叉验证”。在我们的评估过程中,也取值为“”。在表.中,我们展现了上述十种分类技术应用于某银行“个贷风险分类问题的准确率。注:在使用.最近邻技术时,我们将取值为“。】王与资料的模型评估结果相比,我们得到了更高的准确率:使用分类决策树技术,资料所展现的准确率为.%,而我们得到了.%的准确率;使用技术,资料显示其准确率为.%,而我们得到了.%;使用神经网络技术,资料显示了.%的准确率,而我们得到了.%。据分析,我们获得了较高准确率的主要原因主要有二。第一,我们分析的这家银行在个贷业务方面的数据质量相对较好;另外在萃取“良好”类的个贷协议样本数据时,我们更是着重萃取了无任何缺失数据值的“优质数据样本。第二,本文数据准备部分所描述的数据字段筛选方法效果颇佳。经过使用准确率进行评估,最适用于该银行“个贷风险分类”问题的方法是.技术,其分类准确率高达.%。在创建分类器的过程中,此技术从数据中挖掘出了个分类规律。但很可惜,由于系统在此分类技术上的不足,我们无法看到这些颇有价值的分类规律。在我们的评估中,.技术表现颇佳,其准确率仅次于.技术,为.%。在创建分类器时,一个以树的数据结构所展示的规律集被生成。表.展示了.所生成的分类规律。在此,我们可以看到:当“偿债比率数据值小于“.”,其样本类标明显趋于“不良;当“职称”数据值不为“高级”且“学历数据值不为“名誉博士且“职业数据值为“社会福利业”,其样本类标趋于“良好;等数条规律。?.:.:.:.:.:.:. :. :. :. :.:.垂.:. .:.刁.:.“.:.:.晒:.:,:确率分别为.%、.%与.%。在创建分类器时,此三种方法分别从数据中挖掘出个、个以及个隐藏规律。由于规律数量较大,在此我们着重展现使用.技术所挖掘出的个规律表.。其中,颇具代表性的一个规律为:当“职称数据值为“无且“学历”数据值为“其它且“年龄”数据值大于或等于“”且“偿债比率”数据值大于或等于“.,其样本类标趋于“良好。.模型推广的可行性分析通过上节的分析,我们发现数据挖掘分类模型可以较好的应用于信用风险的预测,其预测的准确率较高,其中决策树模型的解释效果也较好。这为预测贷款的信用风险这一问题上提供了又一解决方案。数据挖掘分类模型的优点在上面的实证分析中也得到很好的体现,如在整个建模中不需要对模型的分布做出任何假设、对模型中变量的数量没有限制等,而这些优点是传统信用评分技术所不具备的,因此在银行信用风险预测的实践中,特别是在影响信用风险的因素变得越来越多和复杂的环境下,数据挖掘分类模型在信用风险预测中的作用将越来越大。对于这样的数据挖掘分类模型,出于目前很多数据挖掘算法都是开源的,因此银行几乎可以不花费任何成本就可以应用于该模型在实际的业务中。下面假设一家银行完全没有任何种评判信用风险的模型,我们需要帮助其建立数据挖掘分类模型预测其信用风险。.建立数据挖掘分类模型,主要分以下几个步骤、通过对历史的贷款业务数据分析,寻找影响信用风险的主要因素。这需要从当前的业务数据库中提取一定时间段如最近三年内的具有完整业务流程的贷款业务数据,其中要包括良好的贷款数据和发生过不良贷款的数据。这些业务数据中还应该包括贷款人的相关资料如职业、年龄等。分析这些背景数据与是否发生不良贷款之间的关系,寻找到主要的影响应用风险的变量。、把抽取的贷款业务数据划分成三个部分,一个部分用于建立模型,另一部分用于修改模型,最后一个部分应用于测试模型。、选取主流的数据挖掘平台,如公司的系统、公司系统、以及公司的 系统。的 如果想减少费用,推荐使用非商业化的、基于语言环境下开源的数据挖掘软件。这个平台上有许多开源的经典的数据挖掘算法,这些算法只需经过少量的或不用修改就可以应用于实际的建模。本文的实证分析部分就采用该系统。、在数据挖掘平台上选取要应用的分类技术,如决策树、神经网络、回归模型等,并通过第一部分数据训练模型,第二部分数据去修正模型,第三部分模型去验证模型。通过比较这些模型,寻找预测效果最好的模型。、找到预测效果最好的模型后,就可以应用这个模型对实际业务中发生的贷款申请做出其未来是否会发生违约的判断。如果想对新申请贷款的数据实现自动判断,只需要把预测结果与业务系统对接即可,即把业务数据传到数据挖掘平台中运算,然后把运算结果传回业务系统中。、由于影响应用风险的因素可能会发生变化,因此过一段时间如半年就需要更正模型,这需要重复步骤。通过上面的步骤可以看,数据挖掘分类模型应用在信用风险预测时,其实操作简单、使用方便,模型能较好的应用在实际业务中。第章结论本文通过运用某银行的个人贷款业务的真实数据,探讨了数据挖掘分类技术如何运用于银行业务中的“贷款风险分类问题上,并着重对比了三种数据挖掘分类技术在理论上的差别与实际模型的预测效果的差别。通过对实证结果的分析和讨论,主要得到以下结论:、数据挖掘分类技术能较好的解决贷款风险分类问题,其预测效果较好。相比于传统的信用评分技术,本文利用数据挖掘分类技术直接对样本数据的风险分类进行划分,避免了传统违约度量技术对于分值排序居中的贷款数据在类别判定上模棱两可、难以辨识的问题。同时,实证分析的结果也显示了数据挖掘分类技术对贷款风险分类的准确率较高,这表明数据挖掘的分类技术对此类问题具有适用性和有效性,为解决贷款分类问题提供了平行于传统信用打分技术的又一解决方案。、没有一种唯最优的数据挖掘技术适用于贷款风险分类问题,应用者需要根据数据的实际情况选择最优的方法。虽然在本文的实证分析中,这家银行的贷款风险分类问题可以通过中的.分类技术较好地解决,但是这种技术并不一定对所有银行的贷款风险分类有较好的识别。这是因为:数据挖掘技术主要是通过样本数据来学习规律,如果样本数据中的规律恰好适用于某种技术,那么这种技术将对样本有较好的识别,但如果换一个样本,或许就会有另一种技术胜出。因此,在运用数据挖掘分类技术到贷款风险分类问题时,需要采用多种不同的算法比较,最终选择一种最优的方法。、搭建并规范化了一套银行的数据挖掘工作流程,使得数据挖掘分类技术在解决贷款信用风险类别预测问题上具有广泛适用性。本文通过数据挖掘分类技术的理论对比和实证分析,证明了数据挖掘分类技术能有效的应用于贷款信用风险分类预测问题上,这种应用在某种程度上具有普遍性。首先,由于本文选择的数据挖掘工具是免费和开源的,这使得应用分类技术时的成本较低,同时还可以根据应用者的实际情况改造标准的系统,以完美的适用于自身情况。其次,由于本文选取的变量都能在目前各家银行的贷款申请协议中找到,因此该数据挖掘分类模型具有普遍性。唯一不同的是由于银行间的信息化水平不一致,导致在应用模型时前期的数据加工工作难度不同。信息化程度高的银行由于数据比较集中和规范,能较容易使用该模型。最后,本文搭建并规范化了一套由数据仓库导出数据到数据格式转换到以类别为单位的数据集融合为整集再到数据录入数据挖掘系统并实施挖掘任务”的银行数据挖掘工作流程。这套流程能广泛的应用于各家商业银行数据挖掘。在未来的工作中,我们希望从以下几个方面进一步改善此风险分类系统。首先,目前的分类系统只包括两个类别,即“不良”与“良好。但在银行实际业务中,贷款的风险分类包含五个级别,即“正常”、“关注”、“次级、“可疑和“损失”。因此,若可以准确地将某一贷款协议申请准确地预测为上述五类中的一类,这将更为精确地向银行信贷运营提供决策支持。当然,欲完成此“多类分类”任务,数据方面必须得到进一步保障。第二,本文所搭建的数据挖掘工作流程除适用贷款风险分类问题外,还可以广泛应用于其它银行信贷风险分类问题,以及其它与分类“二类”或“多类”任务相关的银行数据挖掘职能决策工作。因此,我们希望更为广泛地开拓此工作流程的应用范围。除分类模型外,系统中还包括了回归、聚类以及关联规则等模型。在未来的工作中,我们有意发超出分类模型的银行数据挖掘应用领域。从而广泛地开拓商业银行基于富足据的商业智能,全面提升银行的管理水平。参考文献。中信银行:成功案例,:.说明书,。用高效的数据挖掘技术改善企业运营贷款五级分类,百度百科, “:/./岔 ”。.孙/某银行信息管理中心数据挖掘工作平台选择方案,年月。.&数据挖掘:实用机器学习技术英文版,第版, ,北京:机械工业出版社,年月。.&数据挖掘:实用机器学习技术中文版,第版,著,董琳、邱泉、于晓峰、吴韶群&孙立骏译,北京:机械工业出版社,年月。数据挖掘应用实务,谢邦昌&华通人 团队,北京:机械工业出版社,年月。,.刘园译,商业银行管理第五版,北京:机械工业出版社,年月贷款风险分类指导原则,中国人民银行,年月叶蜀君,信用风险的博弈分析与度量模型,北京:中国经济出版社,年月武剑,内部评级理论、方法与实务:巴塞尔新资本协议核心技术,北京:中国金融出版社,年月,.,“ ,.,., .“:, , ,., .“,致谢此论文的顺利完成得益于我的指导教师于瑾教授,同时,也要感谢我的同事和朋友。年月个人简历在读期间发表的学术论文与研究成果个人简历:本人高歌,出生日期年月日。年月至年月就读于武汉大学管理学院,主修企业管理专业,获得学士学位。年月一至今:就读于对外经济贸易大学国际经济贸易学院。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!