资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Data mining for decision support on customer insolvency in telecom business,1,第一部分,应用背景及客户需求分析,2,为什么要建立这样一个决策支持来区分无力偿还客户?,情况描述:,电信公司与其他服务提供公司一样,经常会遭受无力偿还客户(使用了所提供的服务却没有付费)。尽管针对这些客户采取了一定的预防措施,然而在大多数情况下,这些措施显得太晚了,并且没有显著的作用。因此,一些客户逃脱付费的行为导致了公司财政遭受相当大的损失。,3,解决方法,在电信行业垄断局面被打破的今天,各方面竞争日益激烈,侦测和预防此类行为对该行业来讲是个重要的目标。建立一个可以事先预测客户无力偿还行为的可用的模型,对服务供应商来说就意味着一个有用的决策支持工具。,4,决定使用数据挖掘技术的原因,注意到电信公司收集到了大量的数据,这些数据涉及到公司与客户间交流的多个不同方面,这些数据可能包含了关于无力偿还预测的有价值的信息。比如:,a)客户简介,b)所使用的服务,c)公司与客户间的经济联系,5,最终目标,与其他欺诈检测问题中的欺诈者相似,普遍认为无力偿还客户一般与其它客户表现不同,尤其是在该要付费的关键时期。,目标:,揭示这些行为模式,可以把无力偿还客户同其他的客户区别开来。,6,一些固有难题,一些固有的限制使得该研究是一个特殊的难题。,a),无力偿还客户的行为可归结为欺诈性结果或一些不从属客户意愿的因素(如不可抗力、社会因素)。很明显我们要研究的是前者,因为预测后者是相当困难的,实际上,后者的存在使得对前者的确认变得相当困难。,7,b,)可获得的数据集,常常以一种有限而失真的方式表现各个客户。这是因为信息的来源只限于电信公司以及该公司所维护的关于客户的信息。由于各种道德和法律因素,这些信息不能和其他来源的信息相互联系,客户只是被表示为某些服务的使用者,而没有揭示其它可能影响客户行为模式或无力偿还行为的社会或财政方面的因素。,8,c),在大量可用的数据中,可以定义许多参数,常常由主要的交易数据演绎而来,可以描述客户行为。绝大多数相关参数的选择对我们的问题来讲是个冗长乏味的过程,部分基于统计分析工具技术,部分基于相关研究人员对所给问题的参数重要性的理解。因此,确定这些参数的子集,并随后使用适当的工具来选出大部分相关参数是个关键的阶段。,9,第二部分,类似应用问题的回顾,10,电信公司对无力偿还客户的预测和以下几个领域的欺诈检测问题相似。,a)移动通讯,b)常规通讯,c)信用卡或名片操作,11,几个问题的共同点:,a),提供服务的公司收入损失显著,超出了允许的毛差额。,b),无法预测的人类行为给欺诈检测带来了相当大的困难。,c),只有在处理了海量数据后才能获取信息。,d),欺诈案例很少与合法的作比。,12,第三部分,无力偿还检测,KDD,过程的结果,13,KDD的9个步骤,1),问题定义和应用领域,2),创建目标数据集,3),数据清洗和预处理,4),数据缩减和投影,5),选择数据挖掘函数?,6),选择数据挖掘算法,7),实施数据挖掘,8),解释结果,9),利用发现的知识,14,1,)问题定义和应用领域,无力偿还预测的功能:,可预测拒绝在接下来的支付日拒绝支付电话帐单的无力偿还客户,以便于电信公司仍有时间采取预防措施。,15,三个目标,为该公司设定的3个主要目标:,1)检测到尽可能多的无力偿还客户,2)最小化虚假警报,比如:有偿还力的客户被错判为无力偿还的客户,3)及时对SP发出警告以便对可能的无力偿还者采取措施。,16,帐单过程(,BP,)的时间序列图,17,研究项目的任务,调查研究如下的假设:,无力偿还客户在BP结束及之前的一个关键时期内,他们的呼叫习惯和电话使用通常会发生变化。此外,呼叫习惯的改变和支护习惯的模式都被检验是否可以对未来的无力偿还行为进行安全的预测。,18,2,)建立一个目标数据集,客户行为可能由许多特征来描述,大部分不能简单的从信息系统和电信设备操作中获得。,对本研究来讲,可得的两种数据:,1.,统计客户信息,(,客户资料,),2.,可提供帐单信息,支付行为和电话服务使用情况,(CDR),的时间依赖数据。,19,涉及的未加工数据,前提:数据被整合并保存在一个为此研究目标而构建的数据仓库中。,在本研究中所涉及的未加工数据:,来自客户资料的客户信息,来自交换中心的电话连接信息,来自帐单信息系统的帐单数据,来自帐单信息系统的客户支付报告,由于支付失败而引起的电话连接断开报告,支付后电话重新连接的报告,永久废弃合同的报告,20,数据来源情况,地域跨度:,数据来自三个不同的地域,农村、半农村、工业区,/,城镇。,数据量:三个数据的共,100,,,000,客户。,时间跨度:,17,个月,即,帐单数据从,10/19992/2001,;,呼叫记录数据从,8/199912/2000,。,总计有,10GB,的未加工数据!,21,3),数据清洗和预处理,任务:,评估所收集数据的质量,过虑掉对该研究无用的信息,找出数据仓库中各种数据项的内在联系。,方法:,1.,去除低费用的电话呼叫。,2.,数据同步。,22,4),数据缩减与投影,在统计推理的协助下,对一些特征进行和最终目标之间的相关测试,来揭示有区分力的特征,对此两类客户分类。而那些无区分力的特征就被去除了。,23,在此阶段所做的统计测试,1.,每个电话帐户都从属于,23,种中的某一种。使用,chi-square,假设检验来核对不同类别的电话帐户对于两类客户的分布独立性。,Reject,2.,计算两类客户的双月帐单的欠费平均数,且发现无力偿还客户的尤其高。该发现在所有的电话连接种类中是一致的。为证实此点实施了一项假设检验:两类客户和不同种类的帐户的平均欠费数是同质的。,Reject,24,3.,对特征“双月帐单的额外收费”在两类客户和不同种类帐户中的同质性实施假设检验。证明了两类用户间在此特征上差异显著。,Reject,4.,对特征“分期付款”研究一个客户要求分期付款的次数。假设“两类客户中要求分期付款的客户的比例相同”被拒绝。证明在两类客户在此特征上有明显不同。,Reject,25,5),定义数据挖掘功能及特征选择,预测客户是否是无力偿还客户可以视为一个分类问题,该问题具有以下特征:,1.,在原始数据集中,已知的帐户组中每个,BP,期间两类客户的分布非常不平均,大约有,99.3%,的有力偿还客户,,0.7%,的无力偿还客户。,2.,在数据集中无力偿还客户的绝对数目很小,因为在每个已知的,BP,期间只有几个无力偿还客户的,case,。,3.,如前所述,两类的错分引起的代价不同。,26,解决方案,创建一个新的数据集,专用于数据挖掘功能。,新数据集特性,目标:创建一个有力偿还客户的代表性的样本,使得算法可以有效的训练。,组成结构:两类用户的比例发生了变化,,90%,的有力偿还客户,,10%,的无力偿还客户。,27,实现方法:保留原始数据集中所有无力偿还客户的例子,对有力偿还的客户进行层层抽样。依据一组,3,个特征(地理区域,电话连接类型,电话帐户组)用于层次化抽样。这,3,个特征在抽样中应该与在原始数据集中比例相同,使得,a),保持,3,种不同的地域区别,b),代表不同的电话连接,c),减少电话帐户组的季节性影响,28,处理结果,29,两类客户在关键时期的平均付费单元数,30,6),选择分类算法,本研究使用的算法及结果如下:,1.,回归分析,给出了一个线性分类器。,2.,神经网络,给出了一个非线性分类器。,3.,决策树,给出了一个基于规则的分类器。,我们实验中的依赖变量为描述顾客的,SOLVENT(,置为,0),或,INSOLVENT(,置为,1),。,31,7),数据挖掘实验的结果,为了测试和比较不同分类算法的性能,做了一些实验。,实验所用数据集,创建的数据集被分为了两部分:,第一部分,含有,2/3,的例子,作为训练集;,第二部分,含有,1/3,的例子,作为测试集。,所做实验都采用该划分好的数据集。,32,8),逐步回归分析,回归分析,使用工具:,SPSS Version 10.0,33,决策树,在回归分析阶段选出的,17,个变量作为决策树的输入。如前所述,,2/3,的数据用于训练以建立一个基于规则的分类器,余下的,1/3,用于测试生成的决策树。决策树的结点表示特征的测试,叶子表示可能的有力偿还和无力偿还客户。,34,神经网络,利用后向传播算法,仍然使用回归分析中选出的17个变量作为训练网络的输入。,35,对三种分类器结果的解释说明,从上表可以看出,对于第一个目标,最大化无力偿还客户的分类正确率,决策树的效果最好;对于第二个目标,最小化有力偿还客户的错分率,仍是决策树的效果最好。,36,9),使用发现的知识,在,case-by-case,的比较中,每个,case,(一个客户)被分别检验。,做法:如果三个分类器意见一致,则该,case,就被分类,否则,该,case,被认为无法分类。,结果:虽然无力偿还客户的分类准确率下降了不少,但是有力偿还客户的错判警报改进了很多。从下表中可以看出,,1866,个有力偿还客户中,只有,1,个被错判的。,37,在结果评估的最后一步,对被正确预测为无力偿还的客户所实际占有的帐目作了评估。,38,第四部分,总结及未来研究方向,39,本文主旨,该长期研究项目目的是研究数据挖掘技术对于客户无力偿还问题在电信领域的特殊应用。然而,项目的发现远不止在该案例的研究领域的应用。出于一些原因考虑,该研究的成果是有重大意义的。,1.,该研究所用的数据,需求和目标的设置,以及实验的规模,都是来自真实世界的问题。,2.,实验规模相当的大,,MB,级的数据量。,3.,构建了一个“知识发现数据项目”并从始至终完整的执行。,4.,在初始阶段,需要多种工具和专家的直觉来定义数据集特征,选择合适的变量描述需求模型特征。,40,数据挖掘过程总结,数据挖掘是个多步的过程。使用多种算法,最后选择最好最合适该数据集的算法。,1.,实施特征选择(用回归分析中的逐步前向选择)。在这个阶段,,46,个变量被减至,17,个。,2.,选出的特征被用于构造基于决策树和后向传播的神经网络算法的分类器(大致上三种算法性能相差不大)。,3.,该研究中联合算法的实施增加了分类预测的可信度,明显降低了正例的错分率,从而使电信公司对性能相当满意。,41,问题:该方案能否普及并应用到其它方面,该研究中的一些发现和技术是有普遍意义的,如:,2-,阶段的数据挖掘方法,以及关于知识发现方法的讨论。除了问题定义和初始变量选择这些阶段以外,其余的阶段都是可以推广应用到类似的欺诈检测领域的。,未来研究的方向:,一个参数化的工具,可以处理不同应用领域的偏差(从而达到推广应用)。,42,谢谢!,43,
展开阅读全文