资源描述
Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Master title style,数据挖掘应用简介,引言,分析报告给你后见之明 (hindsight);,统计分析给你先机 (foresight);,数据挖掘给你洞察力 (insight)。,Berry & Linoff (1997),目录,数据挖掘基本概念,客户分群,流失预测,数据挖掘的定义,数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:,SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。,(1) 分类:按照分析对象的属性、特征,建立不同的组类来描述事物。,(2) 聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。,(3) 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。,(4) 预测:把握分析对象发展的规律,对未来的趋势做出预见。,(5) 偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。,数据挖掘主要功能,数据挖掘的方法,(1) 传统统计方法: 抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。 多元统计分析:因子分析,聚类分析等。 统计预测方法,如回归分析,时间序列分析等。,(2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。,(3) 决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。,数据挖掘的方法,(4) 神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。,(5) 遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。,(6) 关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1A2AnB1B2Bn”。一般分为两个步骤: 求出大数据项集。 用大数据项集产生关联规则。,数据挖掘标准流程 CRISP-DM,CRISPDM是CRoss-Industry Standard ProcessData Mining的缩写,CRISPDM,商业理解,数据理解,数据准备,建立模型,模型评估,模型发布,商业理解(Business Understanding),找问题,-,确定商业目标,对现有资源的评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制定数据挖掘计划,数据理解(Data Understanding),确定数据挖掘所需要的数据,对数据进行描述,数据的初步探索,检查数据的质量,数据准备(Data Preparation),选择数据,清理数据,对数据进行重建,调整数据格式使之适合建模,建立模型(Modeling),对各个模型进行评价,选择数据挖掘模型,建立模型,模型评估(Evaluation),评估数据挖掘的结果,对整个数据挖掘过程的前面步骤进行评估,确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型,模型发布(Deployment),把,数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型,数据挖掘应用领域,电信:流失、聚类,银行:聚类(细分), 交叉销售,百货公司/超市:购物篮分析 (关联规则),保险:细分,交叉销售,流失(原因分析),信用卡:欺诈探测,细分,电子商务:网站日志分析,税务部门:偷漏税行为探测,警察机关:犯罪行为分析,医学:医疗保健,为何要数据挖掘?,数据,+ 工具,+ 方法,+,目标,= 知识,数据,+,工具,+,方法,= 信息,数据,+,工具,+ 方法,+ 目标,+,行动,= 价值,目录,数据挖掘基本概念,客户分群,流失预测,引言,我不知道成功的关键是什么,但是我,知道失败的关键是什么?那就是你试图取,悦于每一个人!,Bill Cosby,客户分群,客户分群,物以类聚,人以群分,客户分群-商业理解,根据目前业务的需要,首先对公众客户进行价值分析。,根据各公众客户的价值,结合客户的使用行为,对客户进行分群,便于市场人员针对不同客户群体制定合适的市场策略,取得提升、保留目标客户群的实质性效果。,确定工作计划,客户价值,账单收入结算费用,成本,由于目前客户成本无法计算,所以暂时考虑账单收入和结算费用。,帐单收入,普通电话和小灵通后付费帐单收入,小灵通预付费帐单收入,宽带收入,卡通话费用折算(目前出帐帐单不含此项,需从卡话单中统计),结算费用,一般通话结算费用,智能网结算费用,客户分群-商业理解,客户分群-商业理解,注:以,上杭州数据截止。,基准客户群,公众客户:,当前在网:,入网超过3个月:,拥有,在网,非公免,甲种用户,入网满三个月,普通电话、小灵通、普通电话和小灵通14部,客户分群-数据理解,理解数据仓库的基本数据信息,:,公众客户基本信息,公众用户基本信息,公众用户(固话)帐单信息,公众宽带用户帐单信息,公众用户本地通话信息,公众用户长途通话信息,公众用户卡通话信息,公众用户结算信息,数据仓库,客户分群-数据准备,变量设计,数据探索,变量选择,变量设计,变量设计,A.客户基本信息,B.客户价值信息,C.客户行为信息,价值、行为变量,客 户,竞争行为,(月平均呼叫移动次数、非电信,IP,不同运营商个数,呼叫行为,(传统长途月平均呼叫次数、,IP,长途呼叫趋势),缴/欠费信息,(按时缴费次数、平均每次欠费时长),客户接触记录,(10000号呼叫次数、业务受理比率,),产品拥有,(是否拥有,IP,语音服务、拥有号线个数),在网时长,(成为电信客户时长),收入,(月平均区内费趋势、总跳表费用趋势、,IP,费用比例,数据业务使用行为,(月平均拨号时长、平均每天上网时长),行为,价值,行为,价值,行,为,价值,行为,行为,客户分群-数据准备,变量设计,数据探索,变量选择,数据探索,主要目标,通过图形化呈现工具和其他的统计方法对数据质量、数据分布有较全面的理解,最终选择建立模型的数据记录和数据属性奠定基础。,主要手段,值分析,统计分析,柱状图分析,频次分析,其他,值分析,变量名,记录数,NULL值,不同值个数,空格个数,零值个数,正值,负值,v_avg_phs_ipld_int_fee,85154,0,56,0,85094,60,0,v_avg_phs_tld_int_fee,85154,0,85,0,85057,97,0,v_avg_phs_ld_int_fee,85154,0,118,0,85021,133,0,v_fix_ipld_int_fee_trd,85154,0,565,0,84512,334,308,v_200_ld_chg_trd,85154,0,658,0,84290,342,522,v_200_lc_chg_trd,85154,0,464,0,84401,360,393,v_200_chg_trd,85154,0,959,0,83828,542,784,v_fix_tld_int_fee_trd,85154,0,965,0,83907,605,642,v_avg_fix_ipld_int_fee,85154,0,425,0,84511,643,0,v_avg_fix_dis_fee_rt,85154,0,5760,0,72429,732,11993,v_avg_fix_dis_fee,85154,0,6355,0,72429,733,11992,v_200_lc_chg_fluc,85154,0,277,0,84401,753,0,v_avg_200_lc_chg_all_rt,85154,0,585,0,84401,753,0,v_avg_200_lc_chg,85154,0,232,0,84401,753,0,统计分析,变量名,记录数,最小值,最大值,均值,标准差,众数,取众数值个数,取众数值占比,v_avg_phs_ld_int_fee,85154,0,37381,4.07206,254.2262,0,85021,99.84,v_fix_ipld_int_fee_trd,85154,-787.32,637.54,0.00108,6.30476,0,84512,99.24,v_avg_fix_ipld_int_fee,85154,0,102480,26.05267,799.6381,0,84511,99.24,v_200_lc_chg_fluc,85154,0,12.25,0.08696,0.9633,0,84401,99.11,v_avg_200_ld_chg_all_rt,85154,0,0.6837,0.00103,0.01542,0,84290,98.98,v_avg_200_ld_chg,85154,0,21003.17,7.04395,192.3413,0,84290,98.98,v_200_ld_chg_fluc,85154,0,12.25,0.10362,1.06177,0,84290,98.98,v_avg_fix_tld_int_fee,85154,0,148626.7,39.48853,1046.238,0,83907,98.53,v_fix_tld_int_fee_trd,85154,-1015.84,529.11,-0.03426,9.01527,0,83907,98.53,v_200_chg_trd,85154,-418,310.56,-0.07828,3.32384,0,83828,98.44,v_200_chg_fluc,85154,0,12.25,0.15303,1.27241,0,83828,98.44,v_avg_200_chg,85154,0,22642.83,11.11534,240.9923,0,83828,98.44,v_avg_fix_ld_int_fee_rt,85154,0,0.9817,0.0043,0.04455,0,83476,98.02,v_avg_fix_ld_int_fee,85154,0,148626.7,65.5412,1366.096,0,83476,98.02,v_fix_ld_int_fee_trd,85154,-1015.84,645.05,-0.03319,10.72853,0,83476,98.02,柱状图分析,用户的收入主要集中在20至80元,占80%以上用户数,其他,杭州西湖区某客户,3部固定电话,近三月平均用卡通话次数1926次!,主叫号码,被叫号码,接入码,通话开始时间,实际通话时长,88162525,88866533,96201,2004-11-2 13:17,48,88162525,88477867,96201,2004-11-1 15:31,200,88162525,85805204,96201,2004-11-1 15:23,70.4,88162525,87632232,96201,2004-11-1 15:22,52.1,88162525,88808310,96201,2004-11-1 15:14,50.7,88162525,13355711081,96201,2004-11-1 13:07,51.6,88162525,87582059,96201,2004-11-1 12:57,203.7,88162525,13905819155,96201,2004-11-1 12:53,87,88162525,87240866,96201,2004-10-29 16:13,84.8,88162525,13805714854,96201,2004-10-29 16:05,75.5,88162525,87217881,96201,2004-10-29 16:04,6.2,88162525,87217881,96201,2004-10-29 16:03,12.5,88162525,13857173355,96201,2004-10-29 15:56,27,88162525,677372870,96201,2004-10-29 15:48,429,88162525,13391010110,96201,2004-10-29 14:46,77.7,88162525,13606641733,96201,2004-10-29 14:44,57.8,主叫号码,被叫号码,接入码,通话开始时间,实际通话时长,88254348,13805714854,96201,2004-11-19 10:49,36.4,88254348,13906551056,96201,2004-11-18 16:28,56.3,88254348,85353396,96201,2004-11-18 16:23,52.9,88254348,13858063336,96201,2004-11-18 16:21,20.5,88254348,85804753,96201,2004-11-18 16:18,77.2,88254348,13600518404,96201,2004-11-18 16:17,19.8,88254348,85804753,96201,2004-11-18 16:16,21.5,88254348,27860541,96201,2004-11-18 16:11,176.2,88254348,85804800,96201,2004-11-18 16:08,150.9,88254348,85675245,96201,2004-11-18 15:59,27.4,88254348,85353396,96201,2004-11-18 15:57,24.7,88254348,13355711081,96201,2004-11-18 15:55,123.1,88254348,13905819155,96201,2004-11-18 15:52,57.7,88254348,13905819155,96201,2004-11-18 15:51,40.1,88254348,88368155,96201,2004-11-18 13:14,197.5,88254348,13396817860,96201,2004-11-17 15:19,139.8,主叫号码,被叫号码,接入码,通话开始时间,实际通话时长,88254444,2210319,96201,2004-10-13 15:17,61.1,88254444,13003613991,96201,2004-10-13 15:12,33.6,88254444,2210189,96201,2004-10-13 14:30,20.9,88254444,2227713,96201,2004-10-13 14:21,334.8,88254444,2227713,96201,2004-10-13 14:20,49.3,88254444,2210189,96201,2004-10-13 14:15,83.7,88254444,4225190,96201,2004-10-13 13:36,115.4,88254444,114,96201,2004-10-13 13:35,22.5,88254444,87048376,96201,2004-10-13 12:12,49,88254444,87049576,96201,2004-10-13 12:12,27.1,88254444,85610873,96201,2004-10-13 12:03,84.6,88254444,2210319,96201,2004-10-13 11:17,21.3,88254444,85384102,96201,2004-10-13 11:05,43.6,88254444,85384102,96201,2004-10-13 10:45,314.6,88254444,85384116,96201,2004-10-13 10:44,18.2,88254444,89180139,96201,2004-10-13 10:20,343.7,高帐单收入用户对电信的贡献不一定高,杭州桐庐县小灵通用户C,当月帐单金额,493.66,元,发话网通通话,25,次,受话网通通话,5,次,结算费用,473.04,元,损失,473.04,元,!,建德市新安江镇普通用户,D,当月帐单金额,318.00,元,拨打,168,结算费用,-255.00,元,损失,255.00,元,!,注:以,上杭州数据帐务月为2004年10月,低帐单收入用户对电信的贡献不一定低,目前,电信衡量用户贡献度的主要指标是帐单收入,即用户以发话方或发话费用给电信带来的收入,杭州西湖区普通电话用户 A,当月帐单金额16.40元,使用96201卡1143次,通话费用684.42元,按6折算,贡献410.65元!,建德市新安江镇小灵通用户B,当月帐单金额25.05元,受话网通通话60次,结算费用334.53元,贡献334.53元!,注:以,上杭州数据帐务月为2004年10月,客户分群-数据准备,变量设计,数据探索,变量选择,变量选择,应结合业务意义、分群目的和数据质量来选择参与分群的变量:,从业务的角度看,无分析意义的变量不建议参与分群;,取值个数较少、离散的变量及数据质量较差的变量不建议参与分群;,互相之间可以派生(相关性太强)的变量不建议全部参与分群;,总量和分量不建议一起参与分群。,客户分群-建立模型,建模工具:,TERADATA WAREHOUSE MINER (Clustering),算法:,a.,K-Means,b.,高斯混合模型,分群个数(7 加减 2),注:利用K均值算法需要先将数据进行标准化处理(Z_Score),分群结果特征刻画,分群模型调优,客户分群-模型评估,注:建立模型和模型评估不是孤立的两个阶段,无法将两个阶段区隔的很清楚,特征刻画,利用TWM聚类结果cluster similarity进行特征刻画,特征刻画,利用透视图进行特征刻画,模型调优,客户分群是一个螺旋上升,不断优化的过程,判断分群结果是否理想:,群内特征是否相似,群间特征差异是否明显,分群结果是否具有业务指导意义,分群调优可通过调整分群个数及调整分群变量输入来实现,客户分群-模型发布,确定,客户分群,模型的结果,送到相应的管理人员手中,对,客户分群,模型结果进行应用。,对,客户分群,模型进行日常的监测和维护,定期更新,客户分群,模型,附:,基于,(MR),市场营销再造的思想,在完成客户行为分群和价值分群的基础上,生成,VB,矩阵,山坡图、战略分群,VB矩阵,价值,模式1,价值,模式2,价值,模式4,行为,模式3,行为,模式4,价值,模式3,行为,模式1,行为,模式2,将VB分群结果交叉,山坡图,战略分群,SS1,低值休眠型,SS2,本地温饱型,SS3,短途离家型,SS4,本地预警型,SS5,本地活跃精明型,SS6,长途中值型,SS7,传统长途成长型,SS8 IP,高值敏感型,SS9,灵通伴我型,特征刻画后命名,战略分群特征刻画,战略分群总体特征描述 SS1,低值休眠型,人数,21103,,占总人数,25,.,20,%。,总费用,占各客户群总收入的,9.28%,,,ARPU值,最,低,,,为,19,.,56,元,。,区间(,0.22,元)和长途费用(传统国内长途,0.66,元、传统国际长途,0.01,元、,IP,国内长途,0.10,元)几乎没有,,以区内费为主(,3.32,元,占总收入,16.74%,),但区内费远低于平均值(,12.23,元);月租费占比最高,为,70.8%,。,几乎没用优惠!,总费用有微弱上升趋势。,缴费周期最长(平均,16,天,/,月)。,平均欠费金额次最低:,1.16,元。,SS1,客户分群总体特征描述 SS8,高值敏感型,人数,3193,,占总人数,3,.,81,%。,收入占比,7.51%,,,ARPU值,次最高,为,104,.,66,元,不含小灵通达,98.62,元。,区内费用,(27.73,元,),次最高。区间费,(4.68,元,),用较高。区内区间费用下降趋势明显。,总长途费用最高,IP,长途费用最高(,35.54,元,),;国际费用最高,(5.76,元,),,但是以,IP,为主,且,IP,国际最高(,4.73,元,,平均值,0.55,元) ;有一定的传统长途(,8.91,元,),。所有的长途费用趋势下降。有一定,17908,费用。,201,费用最高,略高于,17908,费用,主要为长途,201,费用。,201,卡和,17908,费用均有下降趋势。电信,IP,接入费最高且远高于他网,IP,。拨打异商,IP,电话较多 ;拨打本地行动较多。简单地说,用,17909,打长途,电信,IP,一族!平均每个用户半年拨打,35,个不同的长途号码。拨打不同长途电话最多。,享受的总优惠最多。,总费用下降趋势最明显。,平均欠费金额接近最高:,6.34,元。,SS8,战略分群分布,群号,人数,人数占比,收入,收入占比,ARPU值,SS1,21,103,25.20%,412,725.24,9.28%,19.56,SS2,19,028,22.73%,560,889.39,12.61%,29.48,SS3,2,632,3.14%,116,503.04,2.62%,44.26,SS4,2,870,3.43%,110,944.87,2.49%,38.66,SS5,7,388,8.82%,429,685.85,9.66%,58.16,SS6,3,730,4.45%,175,541.46,3.95%,47.06,SS7,3,201,3.82%,283,863.51,6.38%,88.68,SS8,3,193,3.81%,334,165.06,7.51%,104.66,SS9,11,379,13.59%,1,404,491.09,31.58%,123.43,合计,74,524,89.01%,3,828,809.51,86.10%,目录,数据挖掘基本概念,客户分群,流失预测,引言,世界是物质的,物质是运动的,运动是,有规律的,规律是可以认识和利用的,马克思,流失预测-商业理解,对用户话音收入进行监控,尽早感知用户流失的可能性,在流失前或流失行为的初期阶段就能够有针对性的开展工作,避免进一步的损失;,根据目前业务的需要,首先对,公众用户,进行分析,。,确定工作计划,话音收入,包括除月租、来显费、信息费等增值业务费以外所有语音通信收入,含上网通信费。,基准用户群,公众固话用户,(普通电话和小灵通,由于小灵通预付费暂无账单,目前主要针对普通电话);,当前在网用户;,非公免用户;,入网三个月以上用户;,基准客户群,基准用户所属的所有客户;,拥有4部以下固话(普通电话、小灵通);,潜在话音收入流失客户,客户所属的用户中,至少有一个潜在的话音收入流失用户;,话音收入流失定义,月话音收入与前三个月平均话音收入相比下降30%以上;,流失预测-商业理解,流失预测-数据理解,理解数据仓库的基本数据信息,:,公众客户基本信息,公众用户基本信息,公众用户(固话)帐单信息,公众用户本地通话信息,公众用户长途通话信息,数据仓库,流失预测-数据准备,变量设计,数据探索,变量选择,变量设计,变量设计,A.客户(用户)基本信息,B.用户价值信息,C.用户行为信息,价值、行为变量,用户,竞争行为,(月平均呼叫移动次数、非电信,IP,不同运营商个数,呼叫行为,(传统长途月平均呼叫次数),缴/欠费信息,(按时缴费次数、平均每次欠费时长),客户接触记录,(10000号呼叫次数、业务受理比率),产品拥有,(是否拥有,IP,语音服务、拥有号线个数),在网时长,(成为电信用户时长),收入,(月平均区内费趋势、,IP,费用比例,价值,行为,价值,行为,价值,行为,行为,流失预测-数据准备,变量设计,数据探索,变量选择,数据探索,主要目标,通过图形化呈现工具和其他的统计方法对数据质量、数据分布有较全面的理解,最终选择建立模型的数据记录和数据属性奠定基础,。,主要手段,值分析,统计分析,柱状图分析,频次分析,其他,27%用户8月份话音收入比7月份下降30%以上,注:以,上杭州数据截止2004.8.21.,高收入段的用户流失率也高,一旦流失,少有回头,公众普通电话用户,2004年3月到8月在网;,三月的话音收入20,300(元),共:400533用户,M3,M4,M5,M6,M7,M8,38%,69%,79%,83%,89%,M3,三月份为基准月,共400533普通电话用户,占24%,话音收入占65%;,四月份话音收入比三月份下降30%者(M4)占目标群的38%;,M4中,69%在五月份话音收入继续保持比三月份下降30%(M5);,这样的比例,在6,7,8分别达到,79%,83%,89%;,启示:,一旦下降,后续月份很少反弹;,如果本月比上月相比下降了,30%,以上,则应该立即有所行动;,如果需要对将要流失的用户实施预见性的市场保育工作,那么关键是要预测下月将要流失的用户;,话音收入下降要警惕,本月话音收入比近三个月话音收入下降20%以上的用户,流失率开始明显高于平均流失率;,传统长话收入与流失,近三个月传统长话收入较高的用户,流失率相对较高;,在,近三个月传统长话收入大于,12,元的用户群中,流失率比平均流失率高,10,个百分点;,入网时长与流失,入网时间小于三年的用户,流失率略高于平均流失率,而且入网时间越短流失率越高;,流失预测-数据准备,变量设计,数据探索,变量选择,变量选择,应结合数据探索(变量分析)和数据质量来选择参与预测建模的变量:,变量分析时各分段组内流失率与平均流失率相近的变量不参与建模;,相关性太强(各分段组内流失率相近)的变量不建议参与预测建模;,流失预测-建立模型,注:采样比例不一定都是50%,视数据量而定,建模工具,TERADATA WAREHOUSE MINER(DECISION TREE),采样,训练集:50%,测试集:50%,流失预测-模型评估,使用模型对八月的用户数据进行评分,得到每个用户在九月的流失倾向分值;使用模型对九月的用户数据进行评分,得到每个用户在十月的流失倾向分值;,使用用户在九月、十月实际的流失情况,来评估模型预测结果在未来一个月、两个月的命中率;,主要的关注点:模型评分分值较高的若干用户中,实际的命中率;用户数的一般取法:,占总用户群10%的用户;,根据市场需要,关注评分靠前的1000、5000、10000、20000或50000个用户;,验证数据:9月,流失预测-模型发布,确定,流失预测,模型的结果,送到相应的管理人员手中,对,流失预测,模型结果进行应用。,对,流失预测,模型进行日常的监测和维护,定期更新,流失预测,模型,?,?,!,谢谢,
展开阅读全文