资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Page.,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三章 数据挖掘与,CRM,数据挖掘的基本知识,CRM,中的数据挖掘应用,4.1,数据挖掘的基本知识,数据挖掘的产生背景,数据爆炸但知识匮乏,数据:一般的业务操作,通常都会产生大量的数据,如订单、库存、交易帐目、通话记录、及客户资料等。,信息:如何利用企业的历史数据增进对业务情况的了解,帮助我们在业务管理及发展上作出及时、正确的判断,需要从数据成为信息,美国三大电视网电视剧广告间隙,美国自来水公司的用水高峰,如何抛弃不必要的数据,从大量数据中及时提取有用的知识?,数据挖掘,从大量的数据中挖掘出有用的知识,1.Walmart,and,2.NASDAQ,3.NBA,Advanced Scout,数据挖掘的定义,数据挖掘,Data Mining,技术角度的定义,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。,商业角度的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的海量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。,知识发现,(KDD),:数据挖掘过程,数据挖掘,知识发现过程的核心,数据清理,数据集成,数据库,数据仓库,知识,任务相关的数据,选择,数据挖掘,模式评估,数据挖掘,:,多种技术的融合,数据挖掘,数据库技术,统计学,机器学习,模式识别,算法,其他技术,可视化,数据挖掘,VS,传统分析方法,有何区别,?,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。,数据挖掘过程,数据挖掘过程包括:,数据准备(选择、预处理、转换),确定主题,读入数据、建立模型、理解模型,解释与评价,知识应用,分析问题,整合数据,建立模型,理解规则,预测未来,数据挖掘技术分类,数据挖掘,描述,预测,可视化,聚类,关联规则,汇总描述,分类,统计回归,时间序列,决策树,神经网络,数据挖掘的模型(1),分类(,Classification,)与决策树(,Decision trees,),分类分析是为了找出描述和区分数据类或概念的模型,常常通过决策树、神经网络等模型进行表示。,决策树:,根节点、节点、分支、叶子。,CHAID决策树分析-市场分析,在贷款申请中,要对申请人的风险大小做出判断,多变量分析,根据细分变量区分群体的差异性程度(卡方统计值,Chi-square,)的大小,将样本分为不同特征的细分群体。,过程,确定细分的目的与细分变量(人口统计变量、心理变量、行为变量),变量类型:分类变量或有序变量,根据卡方值最显著的变量将样本分为不同细分群体,样本量敏感(父节点样本,30,,子节点,5,),数据挖掘的模型(2),聚类(,Cluster,),聚类是把一组个体按照相似性归成若干类别的过程。,原则:最大化类内部的相似性、最小化类之间的相似性,聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。,数据挖掘的模型(3),关联(,Association,),在购买面包的顾客中,有,90%,的人同时也买了牛奶:,(,面包,)(,牛奶,),,计为,XY,。,评估关联规则的四个重要指标是:,(1),支持度,(,support,):交易集中包含,X,和,Y,的交易数与所有交易数之比,记为,support(XY),(2),可信度,(,confidence,):包含,X,和,Y,的交易数与包含,X,的交易数之比,记为,confidence(XY),(3),期望可信度,(,expected confidence,):描述了在没有物品集,X,的作用下,物品集,Y,本身的支持度,记为,E-confidence(Y),(4),作用度,(,lift,):作用度是可信度对期望可信度的比值。描述了物品集,X,对物品集,Y,的影响力的大小。记为,Lift(XY),。一股情况要求大于,1,。,设,sup,min,=50%,conf,min,=50%,符合条件的关联规则有哪些?,交易流水号,购买产品,002,A,B,D,018,A,C,D,030,A,D,E,006,B,E,F,157,B,C,D,E,F,A,D,(60%,100%),D,A,(60%,75%),数据挖掘的模型(4),序列模式(,Sequential Pattern,),分析数据之间的前后(因果)关系,类似于关联分析,用于发现客户潜在的购物模式,先购买,PC,,再购买数码相机,接着还要买存储卡,5,天之内,,X,股票最多上涨,10,,,Y,股票涨幅在,10,20,之间,,Z,股票在下星期上涨的概率为,68,。,指标,最小支持度,最小可信度,4.2 CRM,中的数据挖掘应用,在CRM中的应用范围,客户盈利能力;,客户保留;,客户细分;,客户倾向;,渠道优化;,风险管理;,欺诈监测;,购物倾向分析;,需求预测;,价格优化。,案例:基于,DM,的客户营销管理,流失预警模型,交叉销售模型,客户行为,细分模型,更多模型,营销信息预警,营销方案策划,绩效管理,主动营销,客户,行为数据,业务系统,数据仓库,数据挖掘,模型,行为数据,行为数据,客户挽留,营销信息层,分析企划层,管理实施层,客户行为细分,0,200,500,低,端,中,端,高,端,ARPU,值相似的客户需求特点却差别很大,客户细,分之谜,根据,ARPU,值进行客户细分的方法,基于数据挖掘技术的以需求为基准的细分,客户行为,价值细分模型,海量客户,行为数据,/,特征数据,组内行为特点相似组间行为差异较大的客户分组,客户行为细分(续),客户行为细分模型,客户流失倾向,预警模型,价格敏感度模型,客户信用评分模型,交叉销售模型,营销效果预测模型,客户价值,评估模型,客户行为细分模型通过,上百个变量,描述客户,性别,年龄,建档时间,证件号码,缴款方式,信息费,应收金额,优惠金额,滞纳金应收,SMS,次数,国际呼叫,呼入,/,呼出比例,短消息话单类型,信息长度,赠送费用,呼转类型,漫游话费,通话时长,赠送分钟数,费用类型,动态漫游号,IMSI号码,月均基本通话,月均国内长途,工作日呼叫次数,工作日呼叫时间,WAP,呼叫时间,繁忙时段呼叫次数,非繁忙时段呼叫次数,SMS,次数,WAP次数,IP,呼叫次数,语音呼叫次数,非语音呼叫次数,月均国际长途,非IP呼叫时间,数据挖掘,自动生成,影响客户分组的主要因子,性别,年龄,缴款方式,SMS,次数,国际呼叫,其它,优惠金额,短消息话单类型,赠送费用,费用类型,漫游次数,应收金额,IDD,次数,月均国内长途,月均基本通话,非语音呼叫次数,SMS,次数,WAP次数,月均国际长途,语音呼叫次数,费用类型,因子分析,聚类分析根据自身所具有的特征,自动,聚为一些,行为特点相似,的群体,低,高,高,高,1,2,8,4,5,3,7,6,因素二(国内呼叫次数),因素三(,IP,呼叫次数),因素一(繁忙时段呼叫次数),示例,16,个组中呈现出差别明显的优势、弱势特征,组号,优势特征,弱势特征,描述性名称,#1,语音每次呼叫时间、香港(澳门)呼叫、非繁忙时段呼叫,繁忙时呼叫、,IP,呼叫、短信、转移,业余活跃组,#2,繁忙时段月均呼叫次数、漫游地区呼叫、香港呼叫次数,转移呼叫、短信、转移,业务繁忙组,#4,IP,呼叫、转移呼叫,贵中求惠组,#6,IP,呼叫,短信、转移,IP,手机组,#9,IP,呼叫、短信,非繁忙时段呼叫,新生潜力组,#12,非繁忙时段呼叫,漫游地区呼叫、转移、短信,夜间积极组,#14,繁忙时段月均呼叫次数,漫游呼叫、非繁忙呼叫、转移,本地繁忙组,#16,繁忙时段月均呼叫次数、转移呼叫、香港(澳门)呼叫,IP,呼叫,繁忙大客户组,#8,短信,转移呼叫、,IP,短信专家组,#11,转移呼叫,繁忙时段月均呼叫次数、短信,热衷转移组,#15,漫游地区呼叫,短信、繁忙呼叫次数,频繁出差组,#3,语音每次呼叫时间,繁忙时段次数、短信,情深语长组,#5,繁忙时段次数、每次呼叫时间、短信,消极等待组,#7,呼入,/,呼出比,短信,等待接听组,#10,繁忙时段次数、呼入,/,呼出比、每次呼叫时间,休眠组,#13,繁忙时段月均呼叫次数,寂寞无声组,各类客户人数及收入贡献一览,人数,百分比,收入贡献,百分比,59.61%,56.41%,15.08%,28.51%,14.89%,25.91%,客户群,优质,普通,弱势,组别,#1,、,#2,、,#4,、,#6,、,#9,、,#12,、,#14,、,#16,#8,、,#11,、,#15,#3,、,#5,、,#7,、,#10,、,#13,人数,103,664,54,816,205,071,收入贡献,RMB29,659,162.05,RMB7,204,282.92,RMB12,897,830.1,优质,普通,弱势,示例:全球通(后付费)客户的,17,个客户分组,客户群,组号,人数(万人),人数百分比,组内月人均话费,组名,优质组,#9,1.5,1.5%,970,国际呼叫组,#4,1.7,1.8%,865,业务繁忙组,#2,1.5,1.6%,758,呼叫香港组,#14,1.0,1.0%,729,国内长途组,#15,1.4,1.4%,640,呼叫台湾组,#16,11.6,11.8%,420,本地繁忙组,#11,1.2,1.2%,407,转移移动组,普通组,#10,2.8,2.9%,351,热衷,IP,组,#12,4.6,4.7%,347,商务潜力组,#13,2.1,2.1%,331,全面发展组,#5,1.9,1.9%,321,呼转电信组,#7,2.0,2.0%,286,短信热衷组,#17,1.6,1.6%,241,转移联通组,弱势组,#8,6.7,6.9%,221,IP,长聊组,#6,4.3,4.3%,205,短信潜力组,#1,14.1,14.4%,171,情深语长组,#3,38.4,39%,100,节约通话组,对细分客户组进行特征描述,本组特征描述,本组客户共,15441,人,占客户总数的,1.6%,,组内每月人均话费,759,元。,与其他客户相比,本组客户的显著特征体现在呼叫香港的通话行为较多(因素,7,)。香港月均每次呼叫时间达,1.8,分钟,月均呼叫次数,8.7,次,而全体客户平均香港月均每次呼叫时间,1.6,分钟,月均呼叫次数只有,0.2,次。由此,本组客户的香港月均呼叫费用(,53.7,元)比全体客户平均呼叫费用(,1.3,元)高出,40,多倍,香港呼叫需求相当大。,第二组:呼叫香港组 优质组,
展开阅读全文