资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,腾 讯 大 讲 堂,研发管理部,数据蕴含商机,挖掘决胜千里,Agenda,数据挖掘是什么?,1,模型,+,算法,2,数据挖掘实践共享,3,心得与总结,4,从运筹帷幄到决胜千里,舌战群儒,草船借箭,巧借东风,火烧赤壁,赤壁怀古 苏轼,羽扇纶巾,谈笑间,樯橹灰飞烟灭,.,观日月之行,察天地之变,风,雷,电,雨,云,云多会下雨,刮风会下雨,下雨会闪电,闪电会打雷,换成它呢?,数据爆炸的时代,Data Mining,circa 1963,IBM 7090,600 cases,“,Machine storage limitations,restricted the total number of,variables which could be,considered at one time to 25.”,数据挖掘是,Data,Information,Knowledge,Wisdom,To find/discover/extract /dredge/harvest、,Interesting/novel/useful/implicit/actable/meaningful、,Information/knowledge/patterns/trends/rules/anomalies、,In massive data/large data set/large database/data warehouse,、,Data+context,Information+rules,Knowledge+experience,多学科的融合,Databases,Statistics,Pattern,Recognition,KDD,Machine,Learning,AI,Neurocomputing,Data Mining,Agenda,数据挖掘是什么?,1,模型,+,算法,2,数据挖掘实践共享,3,心得与总结,4,几个基本概念,模型(Model)vs 模式(Pattern),数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去,模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的全部点,例如聚类分析,模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析,算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出,描述型挖掘(Descriptive)vs 预料型挖掘(Predictive),描述型挖掘:对数据进行概括,以便利的形式呈现数据的重要特征,预料型挖掘:依据视察到的对象特征值来预料它的其他特征值,描述型挖掘可以是目的,也可以是手段,数据挖掘是一个过程,“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996),数据挖掘方法论,CRISP_DM(Cross Industry Standard Process for DM),1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出,SEMMA,SAS公司提出的方法,Sample,Explore,Modify,Model,Assess,在战略上运用Crisp_DM方法论,在战术上应用SEMMA方法论,工欲善其事必先利其器,数据清洗,填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一样问题,主要分析方法:分箱(Binning)、聚类、回来,数据集成,多个数据库、数据方或文件的集成,数据变换,规范化与汇总,数据简化,削减数据量的同时,还可以得到相同或相近的分析结果,主要分析方法:抽样、主成分分析,数据离散化,数据简化的一部分,但特别重要(尤其对于数值型数据来说),先来玩玩数据(,EDA,),探究性数据分析(Exploratory Data Analysis,EDA),探究性地查看数据,概括数据集的结构和关系,对数据集没有各种严格假定,主要任务,数据可视化(a picture is worth a thousand words),残差分析(数据拟合+残差),数据的重新表达(什么样的尺度对数抑或平方根会简化分析),方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值),常见方法,统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等,统计图,如饼图、直方图、散点图、箱尾图等,模型,如聚类,数据挖掘,=,模型,+,算法,分类预测,关联规则,孤立点探测,聚类,Logistic Regression,决策树,神经网络,K-Means,K-Mode,SOM,(自组织图),Apriori,FP-Growth,基于统计,基于距离,基于偏差,你运用过信用卡吗?,卡应当发给谁?,哪些持卡人会拖欠?,哪些拖欠的客户会还款?,影响,资产组合,(,Portfolio,),1、依据历史,预料将来,2、目标是一个分类变量,3、预料结果是一个统计意义下的概率,1,、哪些人可以发卡,额度是多少。,2,、持卡人拖欠的概率是多少,3,、该对谁催收,分类过程,训练集,分类学习,训练集,IF rank=professor,OR years 6,THEN tenured=yes,Jef is YES!,分类器,物以类聚,人以群分,人为地选取细分维度,客户价值,地域,活跃程度,维度灾难的发生,维度增长,细分数目指数增长,人脑仅能处理有限的维度,市场,聚类示意,基于欧氏距离的三维空间中的聚类,基于质心的聚类算法,(K-Means),A1,A2,B1,x,y,z,发觉商品间的关联规则,buy(x,”diapers”),buy(x,”beers”),关联规则的量度,支持度:,Support(A=B)=#AB/#N,,表示,A,和,B,同时出现的概率,期望可信度:,Support(A)=#A/#N,,表示,A,出现的概率,置信度:,Confidence(A=B)=Support(A=B)/Support(B),改善度:,Lift(A=B)=Confidence(A=B)/Support(B),名称,描述,公式,支持度,X、Y,同时出现的频率,P(X,Y),期望可信度,Y,出现的频率,P(Y),置信度,X,出现的前提下,,Y,出现的频率,P(Y|X),改善度,置信度对期望可信度的比值,P(Y|X)/P(Y),关联规则的度量,发觉具有最小置信度和支持度的全部规则 X Y Z,支持度(support),s,事务中包含X&Y&Z的概率,置信度(confidence),c,事务中包含X&Y的条件下,包含Z的条件概率,令最小支持度为,50%,最小置信度为50%,则有,A,C (50%,66.6%),C,A (50%,100%),顾客购买尿布,顾客购买两者,顾客购买啤酒,从算法到应用,数据挖掘厂商,挖掘和统计分析平台,SAS EM,SPSS Clementine,S+Miner,Statistic Data Miner,与数据库集成挖掘平台,IBM IM,Oracle,NCR Teradata Miner,SQL 2005 DM,行业运用及解决方案,Unica,KXEN,HNC,Agenda,数据挖掘是什么?,1,模型,+,算法,2,数据挖掘实践共享,3,心得与总结,4,看看,QQ,的流失数据,流失率,2007,年,3,月,2007,年,4,月,2007,年,5,月,2007,年,6,月,当月活跃总帐户数,253,668,411,255,749,736,264,006,894,269,060,000,当月流失老帐户数,6,572,087,6,006,582,5,466,807,8,217,569,当月老帐户流失率,2.59%,2.35%,2.07%,3.05%,每个月5001000万的老用户流失,一年老用户流失接近1亿,实际自然人流失状况虽然没有这么严峻,但是仍旧是一个惊人的数据。,客户流失是每个行业每天都在面对的问题,1、建立流失预料模型,回答客户是否要流失,何时流失的问题,2、通过预料模型建立客户流失管理机制,更为有效地管理流失,而不是去防止流失,一切从目标动身,目标变量:即须要依据业务需求确定模型须要预料的对象,在QQ客户流失模型中即是在业务上对“流失”的定义。,缄默客户数在4月后区域稳定,模型选择连续缄默2个月作为流失的定义,目标变量的定义:,Good,:,在表现窗口连续两个月有登陆的客户,Bad:,在表现窗口连续两个月都没有登陆的客户,Intermediate:,在表现窗口其中一个月有登陆的客户,打开观测用户的窗口,训练样本 测试样本,视察窗口:2007年1月2007年3月,表现窗口:2007年5月2007年6月,Time Lag:2007年4月,交叉校验样本,视察窗口:2007年2月2007年4月,表现窗口:2007年6月2007年7月,Time Lag:2007年5月,视察窗口,表现窗口,Time Lag,M,M-1,M-2,M-3,M-4,M-5,M+1,M+2,M+3,1,视察窗口:形成自变量的时间段。,表现窗口,:形成因变量的时间段。,2,3,Time Lag,:预留给业务部门进行相应操作的时间段。,1,2,3,变更幅度特征变量 描述用户运用量上的变更幅度,勾画出用户行为的特征,基本属性变量 描述用户的基本属性,产品运用行为特征 描述用户运用产品的状况,消息业务运用行为特征 描述用户运用消息业务的状况,音频业务运用行为特征 描述用户运用音频业务的状况,视频业务运用行为特征 描述用户运用视频业务的状况,客户在线的行为特征 从在线时长,登陆次数,登陆频率等角度探讨用户的运用行为,归属地变更的行为特征 描述用户在某一时间周期内登陆所在地的变更状况,中间变量,比例特征变量 描述用户业务运用占比,基础变量,变量描述,行为趋势特征变量 描述用户的运用行为变更趋势,变量描述,黄沙吹尽始到金,基础变量和中间变量数目约为,224,个,经过变量变换后的变量数目约为,1700,个,变量筛选,运用Logistic回来的Stepwise方法进行下一步拟合,卡方统计量,Chi Square,信息价值,Information Value,信息增益,Gain Index,单变量回来,偏相关分析,Partial Correlation,Lift,曲线,十分位,样本数量,Lift,0,226,729,5.17,1,226,729,2.27,2,226,728,1.03,3,226,730,0.55,4,226,729,0.35,5,226,729,0.25,6,226,730,0.15,7,226,729,0.11,8,226,729,0.07,9,226,730,0.05,Total,2,267,293,1,ROC,曲线,50%,75%,建立闭环的业务流程,流失客户分析,数据挖掘,数据分析,数据采集,/ETL,现有流程评估,计划和设计挽留行动,执行挽留行动,评估挽留结果,调整应用流程,Agenda,数据挖掘是什么?,1,模型,+,算法,2,数据挖掘实践共享,3,心得与总结,4,几点心得,实施数据挖掘是一个战略性举措,Business First,Technique Second,数据挖掘不是万能的,没有它也不是万万不能,数据挖掘是一个循环探索的过程,参考文献,网络资源,dwway,dmreview,datawarehouse,kdnuggets,Tecent Research,Question&Answer?,联系我们,RTX:,simonjiang,TEL:,7999,RTX:,florayi,TEL:,8889,RTX:,jeavinqiu,TEL:
展开阅读全文