腾讯大讲堂59-数据蕴含商机挖掘决胜千里.ppt

上传人:max****ui 文档编号:8603012 上传时间:2020-03-30 格式:PPT 页数:39 大小:2.32MB
返回 下载 相关 举报
腾讯大讲堂59-数据蕴含商机挖掘决胜千里.ppt_第1页
第1页 / 共39页
腾讯大讲堂59-数据蕴含商机挖掘决胜千里.ppt_第2页
第2页 / 共39页
腾讯大讲堂59-数据蕴含商机挖掘决胜千里.ppt_第3页
第3页 / 共39页
点击查看更多>>
资源描述
腾讯大讲堂 第五十九期 研发管理部 大讲堂主页 数据蕴含商机 挖掘决胜千里 腾讯研究院数据分析研究室SimonJiang 江宇闻2009 02 24 Agenda 数据挖掘是什么 1 模型 算法 2 数据挖掘实践分享 3 心得与总结 4 从运筹帷幄到决胜千里 舌战群儒 草船借箭 巧借东风 火烧赤壁 赤壁怀古苏轼 羽扇纶巾谈笑间樯橹灰飞烟灭 观日月之行 察天地之变 风 雷 电 雨 云 云多会下雨刮风会下雨下雨会闪电闪电会打雷 数据爆炸的时代 DataMining circa1963 IBM7090 600cases Machinestoragelimitationsrestrictedthetotalnumberofvariableswhichcouldbeconsideredatonetimeto25 数据挖掘是 Data Information Knowledge Wisdom Tofind discover extract dredge harvest Interesting novel useful implicit actable meaningful Information knowledge patterns trends rules anomalies Inmassivedata largedataset largedatabase datawarehouse Data context Information rules Knowledge experience 多学科的融合 Databases Statistics PatternRecognition KDD MachineLearning AI Neurocomputing DataMining Agenda 数据挖掘是什么 1 模型 算法 2 数据挖掘实践分享 3 心得与总结 4 几个基本概念 模型 Model vs模式 Pattern 数据挖掘的根本目的就是把样本数据中隐含的结构泛化 Generalize 到总体 Population 上去模型 对数据集的一种全局性的整体特征的描述或概括 适用于数据空间中的所有点 例如聚类分析模式 对数据集的一种局部性的有限特征的描述或概括 适用于数据空间的一个子集 例如关联分析算法 Algorithm 一个定义完备 well defined 的过程 它以数据作为输入并产生模型或模式形式的输出描述型挖掘 Descriptive vs预测型挖掘 Predictive 描述型挖掘 对数据进行概括 以方便的形式呈现数据的重要特征预测型挖掘 根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的 也可以是手段 数据挖掘是一个过程 fromdataminingtoknowledgediscoveryindatabase U fayyad G P ShapiroandP Smyth 1996 数据挖掘方法论 CRISP DM CrossIndustryStandardProcessforDM 1998年 由NCR Clementine OHRA和Daimler Benz的联合项目组提出SEMMASAS公司提出的方法Sample Explore Modify Model Assess在战略上使用Crisp DM方法论 在战术上应用SEMMA方法论 工欲善其事必先利其器 数据清洗填充缺失值 修均噪声数据 识别或删除孤立点 并解决数据不一致问题主要分析方法 分箱 Binning 聚类 回归数据集成多个数据库 数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时 还可以得到相同或相近的分析结果主要分析方法 抽样 主成分分析数据离散化数据简化的一部分 但非常重要 尤其对于数值型数据来说 先来玩玩数据 EDA 探索性数据分析 ExploratoryDataAnalysis EDA 探索性地查看数据 概括数据集的结构和关系对数据集没有各种严格假定主要任务数据可视化 apictureisworthathousandwords 残差分析 数据 拟合 残差 数据的重新表达 什么样的尺度 对数抑或平方根 会简化分析 方法的耐抗性 对数据局部不良的不敏感性 如中位数耐抗甚于均值 常见方法统计量 如均值 方差 根方差 协方差 峰度 偏度 相关系数等统计图 如饼图 直方图 散点图 箱尾图等模型 如聚类 数据挖掘 模型 算法 分类预测 关联规则 孤立点探测 聚类 LogisticRegression决策树神经网络 K MeansK ModeSOM 自组织图 AprioriFP Growth 基于统计基于距离基于偏差 你使用过信用卡吗 卡应该发给谁 哪些持卡人会拖欠 哪些拖欠的客户会还款 影响 资产组合 Portfolio 1 根据历史 预测将来2 目标是一个分类变量3 预测结果是一个统计意义下的概率 1 哪些人可以发卡 额度是多少 2 持卡人拖欠的概率是多少3 该对谁催收 分类过程 训练集 分类学习 训练集 IFrank professor ORyears 6THENtenured yes JefisYES 分类器 物以类聚 人以群分 人为地选取细分维度 客户价值地域活跃程度 维度灾难的发生 维度增长细分数目指数增长人脑仅能处理有限的维度 市场 聚类示意 基于欧氏距离的三维空间中的聚类基于质心的聚类算法 K Means A1 A2 B1 x y z 发现商品间的关联规则 buy x diapers buy x beers 关联规则的量度 支持度 Support A B AB N 表示A和B同时出现的概率期望可信度 Support A A N 表示A出现的概率置信度 Confidence A B Support A B Support B 改善度 Lift A B Confidence A B Support B 关联规则的度量 发现具有最小置信度和支持度的全部规则X Y Z支持度 support s 事务中包含 X Y Z 的概率置信度 confidence c 事务中包含 X Y 的条件下 包含Z的条件概率 令最小支持度为50 最小置信度为50 则有A C 50 66 6 C A 50 100 顾客购买尿布 顾客购买两者 顾客购买啤酒 从算法到应用 数据挖掘厂商 Agenda 数据挖掘是什么 1 模型 算法 2 数据挖掘实践分享 3 心得与总结 4 看看QQ的流失数据 每个月500 1000万的老用户流失 一年老用户流失接近1亿 实际自然人流失状况虽然没有这么严重 但是仍然是一个惊人的数据 客户流失是每个行业每天都在面对的问题 1 建立流失预测模型 回答客户是否要流失 何时流失的问题2 通过预测模型建立客户流失管理机制 更为有效地管理流失 而不是去防止流失 一切从目标出发 目标变量 即需要根据业务需求确定模型需要预测的对象 在QQ客户流失模型中即是在业务上对 流失 的定义 沉默客户数在4月后区域稳定 模型选择连续沉默2个月作为流失的定义 目标变量的定义 Good 在表现窗口连续两个月有登陆的客户Bad 在表现窗口连续两个月都没有登陆的客户Intermediate 在表现窗口其中一个月有登陆的客户 打开观测用户的窗口 训练样本 测试样本观察窗口 2007年1月 2007年3月表现窗口 2007年5月 2007年6月TimeLag 2007年4月交叉校验样本观察窗口 2007年2月 2007年4月表现窗口 2007年6月 2007年7月TimeLag 2007年5月 观察窗口 表现窗口 TimeLag M M 1 M 2 M 3 M 4 M 5 M 1 M 2 M 3 1 观察窗口 形成自变量的时间段 表现窗口 形成因变量的时间段 2 3 TimeLag 预留给业务部门进行相应操作的时间段 1 2 3 变化幅度特征变量描述用户使用量上的变化幅度 勾勒出用户行为的特征 基本属性变量描述用户的基本属性 产品使用行为特征描述用户使用产品的情况 消息业务使用行为特征描述用户使用消息业务的情况 音频业务使用行为特征描述用户使用音频业务的情况 视频业务使用行为特征描述用户使用视频业务的情况 客户在线的行为特征从在线时长 登陆次数 登陆频率等角度研究用户的使用行为 归属地变化的行为特征描述用户在某一时间周期内登陆所在地的变化情况 中间变量 比例特征变量描述用户业务使用占比 基础变量 变量描述 行为趋势特征变量描述用户的使用行为变化趋势 变量描述 黄沙吹尽始到金 基础变量和中间变量数目约为224个经过变量变换后的变量数目约为1700个 变量筛选 使用Logistic回归的Stepwise方法进行下一步拟合 卡方统计量ChiSquare 信息价值InformationValue 信息增益GainIndex 单变量回归 偏相关分析PartialCorrelation Lift曲线 ROC曲线 50 75 建立闭环的业务流程 Agenda 数据挖掘是什么 1 模型 算法 2 数据挖掘实践分享 3 心得与总结 4 几点心得 参考文献 网络资源 TecentResearch Question Answer 联系我们 RTX simonjiangTEL 7999RTX florayiTEL 8889RTX jeavinqiuTEL 5909RTX neilliaoTEL 4232 Thankyou
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!