资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2017-09-07,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2017-09-07,#,大数据与机器学习,海量,数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。,Google,首席经济学家,Hal Varian,大,数据分析主要依靠机器学习和大规模计算,,机器,学习已成为大数据的基石,。,机器,学习,(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,。,简而言之,机器,学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。,机器学习的常见用途,统计分析与数据挖掘,技术上的定义,应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些,信息和知识,是,隐含的、未知的、潜在有用的,表示,为概念、规则、规律和模式等形式,商业角度的定义,新型的商业分析处理技术,,,帮助决策者寻找数据间潜在的关联,发现被忽略的因素,这些信息和因素对预测趋势和决策行为是至关重要的,与传统分析方法的区别,在没有明确假设的前提下去挖掘信息、发现知识,所获信息具有,先,前,未知,有效和可实用三个特征,什么是数据挖掘?,数据分析与数据挖掘的区别,数据分析,数据挖掘,数据量,数据量一般不大,数据量通常很大,约束,从一个既定假设(目标)出发,可以不需要既定的假设(目标),对象,针对数字化的数据,可以针对数字化的数据,还可以针对声音,文本,图像等,结果,对结果进行解释,呈现有效的信息,结果有时不容易解释,着眼于预测未来,提出决策建议,数据分析,只是在已定的,假设、先验,约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些,信息如果需要,进一步的获得认知,转化为有效的预测和决策,这时就需要,数据挖掘,数据分析,是把数据变成信息的工具,,数据挖掘,是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。,大数据分析与挖掘的常见用途,1,、自动预测趋势和行为,数据,挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论,。,谷歌预测冬季流感的传播,初步锁定与流感相关的关键词条,谷歌数据库,用户搜索记录,美国疾控中心记录的流感事件发生的区域和时间,预测模型,预测结果,谷歌准确的预测出,2009,年甲型,H1N1,流感的爆发,并明确指出爆发地所在的州以及时间。与滞后的官方数据相比,谷歌成为一个更有效及时的指示者。,优化词条筛选,大数据分析与挖掘的常见用途,2,、关联分析,数据,关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。,购物篮分析,顾客,一次购买商品,1,面包、黄油、,啤酒、尿布,、牛奶,2,咖啡、糖、小甜饼、鲑鱼,3,面包、黄油、咖啡、,尿布,、牛奶、鸡蛋、,啤酒,4,面包、黄油、鲑鱼、鸡,5,鸡蛋、面包、黄油,6,啤酒,、鲑鱼、,尿布,、牛奶,7,番茄、啤酒、虾、苹果,8,土豆、面包、牛奶、生菜,9,啤酒,、面包、,尿布,、咖啡,10,茶叶、鸡蛋、盐、啤酒,经过关联分析,发现顾客经常同时购买的产品中,,啤酒与尿布,同时出现的频率最高,大数据分析与挖掘的常见用途,3,、聚类,数据库,中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件,。,经过对电信行业用户的特征进行聚类,可以完成客户的画像,可以基于多个维度完成画像,也可以基于关联分析的基础上进行降维处理后再开展画像。,年龄,收入,话费支出,群体,A,:年龄,50,岁以上,年收入,2,0K,以下,月话费支出,50,元以下,群体,B,:年龄,3050,岁,年收入,8,0K,以上,月话费支出,200,元以上,群体,C,:年龄,2030,岁,年收入,50K,月话费支出,100,元,大数据分析与挖掘的常见用途,4,、概念描述,概念,描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,序号,按时还款,婚姻状态,应纳税收入,诈骗嫌疑,1,是,单身,125K,否,2,否,已婚,100K,否,3,否,单身,70K,否,4,是,已婚,120K,否,5,否,离异,95K,是,6,否,已婚,60K,否,7,是,离异,220K,否,8,否,单身,85K,是,9,否,已婚,75K,否,10,否,单身,90K,是,按时还款,否,婚姻状态,是,否,应纳税收入,否,单身,.,离异,已婚,否,是,80K,决策树,大数据分析与挖掘的常见用途,4,、概念描述,概念,描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,大数据分析与挖掘的常见用途,5,、偏差检测,数据库,中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,一个人的年龄为,-999,可能是程序处理缺省数据的方式导致的,一,个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的,一,部住宅电话的话费由每月,200,元以内增加到数千元可能因为盗打或其他原因所致,一,张信用卡突然出现明显的高额消费也许是因为盗用的信用卡,1,、异常数据与众不同,往往具有相对性,如高与矮、疯子与常人,2,、常用的检测方法,异常挖掘、离群挖掘、例外挖掘、,稀有事件挖掘,大数据分析与挖掘项目的特点,1.1,大数据分析与挖掘经常是从技术角度切入:未知的探索,1.2,比传统项目多了很多尝试成本:,1.3,算法与模型的适用性与时间、地域以及其他外部条件影响,1.4,经常要在目标要求与算法的复杂性、性能之间做出取舍,数据挖掘工作常见误区,只依赖一项技术,/,算法,MCLP,多目标线性规划算法,KNN,K,近邻算法,数据挖掘工作常见误区,同样,研究对象应用一种模型,算法模型的选择,需要考虑模型对数据的适用性,只有结合数据的内在特征、模型的假设条件,才能建立合适的模型,也只有针对具体数据集,才能谈模型的好坏。因此数据本身的差异,决定了算法模型选择的差异,。,即使研究目的相同,研究对象相似,由于影响数据生成过程的因素差异性较大,数据的具体表现形态也有较大差异,算法也会有截然不同。,随着时间的推移,数据的形态发生改变,,因此,有可能,需要,重新选择合适的,模型,,或者,,,对原有,相同模型,进行参数调整,。,数据挖掘工作常见误区,缺乏数据,对于分类问题或预估问题来说,常常缺乏准确标注的案例,。,例如:,欺诈侦测(,Fraud Detection,):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。,信用评分(,Credit Scoring,):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。,数据挖掘工作常见误区,同样,研究对象应用一种模型,负荷较稳定,专业技术支持,负荷总量逐步提高至稳定,周期性强,节假日特性强,日夜负荷差大,有学校的台变,成熟小区台变,商铺较多的台变,新建小区台变,大数据分析与挖掘项目的开展,大,数据分析与挖掘的标准流程,数据挖掘方法论,业务理解(,Business Understanding,),数据理解(,Data Understanding,),建模(,Modeling,),数据准备(,Data Preparation,),评估(,Evaluation,),部署(,Deployment,),跨行业数据挖掘标准,流程(,CRISP-DM,),业务理解,数据理解,数据准备,评估,部署,需求分析:从,业务的角度理解项目的目的、范围、业务定义,。,问题识别:识别需求中待所需业务问题的内涵,。,问题定义:对业务问题进行定义,确定问题概念,范畴。,问题分解:将复杂问题分解为几个相当对简单的子问题,。,问题转化:将业务问题转化为能够被数据挖掘问题。,关键要素:问题转化,工作内容,将业务需求转化为数据挖掘问题。,如:分类、推荐、回归、聚类、关联规则分析、时间序列分析、特征选择、流数据分析等。,建模,数据挖掘方法论,关键要素,:,数据,定义、数据质量分析,工作内容,熟悉,并,数据,理解原始数据的含义及产生条件,,识别数据的质量问题,发现数据的内部属性。,数据定义:识别并理解原始数据中属性数据的含义。,如,:数据库中表的结构,数据表之间的关系,数据表每一列的含义、格式、约束条件等等。,数据质量分析:对数据的质量进行分析。,基本,统计量:缺失值数量、均值、方差、中值、频数、分位数、,T,检验、,Z,检验等等。,可视化,:点图、箱型图、柱状图等。,异常值,:聚类、异常值检测,业务理解,数据理解,数据准备,评估,部署,建模,数据挖掘方法论,关键要素,:,数据选择、数据整合、数据衍生、数据转换、数据清洗,工作内容,从,原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。,数据选择:在原始数据的基础上进行筛选,根据问题定义进行数据选择。,如:使用全部数据、,n fold,分块方式、按比例方式、,Bootstrap,等。,数据衍生:从原始数据属性的基础上派生出新的数据属性。,基本派生:均值、中值、频数、最小(大)值、线形变换等。,根据业务的派生:净资产、净资产收益率、折现率等。,数据转换:对原始数据进行变换,以满足数据挖掘模型需要。,离散化化处理:非数据型数据转数值型,如性别、职业、区域等。,数据平滑处理:非平滑数据转化成平滑数据,如时序数据中股票价格、成交量等。,可视化,:点图、箱型图、柱状图等。,异常值,:聚类、异常值检测,业务理解,数据准备,数据理解,评估,部署,建模,数据挖掘方法论,关键要素,:,数据选择、数据整合、数据衍生、数据转换、数据清洗,工作内容,从,原始数据中构造最终数据集的所有活动。这些数据将是建模的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。,数据,清洗:对数据中的异常情况进行清理,提升数据质量。,缺失,值,处理:均值,、按类别取均值、聚类均值、,Bayes Rule,、近邻学习,异常值处理:装箱,、聚类、回归、人工处理,一致性处理:基于,规则、,人工,数据整合:将多个数据源中的数据有机整合到一起。,如,:关系数据,SQL,查询、按,ID,整合、,Tag,信息整合、异构数据整合,。,数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的,完整性,数据归约可以解决海量数据上造成的效率与性能问题。,如:数据方聚集、维归约、数据压缩、离散化和概念分层产生。,业务理解,数据准备,数据理解,评估,部署,建模,数据挖掘方法论,关键要素,:,模型选择、模型训练、模型最优参数选择、模型
展开阅读全文