《数据分析技术》PPT课件.ppt

资源描述

数据分析技术战略信息企业目标在5年内增加15 的客户在3年内抢占15 的市场在2年内投放3种新产品提高前5 的产品质量在东北市场提高15 的销售额所需信息全面深入地了解公司运营了解关键因素及其相互作用检测这些因素如何随时间变化将公司运营状况和对手以及行业标准做比较战略信息系统 SIS StrategicInformationSystems能够支援和改变组织战略行为使得组织具有竞争力的信息系统决策支持系统正确决策企业的竞争优势错错错在错误的时间错误的地点同错误的对手打了一场错误的战争噬脐何及合九州六十四县铁不能铸成此大错也苍天如圆盖大地如棋局世间分楚汉荣辱争天下博弈博弈博弈博弈纳什均衡一个博弈可能有多个纳什均衡每个参与者把其他参与人的策略当作是给定的允许了不可置信的威胁的存在博弈博弈博弈博弈阿里巴巴芝麻开门哪些客户对我们最有利如何拓展与他们的联系哪些客户给我们提供利润哪些客户使我们遭受损失根据他们经常光顾的商店最好的客户居住在哪里哪些产品和服务能被最有效的进行交叉销售销售对象是谁哪些市场营销案例是最成功的为什么哪些销售渠道对于哪些产品是最有效的如何才能改善我们用户的总体经历 Wearedrowningindatabutstarvedofinformation 商务智能商务智能的需求有巨量的商业数据日常数据订单存货帐单外部数据客户信息对手信息政策每2到3年商业数据变会翻番有93 的数据没有在决策过程中使用到商务智能的目的使人能更快捷更容易地做出更好的商业决策终极目标3w win win win 商务智能 BusinessIntelligenceisaprocessofturningdataintoknowledgeandknowledgeintoactionforbusinessgain BusinessIntelligenceistheprocessoftransformingdataintoinformation andthroughiterativediscoverytransforminginformationintoknowledge elevate 从数据到知识垂拱而治 CEO 统计一下购买我们的产品及竞争对手产品的用户信息计算机垂拱而治 CEO 怎样会使得用户购买我们的产品计算机刺激销售如中奖销售打折优惠会吸引他们购物CEO 促销的成本是多少促销的最佳时机是什么时候它会吸引多少新用户计算机三拍而治管理活动的层次结构管理活动各层次中信息的特征不同层次的信息处理需求事务处理需求不同的事务处理子系统采购子系统订单订单细则供应商销售子系统顾客销售库存子系统出库领料单进料入库单库存台帐人事子系统员工部门各种事务处理需求一笔订购一笔销售一次进料一次出料要求强调多用户并发环境数据的一致性完整性不同层次的信息处理需求分析处理需求今年销售量下降的因素时间地区商品销售部门某种商品今年的销售情况与以往相比有怎样的变化每年的第一季度商品销售在各类商品上的分布情况怎样要求多个子系统中的数据数据集成历史数据汇总综合的数据 DSS早期演化阶段 1960 1965 1970 1975 1980 主文件报表太多主文件数据库所有处理的单一数据源联机高性能事务处理单一数据库既用于事务处理又用于DSS DSS早期演化阶段抽取程序搜索整个文件和数据库使用某些标准选取合乎限制的数据并把数据传到其他文件或数据库中优点将数据从事务处理应用中转移出来在进行数据分析时不会与事务处理发生冲突当将数据从事务处理应用中抽取出来之后数据的控制方式发生了转变最终用户可以拥有抽取出来的数据抽取程序 DSS早期演化阶段蜘蛛网数据缺乏可信性生产率低从数据库到数据仓库事务处理与分析处理的性能特性不同事务处理环境数据存取操作频率高每次操作处理的时间短占用系统资源少系统可以允许多个用户按分时方式使用资源保持较短的响应时间分析处理环境运行时间长消耗大量系统资源事务与分析应用不宜放在同一中环境中从数据库到数据仓库数据集成问题事务处理目的是使业务自动化只关注与本部门业务相关的当前数据事务处理应用的分散企业内部各事务处理应用间相互独立DSS需要集成的数据内部各部门数据外部数据竞争对手数据 DSS需要对分散在各个事务处理应用中的相关数据进行集成以向分析人员提供统一的数据视图数据仓库的定义数据仓库是一个面向主题的 SubjectOriented 集成的 Integrated 相对稳定的 Nonvolatile 反映历史变化的 timeVariant 数据集合用于支持管理决策数据粒度粒度数据综合程度高低的一个度量粒度越小越细节综合程度越低回答查询种类越多数据量大性能低数据粒度细节级一个月内客户的每个电话记录每月200个记录 40000个字节综合级一个月内客户电话汇总电话次数平均通话时间长途电话次数每月1个记录 200个字节能回答不能回答上周张三给他在上海的女朋友打电话了吗能回答能回答性能低上月人们从华盛顿打出的长途电话平均次数数据分割分割将数据分散到各自的物理单元中去以便能分别独立处理灵活地访问数据提高效率实际需要分析往往对某种相关性的数据集合进行某一时段的数据某一地区的数据某特定业务领域的数据某一时段某特定业务领域的数据日期往往是自然而均匀的分割数据分割健康保险人寿保险意外伤亡保险1988分片1分片2分片31989分片4分片5分片61990分片7分片8分片9 数据仓库的体系结构信息集成信息集成的定义informationintegration把存储在两个或多个信息源中的数据提取出来建立一个包含所有这些信息源的信息的大数据库该数据库可以是虚拟的信息集成的方式联邦数据库 federaldatabase 数据仓库 datawarehouse 协调器 mediator 信息集成中的问题汽车公司有1000位代理商想创建一个集成数据库各个代理商使用不同的数据库模式代理商1 Cars serialNo model color autotrans cdPlayer 代理商2 Autos serial model color Options serial option 问题数据类型不同取值不同语义不同数据丢失联邦数据库 DB1 DB2 DB3 DB4 问题编写n n 1 个组件来相互翻译查询联邦数据库代理商1询问代理商2是否有自己所需要的汽车 for eachtuple m c a inNeededCars if a true selectserialfromAutos OptionswhereAutos serial Options serialandAutos model mandAutos color celseselectserialfromAutoswhereAutos model mandAutos color cnotexists select fromOptionswhereserial Autos serialandoption autoTrans NeededCars model color autoTrans 数据仓库查询结果数据仓库是个实视图数据仓库 insertintoAutosWhse serialNo model color autotrans dealer selectserialNo model color autotrans dealer1 fromCars 导入代理商1 代理商1 Cars serialNo model color autotrans cdPlayer 代理商2 Autos serial model color Options serial option 数据仓库 AutosWhse serialNo model color autotrans dealer dealer指拥有该车的代理商数据仓库 insertintoAutosWhse serialNo model color autotrans dealer selectserialNo model color yes dealer2 fromAutos OptionswhereAutos serial Options serialandoption autoTrans insertintoAutosWhse serialNo model color autotrans dealer selectserialNo model color no dealer2 fromAutoswherenotexists select fromOptionswhereAutos serial Options serialandoption autoTrans 导入代理商2 协调器协调器是个虚视图协调器协调器 AutosMed serialNo model color autotrans dealer 询问协调器关于红色汽车的信息selectserialNo modelfromautosMedwherecolor red 代理商1的包装器selectserialNo modelfromCarswherecolor red 代理商2的包装器selectserialNo modelfromAutoswherecolor red 协调器询问协调器是否存在Gobi型号的蓝色汽车询问代理商1是否存在Gobi型号的蓝色汽车询问代理商2是否存在Gobi型号的蓝色汽车返回是否包装器包装器从协调器接受各种查询然后将查询翻译成数据源的术语并将结果传送给协调器如何设计包装器将协调器可能使用的查询进行分类成为模板模板是带有代表常数的参数的查询协调器提供常数包装器执行给定好常数的查询用T S表示包装器将查询模板T变成对数据源的查询S 包装器生成器类似YACC 将翻译好之后的查询模板和对应的源查询存储到表中接受来自协调器的查询在表中查找与查询匹配的模板找到则传递查询中参数实例化模板没找到拒绝协调器源查询发送到数据源将数据源的答复返回给协调器包装器模板协调器 AutosMed serialNo model color autotrans dealer 代理商1 Cars serialNo model color autotrans cdPlayer select fromAutosMedwherecolor c selectserialNo model color autotrans dealer1 fromCarswherecolor c 查询给定颜色的汽车模板1 包装器模板 select fromAutosMedwherecolor c andmodel m selectserialNo model color autotrans dealer1 fromCarswherecolor c andmodel m 查询给定颜色和型号的汽车模板2 过滤器为避免太多的查询模板只给包装器指定少量模板它返回查询所需结果的超集然后再由包装器过滤向数据源所提供的结果询问协调器关于红色 BMW 汽车的信息selectserialNo modelfromautosMedwherecolor red andmodel BMW 执行模板1 令 c red 将结果保存在临时表TempAutos中实际中可以是流水方式执行查询select fromTempAutoswheremodel Gobi 问题如何确定一个协调器查询是某个包装器模板查询结果的子集过滤器查询代理商和型号代理商有两辆同型号的红色汽车一辆是自动的另一辆不是针对协调器的查询selectA1 model A1 dealerfromautosMedA1 autosMedA2whereA1 model A2 modelandA1 color red andA2 color red andA1 autoTrans no andA2 autoTrans yes 过滤器执行模板1 令 c red 将结果保存在临时表RedAutos中接着执行 selectA1 model A1 dealerfromRedAutosA1 RedAutosA2whereA1 model A2 modelandA1 autoTrans no andA2 autoTrans yes 数据分析流程 SpreadSheet Table Extracting Visualizing 计算Vs可视化关系系统计算数据立方体可视化系统显示数据立方体一些分析需求用户想使用直方图用户想在不同粒度上运用聚集函数rollup drilldown用户想使用交叉表 F G H RedBrick的扩展 N tile将所有元组按值大小分为n个连续区间每个区间的元组个数相同返回每个区间的平均值selectpercentile avg salary fromEMPgroupbyN tile salary 10 aspercentileRatio To Total计算每个分组的和在总和中的比例Rank返回值在所有列值中的序号 TOP select topn percent withties select list selecttop5title id price typefromtitlesselecttop5title id price typefromtitlesorderbypricedescselecttop5WITHTIEStitle id price typefromtitlesorderbypricedescselecttop30PERCENTtitle id price typefromtitlesorderbypricedesc 我要的不多只需要n个直方图 select1 avg fromEMPwheresalary selectmax salary fromEMP 2 3union select2 avg fromEMPwheresalary selectmax salary fromEMP 3union select3 avg fromEMPwheresalary selectmax salary fromEMP 3 rank selectT1 S GRADE selectcount distinctT2 GRADE fromSCAST2whereT1 GRADE T2 GRADE asrankfromSCasT1whereGRADEisnotnullorderbyrank 中位数 declare tempINT medianINTset temp selectcount fromsc 2declaremy curscursorforselectGRADEfromSCorderbyGRADEopenmy curswhile temp 0 beginfetchmy curs temp temp 1endfetchmy cursinto median 给出成绩排在最中间的学生的成绩落差 createviewrankgrade GRADE graderank asselectGRADE selectcount distinctGRADE fromSCasT1whereT1 GRADE T2 GRADE asrankfromSCAST2selectG1 V1 GRADE G2 V2 GRADE DIFF V2 GRADE V1 GRADE fromrankgradeasV1leftouterjoinrankgradeasV2on V2 graderank V1 graderank 1 给出所有相邻两个成绩之间的差 Skyline 问题的引入找一个便宜并且离海滩近的旅馆系统无法决定哪些是最好的但它会提供所有的备选 interesting 旅馆也即它们不会在两个维上都比其他任何旅馆差称其为Skyline Skyline 问题的引入称点x统治 dominate 点y 如果x在所有维上都不比y差并且至少在一个维上好过y旅馆 price 50 distance 0 8 统治 price 100 distance 1 0 Skyline 更高更靠近河流的建筑东食西宿更英俊更有钱 Skyline的性质一个集合M 一个单调计分函数R 如果p M使得R最大那么p一定在M的Skyline中不管你如何偏好旅馆的价格和距离你最中意的旅馆总是在Skyline中对Skyline中的任意一点p 总存在一个单调计分函数 p使得它最大也即Skyline不会包含不是任何人偏好的旅馆统治满足传递性也即如果p统治q q统治r 则p统治r 带Skyline的SQL扩展 SELECT FROM WHEREGROUPBY HAVING SKYLINEOF DISTINCT d1 MIN MAX DIFF dn MIN MAX DIFF TOP ORDERBY SKYLINEOFd1MIN d2MAX d3DIFFp p1 p2 p3 统治q q1 q2 q3 如果p1 q1 p2 q2 p3 q3 带Skyline的SQL示例用嵌套子查询实现Skyline Skyline的大小联机分析处理 OLAP 存在着大量的分析型应用要求对大量的数据从各个角度进行综合分析多维分析典型分析应用对一些统计指标销售金额从不同角度维时间地区商品类型从不同级别层次地区县地市省大区今年销售量下降的因素时间地区商品销售部门某种商品今年的销售情况与以往相比有怎样的变化每年的第一季度商品销售在各类商品上的分布情况怎样多维数据模型关系表与多维Cube 多维数据模型的基本组成维度量多维数据模型变量指标数据的实际意义一般是一个数值度量指标例如销售量销售额而具体数据如 10000 是变量的一个值维观察数据的特定角度例如时间地区维的层次特定角度的不同细节程度例如时间维日周月季年地理维城市地区国家多维分析的基本分析动作切片 Slice 从多维数组选定一个二维子集切出一个平面切块 Dice 从多维数组选定一个三维子集切出一个立方体旋转改变一个报告或页面显示的维方向关系的交叉表表示关系表关系的交叉表表示交叉表用SQL生成交叉表 SELECTModel Year Color SUM Sales FROMSalesWHEREModel Chevy GROUPBYModel Year ColorUNIONSELECTModel Year ALL SUM Sales FROMSalesWHEREModel Chevy GROUPBYModel YearUNIONSELECTModel ALL ALL SUM Sales FROMSalesWHEREModel Chevy GROUPBYModel cube CUBE cube selectModel Year Color sum Sales fromSalesgroupbyModel Year Colorwithcube 总行数 model个数 1 theyear个数 1 color个数 1 2 1 3 1 3 1 48 CUBE SELECTSUM units sold model theyear colorFROMmy cubeGROUPBYmodel theyear colorWITHCUBE SELECT UnitsSold SUM units sold model ALLModels GROUPING model year ALLYears GROUPING theyear color ALLColors GROUPING color FROMmy cubeGROUPBYmodel theyear colorWITHCUBE GROUPING是一个聚合函数它产生一个附加的列当用CUBE或ROLLUP运算符添加行时附加的列输出值为1 当所添加的行不是由CUBE或ROLLUP产生时附加列值为0 CUBE CREATEVIEWauto cube units model theyear color ASSELECTSUM units sold CASEWHEN GROUPING model 1 THEN ALL ELSEISNULL model END CASEWHEN GROUPING theyear 1 THEN ALL ELSEISNULL theyear END CASEWHEN GROUPING color 1 THEN ALL ELSEISNULL color ENDFROMmy cubeGROUPBYmodel theyear colorWITHCUBE ROLLUP SELECT unit sold SUM units sold model CASEWHEN GROUPING model 1 THEN ALL ELSEISNULL model END theyear CASEWHEN GROUPING theyear 1 THEN ALL ELSEISNULL theyear END color CASEWHEN GROUPING color 1 THEN ALL ELSEISNULL color ENDFROMmy cubeGROUPBYmodel theyear colorWITHROLLUP OLAPServer的分类数据存储方式 RelationalOLAP ROLAP 利用关系数据库来存储和管理基本数据和聚合数据并利用一些中间件来支持缺失数据的处理具有良好的可扩展性MultidimensionalOLAP MOLAP 利用多维数据库来存放和管理基本数据和聚合数据其中需要对稀疏矩阵处理技术对预综合的数据进行快速索引HybridOLAP HOLAP 利用关系数据库来存储和管理基本数据利用多维数据库来存储和管理聚合数据多维数据库存储由许多经压缩的类似于数组的对象构成每个对象由聚集成组的单元块组成每个单元块按类似于多维数组的结构存储通过直接偏移计算进行存取每个对象带有压缩的索引和指针结构分析时常需维间的组合需旋转数据立方体及切片高效的稀疏数据处理能力略过缺失和重复数据许多维间的组合没有值 6月份冰鞋销售量许多值重复存储今年酱油的价格用关系结构表示多维数据关系数据库使用广泛相当成熟用两类表来表示多维结构事实表维表事实 fact 表用来存储变量值和各维的码值维表用来存储维的描述信息元数据包括层次和类等事实表描述了主题的数据维表是从不同的角度描述了对主题的分析尺度维表就象星星的角一样分布在事实表的外围描述了业务的各个维星型模式 StarSchema 雪片模式 SnowFlakeSchema 雪片模式一个广为流传的数据挖掘例子美国加州某个超市连锁店通过数据挖掘从记录着每天销售和顾客基本情况的数据库中发现在下班后前来购买婴儿尿布的顾客多数是男性他们往往也同时购买啤酒于是这个连锁店的经理当机立断地重新布置了货架把啤酒类商品布置在婴儿尿布货架附近并在二者之间放上土豆片之类的佐酒小食品同时把男士们需要的日常生活用品也就近布置这样一来上述几种商品的销量几乎马上成倍增长知识发现的定义数据库中的知识发现是识别数据中有效的 Valid 新颖的 Novel 潜在有用的 PotentiallyUseful 和最终可被理解 UltimatelyUnderstandable 的模式 Pattern 的非平凡过程 KDD KnowledgeDiscoveryinDatabase 数据挖掘的定义数据挖掘 DataMining 是KDD过程的一个步骤它是在现实可接受的计算效率限制下应用数据分析和知识发现算法在数据的基础上对模式 Pattern 的特定枚举数据挖掘的任务与方法关联分析 Associations 目的和含义目的发现数据库中数据间的相互关联含义给定一组数据项例如商品号和一个交易集合例如交易记录通过分析记录集合推导出数据项间的相关性例如在交易活动中商品间的相关性基本形式给定一组事务集每一个事务中包含若干个数据项挖掘各个数据项之间的关联例如 98 的顾客在购买电动剃须刀的同时会购买一些电池关联规则兴趣度的度量值支持度推导出的数据间的相关性称为规则或模式对规则兴趣度的描述采用支持度置信度概念支持度 Support 在关联分析中表示满足规则的记录数与总记录数的比它表明了规则的模式在数据库中出现的频度对于规则 X Y 则其支持度表示为购买商品Y的交易同时购买商品X和Y的交易购买商品X的交易关联规则兴趣度的度量值置信度置信度 Confidence 在关联分析中表示为满足规则的记录数与出现被分析数据项的记录数之比对于规则 X Y 则其置信度表示为最小支持度和最小置信度用户分析员不关心可信程度太低的规则因而用户需要输入两个参数最小支持度和最小置信度支持度和置信度举例零售商场销售分析数据项为商品记录集合为交易记录集合规则为购买商品X的顾客同时购买商品Y 即X Y 设最小支持度为0 3 最小置信度也为0 3分析结果关联分析的基本步骤术语设I i1 i2 im 是项的集合 itemset 包含k个项的称为k 项集设D是事务的集合其中每个事务T是项的集合 T I设A是一个项集事务T包含A当且仅当A T项集的出现频率 D中包含项集的事务数频繁项集如果项集的出现频率大于或等于最小支持度min sup与D中事务总数的乘积频繁k 项集记作Lk关联规则A B 其中A I B I 并且A B 强规则同时满足最小支持度和最小置信度的规则关联分析的例子 Min support50 Min confidence50 ForruleA C support support A C 50 confidence support A C support A 66 6 ForruleC A support support A C 50 confidence support A C support C 100 关联分析的基本步骤通常关联分析的过程分为以下两步发现频繁项集 frequentitemset 这些项集出现的频率至少和预定义的最小支持度一样由频繁项集来产生强关联规则这些规则必须满足最小支持度和最小置信度 Apriori算法 Apriori性质先验 Apriori 法则一个频繁项集的任何非空子集肯定也是一个频繁项集例如 A B 为高频项集那么其子集 A B 一定都为高频项集反单调一个集合如果不能通过测试则它的任何超集也不能通过测试反复寻找高频项集从1到K阶 Apriori算法如何由Lk 1产生Lk 连接步对K 1阶频繁项集Lk 1做Self Join操作形成K阶频繁项集的候选集Ck具体算法如下 insertintoCkselectp item1 p item2 p itemk 1 q itemk 1fromLk 1p Lk 1qwherep item1 q item1 p itemk 2 q itemk 2 p itemk 1 q itemk 1 Apriori算法剪枝步任何K 1阶非频繁项集则其不可能为K阶频繁项集的子集具体算法如下 forallitemsetscinCkdoforall k 1 subsetssofcdoif sisnotinLk 1 thendeletecfromCk Apriori算法示例3阶高频项目集 L3 abc abd acd ace bcd 连接步Self joining L3 L3abc abd abcdacd ace acde剪枝步acde移出因为ade不包含在L3中4阶候选集 C4 abcd Apriori算法数据库事务数据D 最小支持度min sup 2 Apriori算法扫描D 对每个候选记数比较sup 与min sup C1 L1 Apriori算法由L1产生C2 扫描D 对每个候选记数 C2 C2 Apriori算法比较sup 与min sup L2 由L2产生C3 C3 Apriori算法使用Apriori性质剪枝 C3 扫描D 对每个候选记数 C3 比较sup 与min sup L3 由频繁项集来产生关联规则步骤对于每个频繁项集l 产生l的所有非空子集对于L的每个非空子集s 如果则输出规则 s l s 其中min conf是最小置信度阈值由于规则由频繁项集产生每个规则自动满足最小支持度由频繁项集来产生关联规则示例l I1 I2 I5 l的非空子集 I1 I2 I5 I1 I2 I1 I5 I2 I5 I1 I2 I5 c 2 6 33 I2 I1 I5 c 2 7 29 I5 I1 I2 c 2 2 100 I1 I2 I5 c 2 4 50 I1 I5 I2 c 2 2 100 I2 I5 I1 c 2 2 100 若min conf 70 则输出第3 5 6条规则分类分析 Classifiers 含义有一个记录集合和一组标记标记用以标识记录的类别先为每个记录赋予一个标记按标记对记录分类对同类记录的特征进行描述显式描述例如一组规则定义隐式描述例如一个数学模型或公式分类具有极其广泛的应用分类常用于预测医疗诊断性能预测选择购物信誉证实等分类分析的两个步骤构建模型对预先确定的类别给出相应的描述先假设一个元组或样本集合中的每一个元组或样本属于预先定义的某一个类别由一个类标号属性 classlabelattribute 来确定这些元组或样本的集合称为训练集用于构建模型由于提供了每个训练样本的类标号称作有指导的学习最终的模型用决策树分类规则或者数学公式等来表示模型应用对未知的数据对象进行分类分类分析第一步构建模型分类分析第二步模型应用分类分析举例对信用卡持卡人的信誉进行分类分析记录集合持卡人的记录集一组标记良好普通较差信誉程度先为每个持卡人赋予一个标记即信誉等级对同类记录即同信誉等级的持卡人的特征进行描述例如信誉良好的持卡人的特征为收入在25000以上年龄在45 55之间居住在XYZ地区对同类记录特征的描述规则或模型可用来分类新记录分类分析举例顾客购物分类顾客属性姓名年龄收入职业信誉度为每个顾客赋予一个标记即是否购买计算机按该标记将顾客分类建立分类模型新来一个顾客按分类模型识别该顾客是否属于购买计算机类若顾客属于购买计算机的类别则将有关新的计算机的促销材料分发给他利用决策树进行数据分类决策树一个类似与流程图的树结构内部接点表示一个与属性值相关的判断边表示判断的结果每个叶节点是一个类别的标识利用决策树进行数据分类 ID3 利用决策树进行数据分类 ID3 随机判定分类器鸡蛋好坏的概率分别为6 10 4 10熵为 6 10 log 6 10 4 10 log 4 10 选择用手摇晃判定的分类器不摇晃时鸡蛋好坏的概率分别为6 8 2 8摇晃时鸡蛋好坏的概率分别为0 2 2 2熵为 6 8 log 6 8 2 8 log 2 8 8 10 0 2 log 0 2 2 2 log 2 2 2 10 选择盐水判定的分类器沉下时鸡蛋好坏的概率分别为6 6 0 6浮起时鸡蛋好坏的概率分别为0 4 4 4熵为0 利用决策树进行数据分类 ID3 算法 Generate decision tree输入训练样本samples 候选属性集合attribute list输出决策树步骤创建节点N ifsamples都在同一个类Cthen返回N作为叶节点以类C标记 ifattribute list为空then返回N作为叶节点标记为samples中最普通的类选择attribute list中具有最高信息增益的属性test attribute 利用决策树进行数据分类 ID3 标记节点N为test attribute foreachtest attribute中的已知值ai由节点N长出一个条件为test attribute ai的分枝设si是samples中test attribute ai的样本的集合 ifsi为空then加上一个树叶标记为samples中最普通的类 else加上一个由Generate decision tree si sttribute list test attribute 返回的节点利用决策树进行数据分类 ID3 信息增益 informationgain 设S是s个样本的集合假定类标号属性有m个不同值定义m个不同类Ci 设si是Ci中样本数对一个给定的样本分类所需的期望信息为其中pi si s 利用决策树进行数据分类 ID3 设属性A有v个不同值 a1 a2 av 可以用属性A将S划分为v个子集 s1 s2 sv 其中si中样本在属性A上具有值ai 设sij是子集sj中类Ci的样本数则根据由A划分成子集的熵或期望信息是其中pij sij sj选择A作为分裂属性获得的信息增益为 Gain A I s1 sm E A 决策树分类举例训练数据集决策树分类举例计算属性的熵类标号属性buys computer 有两个不同值 yes no 有两个类类yes有9个样本类no有5个样本计算属性的熵age 40 s13 3 s23 2 I s13 s23 0 971 决策树分类举例计算属性的熵 Gain age I s1 s2 E age 0 246Gain income 0 029Gain student 0 151Gain credit rating 0 048因此选择age作为分裂属性决策树分类举例分枝 age overcast 30 40 30 40 决策树分类举例最终结果由决策树产生规则 IFage 40 ANDcredit rating excellent THENbuys computer no IFage 40 ANDcredit rating fair THENbuys computer yes 聚类分析 Clustering 含义聚类是把一组对象按照相似性归成若干类别即物以类聚它的目的是使得属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大不同的聚类分析工具可以定义不同的规则集从而相同的记录集合可能有不同的划分应用市场或客户分割模式识别基因分类 Web文档分类等聚类算法 K Means 算法 k 平均输入簇的数目k 包含n个对象的数据库输出 k个簇使平方误差最小步骤任意选择k个对象作为初始的簇中心Repeat根据簇中对象的平均值将每个对象赋给最类似的簇更新簇的平均值即计算每个簇中对象的平均值Until平方误差小于某个阈值或不再发生变化平方方差函数 K Means算法对噪音数据敏感聚类算法 K Means 格言戴手套的猫逮不着老鼠倒塌的灯塔比暗礁更危险戴手套的猫逮不着老鼠对青少年火一样的激情岁月是最好的灭火器不掷色子就永远别想得到六点统计数字就像超短裙掩盖起来的部分才是关键老鼠夹上总会有免费蛋糕

展开阅读全文

《数据分析技术》PPT课件.ppt

最新文档