第一章绪论浅谈数据挖掘课件

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,数据挖掘,刘云霞,sxyunxial163,1,2024/10/1,fishing,Data Mining,dredging,snooping,第一章绪论,一、关于数据挖掘的经典故事和案例,二、数据挖掘入门,三、数据挖掘与统计学的关系,四、数据挖掘软件,2,2024/10/1,一、关于数据挖掘的经典故事和案例,1,、正在影响中国管理的,10,大技术,2,、从数字中能够得到什么？,3,、一个网络流传的笑话,4,、啤酒与尿布,5,、网上书店关联销售的案例,6,、数据挖掘在企业中的应用,3,2024/10/1,1,、,正在影响中国管理的,10,大技术,4,2024/10/1,No.5,数据挖掘,2,、从数字中能够得到什么？,What are these numbers trying to Tell me?,：,，,舅舅：不要吃酒，吃酒,误事,，,，,吃了二,两,酒，不是,动,怒，就是,动,武，,.。,吃酒要被酒,杀,死，一,点,酒也不要吃。,2024/10/1,5,What Are These Numbers Trying to Tell Us?,7 2,2,x3,40 6,二四六八,0000,1 1 = 1,1000,2,=100100100,7/8,6,不三不四,接二连三,陆续不断,无独有偶,挂万漏一,一成不变,千方百计,七上八下,2024/10/1,3,、一个网络流传的笑话,(,转述,),客服,:,“东东披萨店您好,!,请问有什么需要我为您服务？”,顾客,:,“你,好,，,我想要,”,客服,:,“先生，请把您的,AIC,会员卡号码告我。”,顾客,:,“喔,!,请等等，,12345678,。”,7,2024/10/1,(1.,客户数据库,),顾客,:,“我家，为什么你知道我所有的电话号码？”,客服,:,“陈先生，因为我们有连线“,AICCRM,系统,”,。”,8,客服,:,“陈先生您好，您是住在泉州街一号二楼,您家的电话是,23939889,，您的公司电话是,23113731,您的移动电话是,939956956,。请问您现在是用哪一个电话呢,?,”,2024/10/1,Add-in-Cards,亲密合作伙伴,Customer Relationship Management,客户关系管理,顾客,:,“我想要一个海鲜披萨,”,客服,:,“陈先生,海鲜披萨不适合您。”,顾客,:,“为什么,?,”,客服,:,“根据您的医疗纪录,您有高血压和胆固醇偏高。”,(2.,医疗数据库,),9,2024/10/1,Why,？,顾客,:,“那,你们有什么可以推荐的,?,”,客服,:,“您可以试试我们的低脂健康披萨。”,顾客,:,“你怎么知道我会喜欢吃这种的,?,”,客服,:,“喔,!,您上星期一在中央图书馆借了一本,低脂健康食谱,。”,(3.,图书借阅数据库）,10,2024/10/1,顾客,:,“哎呀,!,好,我要一个家庭号特大披萨,要多少钱,?,”,客服,:,“嗯，这个足够您一家十口吃，六百九十九元。”,顾客,:,“可以刷卡吗,?,”,客服,:,“陈先生，对不起，请您付现，因为您的信用卡已经刷爆了，,您现在还欠银行十万四千八百零七元，而且还不包括房贷利息。”,(4.,金融数据库,-,信用卡,),11,2024/10/1,顾客,:,“喔！那我先去附近的提款机领钱。”,客服,:,“陈先生,根据您的记录,您已经超过今日提款机提款限额。”,(5.,金融数据库,-,现金卡,),12,2024/10/1,顾客,:,“算了！你们直接把披萨送来吧，我这里有现金。你们多久会送到,?,”,客服,:,“大约三十分钟,如果您不想等,可以自己骑车来。”,顾客,:,“什么,?!,”,客服,:,“,根据,“,AICCRM,系统”记录，您有一辆摩托车，,车号,是,GY-7878,。”,(1.,客户数据库,),13,2024/10/1,！,！,！,顾客,:,客服,:,“陈先生,请您说话小心一点。您在,2000,年四月一日用脏话侮辱警察,被判了十日拘役。”,顾客,:,“,”,(6.,刑事刑案数据库,),14,2024/10/1,“,$%&$,%&!,”,客服,:,“请问还需要什么吗,?,”,顾客,:,“没有了，是不是有送三罐可乐,?,”,客服,:,“是的,!,不过根据“,AICCRM,系统,”您有糖尿病,”,15,2024/10/1,16,CRM Road MAP,客户,数据,仓,库,查询,/,报表,在线实时分析,数据挖掘,(,Data Mining,),营销自动化,接触通路,电子邮件,/,简讯,客服中心,网络银行,邮件,/,传真,业务代表,销售自动化,服务自动化,作业型资,料储存库,(ODS),整合性客,户数据库,分析性,资料超市,分析模块,(Analytical,Models)/,Business,Domain,Ready,Solutions,前台,后,台,2024/10/1,4,、啤酒与尿布,在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。,但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。,原因何在？,17,2024/10/1,原来，美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起购买的机会还是很多的。,是什么让沃尔玛发现了尿布和啤酒之间的关系呢？,正是商家通过对超市一年多原始交易数字进行详细的分析，通过数据挖掘中的,关联规则,发现了这样的组合。,18,2024/10/1,5,、网上书店关联销售的案例,现在网上书店为了能够吸引更多读者购买图书，常常会运用一种叫做,关联销售分析,的方法。,这种方法是给客户提供其他的相关书籍，也就是在客户购买了一种书籍之后，推荐给客户应该感兴趣的其他相关书籍。,例如：购买了,月光宝盒（,2VCD,）,的顾客，对什么样的,VCD,还比较感兴趣，购买的比较多呢？。,19,2024/10/1,解决上述问题的步骤：,首先，确定数据源，也就是销售记录。,这里要用到两张表，一张表是该书店的会员，用会员,ID,号来代替；另一张表是会员买了什么书。然后，应用,Data Mining,技术，建立数据挖掘模型。,20,2024/10/1,对上述问题进行挖掘的结果：,21,Book Name,$SUPPORT,$PROBABILITY,$ADJUSTED PROBABILITY,大圣娶亲,(2VCD),1317,0.8703,0.8085,大内密探零零发,(2VCD),171,0.0369,0.7070,九品芝麻官（,2VCD,）,146,0.0361,0.7209,千王之王,2000,（,2VCD,）,156,0.0312,0.6990,百变金刚（,2VCD,）,150,0.0312,0.7031,唐伯虎点秋香（,2VCD,）,106,0.0263,0.7211,97,家有喜事（,2VCD,）,104,0.0213,0.7017,武状元苏乞儿（,2VCD,）,89,0.0213,0.7177,情圣（,2VCD,）,50,0.0107,0.7058,龙的传人（,2VCD,）,34,0.0090,0.7280,支,持,度,sup(.),：,表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比，即支持这个规则的交易的次数百分比。,置信度,confidence(.),：,是指在所有的购买了左边商品的交易中，同时又购买了右边商品的交易概率。,结果：购买,月光宝盒（,2VCD,）,之后，又购买,大圣娶亲,(2VCD),的次数是,1317,。,2024/10/1,数据挖掘所能解决的典型商业问题包括：,银行：反欺诈行为、关联销售、市场竞争分析。客户分类、客户价值分析与预测、客户偏好分析、客户信用分析以及欺诈检测等。,电信：流失预警、客户分群、关联销售。,网上销售点：购物车交叉销售、网上商品布局。,2024/10/1,22,6,、数据挖掘在企业中的应用,DM,在信用卡欺诈交易中的应用,应用之一是通过评价交易数目、交易金额、账户信息如姓名变化和地址变迁、换卡申请等非金融信息的组合来实现。这些因素结合起来，描述出持卡人最近交易的大概轮廓，从而评估出是否与持卡人的交易习惯相符。一旦发现交易异常的明显痕迹，发卡行需要联系持卡人，以确定其信用卡账户最近是否正常，是否被以任何方式遭受损害。,2024/10/1,23,例如，如果一个持卡人日常生活里，每月交易笔数在,36,笔，这就是其交易模式之一。如果有一天发现当日其信用卡账户有,15,笔交易，例外报告将要求发卡行联系持卡人进行确认。,DM,在大型零售企业中的应用,1,、优化商品组合布局，正确安排商品进货与库存,从众多的商品中发现创造价值最大的商品。然后，据此调整商品的结构，安排商品的库存和定货。,商品布局管理即商品摆放位置对销售起着至关重要的作用。,2024/10/1,24,考虑购买者在商店里所穿行的路线、购买时间和地点、货架的使用效率、畅销商品的类别、不同商品一起购买的概率，进行挖掘。,英国,safeway,公司，研究发现某一种乳酪产品虽然销售额排名第,209,，可是消费额最高的客户中有,25,都常常买这种乳酪，这些客户可是,Safeway,最不想得罪的客户。如果使用传统的分析方法的话，这种产品很快就会不卖了，可是事实上这种产品是相当重要的。,Safeway,也发现在,28,种品牌的橘子汁中，有,8,中特别受到欢迎。因此，该公司重新安排货架的摆设，使橘子汁的销量能够增加到最大,例如，一个超市营销的例子，经由记录客户的消费记录与采购路线，超级市场的厨房用品是按照女性的视线高度来摆放的。,根据研究得出：美国妇女的视线高度是,150,公分左右，男性是,163,公分左右，而最舒适的视线角度是视线高度以下,15,度左右，所以最好的货品陈列位置是在,130-135,公分之间。在商业上，有很多特征是很难理解的，但若了解到这些信息就会增加企业的竞争能力。,2024/10/1,25,2,、利用数据挖掘技术帮助企业准确制定营销策略，主要表现在：,（,1,）通过对市场同类产品和销售情况、顾客情况的资料收集和分类分析，明确细分市场，确定本企业差别化的产品和服务定位、目标顾客和市场营销策略。（业绩分析）,（,2,）正确安排商品进货与库存，降低库存成本。即对各个商品、各色货物进行增减，确保正确的库存；协助企业确定最佳经济批量、最佳定货时机，从而节约进货和库存管理费用；,2024/10/1,26,（,3,）将顾客按照一定的标准进行分类，通过对企业销售数据的序列分析发现顾客基于时间的购买模式，预测顾客需求，及时调整产品的结构和内容，提高不同顾客群的满意度，最大限度的留住顾客。,（,4,）通过建立顾客会员制度，记录同一顾客在不同时期购买的商品序列，通过统计分析和序列模式挖掘顾客购买趋势或忠诚度的变化。,2024/10/1,27,以顾客为导向,例如，,Safeway,在了解客户每次采购时会购买哪些产品以后，就可以利用数据挖掘中的监测功能，监测出长期的经常购买行为。再将这些资料与主数据库的人口统计资料结合在一起，,Safeway,的营销部门就可以根据每个家庭的特性，也就是哪些季节会购买哪些产品的趋势，发出邮件。,2024/10/1,28,例如，拥有汽车的新婚夫妻很可能购买儿童专用汽车椅，这个现象很容易被理解，并不需要应用到数据挖掘中。,但如考虑到另一个问题，这些夫妻会购买何种颜色的儿童专用汽车椅？这时可以运用数据挖掘技术以便在新婚夫妻购买汽车的时候销售给他们合适的儿童专用汽车椅。,2024/10/1,29,（,7,）交叉销售,DM,在房地产行业中的应用,2024/10/1,30,关联规则,A1,：地理位置无关型客户重视物业管理,支持率,=9.7%,；可信度,=30.3%,；兴趣度,=2.4,；,关联规则,B1,：重视物业管理地理位置无关型客户,支持率,=9.7%,；可信度,=76.9%,；兴趣度,=2.4,；,对比发现：“重视物业管理的人不关心地理位置”的可能性（,76.9%,）高于“不关心地理位置的人重视物业管理”的可能性（,30.3%,）。说明关联规则,B1,是一条更有意义的关联规则。,2024/10/1,31,DM,在公司财务分析中的应用,用比率分析法消除规模影响,2024/10/1,32,首先，将企业按财务状况分成,5,类；其次，利用关联分析，找到影响企业财务状况的因素。对公司的财务状况有明显影响的因素有资产负债率、速动比率、总资产周转率、销售毛利率、净资产收益率等。,2024/10/1,33,二、数据挖掘入门,什么激发了数据挖掘，为什么它是重要的？,什么是数据挖掘？,在何种数据上进行数据挖掘？,数据挖掘的功能,几种较为流行的数据挖掘技术,34,2024/10/1,1,、什么激发了数据挖掘，为什么它是重要的？,数据爆炸性的增长：从兆字节,terabytes,到千兆字节,petabytes,。,多种海量数据源,商业,:,网络,电子商务,交易,股票, ,科学,:,遥感数据,生物信息学,科学模拟, ,社会各个角落,:,新闻,数字影像,视频，,“,我们被信息淹没却信息贫乏,!,”,“,需要是发明之母,”,数据挖掘,海量数据库的自动化分析,。,35,2024/10/1,根据文章中出现的词的相似性，可以把八篇文章分为两个自然簇。第一个簇由前四篇文章组成，对应于经济新闻，而第二个簇包含后四篇文章，对应于卫生保健新闻。,36,2,、什么是数据挖掘,?,数据挖掘（从数据中发现知识）,数据挖掘就是从大量的、不完全的、,有噪声的,、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,2024/10/1,Data mining:,用词不当,?,从数据中挖掘知识,相近的术语,数据库中知识发现,(KDD),、知识提取、数据,/,模式识别、,数据考古、数据捕捞、知识获取、商业智能等。,37,2024/10/1,Knowledge Discovery in Databases,38,知识发现,(KDD),过程,数据挖掘是知识发现的核心步骤,Data Cleaning,Data Integration,Databases,Data Warehouse,Knowledge,Task-relevant Data,Selection,Data Mining,Pattern Evaluation,2024/10/1,2024/10/1,39,数据挖掘和商务智能,Increasing potential,to support,business decisions,End User,Business,Analyst,Data,Analyst,DBA,Decision Making,Data Presentation,Visualization Techniques,Data Mining,Information Discovery,Data Exploration,Statistical Summary, Querying, and Reporting,Data Preprocessing/Integration, Data Warehouses,Data Sources,Paper, Files, Web documents, Scientific experiments, Database Systems,数据库管理员,OLAP,商务智能通常被理解为将企业中现有的数据转化为知识，帮助企业做出明智的业务经营决策的工具。,一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。,数据挖掘：多种学科的交叉,40,Data Mining,Database,Technology,Statistics,Machine,Learning,Pattern,Recognition,Algorithm,Other,Disciplines,Visualization,2024/10/1,2024/10/1,41,3,、对何种数据进行挖掘？,关系数据库（,Relational database,）、数据仓库（,data warehouse,）、事务数据库（,transactional database,）,高级数据库和面向特殊应用的数据库,数据流和遥感数据,时间序列数据、时间数据、序列数据（生物序列数据）,结构数据、图、网络和多维链数据,对象,-,关系数据库（,Object-relational databases,）,异种数据库和遗产数据库,空间数据和时空数据,多媒体数据库、文本数据、,WWW,关系数据库是表的集合，每个表都赋予一个唯一的名字。,事务数据库由一个文件组成，其中每个记录代表一个事务。,数据仓库是从多个数据源收集的信息存储，存放在一个一致的模式下，并通过数据清理、变换、集成等来构造。,42,关系数据库,2024/10/1,关系数据库是表的集合，每个表都赋予一个唯一的名字。,事务数据库,2024/10/1,43,ID,事务数据库由一个文件组成，其中每个记录代表一个事务。,数据仓库,2024/10/1,44,以面向主题的原则，以个人信用卡消费趋势为主题的星形模式数据仓库。,事实表,维表,数据仓库是从多个数据源收集的信息存储，存放在一个一致的模式下，并通过数据清理、变换、集成等来构造。,4,、,Data Mining,处理流程,45,DATA MINING,运行时间,定义企业问题,定义分析资料,数据预处理,数据挖掘,布署与应用,数据,源,DATA MINING,处理流程,2024/10/1,5,、,OLAP,与数据挖掘,联机分析处理,OLAP(On-Line Analytical Processing),是使使用者从多种角度对从原始数据中转化出来的、易理解并真实反映企业特性的信息进行存取，以满足决策支持或多维环境特定的查询和报表需求的一种软件技术。,OLAP,除了能够告诉你数据库中都有什么，还能够更进一步告诉你下一步会怎么样以及如果采取这样的措施又会怎么样。,其分析过程在本质上是一个基于用户建立的一系列假设驱动，通过,OLAP,来证实或者推翻这些假设的演绎推理过程。,2024/10/1,46,实质上是通过把一个实体的多项重要的属性定义为多个维,(dimension),，使用户能对不同维上的数据进行比较。因此,OLAP,也可以说是多维数据分析工具的集合。,旋转、切片（块）、钻取,钻取：是改变维的层次，变换分析的粒度。它包括向下钻取（,Drill-down,）和向上钻取（,Drill-up,）,/,上卷,(Roll-up),。,Drill-up,是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；而,Drill-down,则相反，它从汇总数据深入到细节数据进行观察或增加新维。,切片和切块：是在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个，则是切片；如果有三个或以上，则是切块。,旋转：是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。,比如：一个,OLAP,分析师可能认为，在某一区域开办信用卡的用户会更主动地进行消费。,对于这个假定，他可能去观察在那些富裕地区申办信用卡的用户的信用卡账户属性。如果结果还不够明显，他也许要将年龄因素考虑进去。一直这样下去，直到他认为他找到了能够决定是否主动进行信用卡消费的各种变量，然后再根据这些变量，策划他的银行产品的营销方式，最大程度上将营销资源放在最可能接受他们产品的客户对象上。,2024/10/1,47,比如，在银行间盛行的,CRM,的应用中，数据仓库以面向“客户”为主题进行数据筛选、存储；,OLAP,负责分析客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等，以动态分析报表、直方图、折线图、饼图等形式展现给管理者，让他们从多方面了解和掌握客户的动态，从而发现客户的交易习性、客户流失形式，更好地针对不同类型的客户，在不同时期进行适应性产品的营销活动。,数据挖掘则可以通过历史数据建立模型，在拟合历史的基础上，分析未来趋势，判断哪些因素的改变将很可能意味着客户的最终流失，进而避免其发生。,2024/10/1,48,OLAP,与数据挖掘的区别,6,、数据挖掘的功能,关联分析,分类和预测,聚类,异常值探测,序列模式挖掘,49,2024/10/1,关联分析是用于挖掘、发现大量数据中项集之间存在的、重要的、有趣的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。,在不知道关联函数或关联函数不确定的情况下，为了反映所发现规则的有用性和确定性，关联分析生成的规则都要满足,最小支持度阀值和最小置信度阀值。,50,关联分析,2024/10/1,关联分析的应用：,比如人寿保险。保险公司在接受保险前，往往需要记录投保人详尽的信息，有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。,通过分析这些数据，可以得到类似以下这样的关联规则：年龄在,40,岁以上，工作在,A,区的投保人当中，有,45, 的人曾经向保险公司索赔过。在这条规则中，,“ 年龄在,40,岁以上”“ 工作在,A,区” “向保险公司索赔过”,可以看出来，,A,区可能污染比较严重，环境比较差，导致工作在该区的人健康状况不好，索赔率也相对比较高。,2024/10/1,51,分类和预测,分类是对一个类别进行描述及概括相关特征，并提取出描述重要数据类的模型。,数据挖掘中的分类方法很多，主要有决策树和决策规则、贝叶斯信念网络、神经网络以及遗传算法等。,预测是通过建立连续值函数模型达到预测未来的数据趋势。预测的方法主要有回归分析、时间序列分析等。各种分类模型也可以预测，但主要是预测分类标号。,52,2024/10/1,聚类,聚类是在要划分的类未知的情况下，将数据库中的记录划分为多个类或簇，使得同类内的对象之间具有较高的相似度，不同类间的差异较大。它是概念描述和偏差分析的先决条件。,数据挖掘中的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法等。,53,2024/10/1,异常值探测,异常值指的是数据库中不符合数据一般模型的数据对象。,从数据库中探测异常值很有意义，因为它们本身可能隐藏着重要的信息，比正常的数据更有用，忽略或删除它们都会导致信息的丢失。,例如，发现金融和保险领域的欺诈行为、税款的脱逃、通信费用的恶意欠费、网络中的黑客入侵、追寻极低或极高收入者的消费行为以及对多种治疗方式不寻常反映的发现等。,54,2024/10/1,序列模式挖掘,序列模式挖掘是指挖掘相对时间或其他序列出现频率高的规律或趋势，并建模。,这里的序列一般指时间序列数据库和序列数据库（,Web,日志分析和,DNA,分析）。,在许多行业产生的数据库都是时间序列数据库，例如，商业交易、电信部门、天气数据等等，因此，序列模式的挖掘是非常有意义的。,55,2024/10/1,序列分析和关联规则的,相似之处,在于，它们所用的样本数据中，每一个样本都包含了一个项集或状态集合。其,不同之处,在于序列分析研究的是项集,(,或状态,),间的转换，而关联规则模型研究的是项集之间的相关性。,在序列分析模型中，先购买计算机再购买音箱，和先购买音箱再购买计算机是两种不同的序列。而在关联规则中这两种行为都表达了一个同样的项集,计算机，音箱,。,2024/10/1,56,57,决策树,聚类,时间序列,关联规则,贝叶斯分类,类神经网络,罗吉斯回归,线性回归,文本数据挖掘,7,、几种数据挖掘技术,2024/10/1,Decision Tree,决策,树,决策树是用二叉树形图来表示处理逻辑的一种工具，是,对数据进行分类的方法。决策树的目标是针对类别因变量加以预测或解释反应结果。,主要有两个步骤：首先，通过一批已知的样本数据建立一棵决策树；然后，利用建好的决策树，对数据进行预测。,决策树的建立过程可以看成是数据规则的生成过程，因此，决策树实现了数据规则的可视化，其输出结果也容易理解。,58,2024/10/1,决策树的应用举例,2024/10/1,59,客户信贷分类,输出结果：关于“,buys_computer,”的决策树,60,2024/10/1,聚类（,Cluster,）,聚类目的在将相似的事物归类。,可以将变量分类，但更多的应用是透过顾客特性做分类，通过将顾客特性进一步分割成若干类别而达到市场区隔之目的。,可以帮助企业了解顾客的特征，将顾客分成新顾客、忠诚顾客、流失顾客、无规律购买顾客、新吸引的顾客等，便于企业针对不同群体的特征，设计出不同的营销策略，更大程度地满足消费者个性化需求。,61,2024/10/1,2024/10/1,62,Hierarchical Clustering,层次聚类法,该方法是利用距离矩阵作为分类标准，将,n,个样品各作为一类；计算,n,个样品两两之间的距离，构成距离矩阵；合并距离最近的两类为一新类；计算新类与当前各类的距离；再合并、计算，直至只有一类为止。,Step 0,Step 1,Step 2,Step 3,Step 4,b,d,c,e,a,a b,d e,c d e,a b c d e,Step 4,Step 3,Step 2,Step 1,Step 0,agglomerative,(AGNES),divisive,(DIANA),2024/10/1,63,K-Means,Clustering,K,-,均值聚类方法,Example,：,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2,Arbitrarily choose K object as initial cluster center,Assign each objects to most similar center,Update the cluster means,Update the cluster means,reassign,reassign,常用聚类算法的比较,2024/10/1,64,关联规则（,Association,）,关联规则是分析发现数据库中不同变量或个体,(,例如商品间的关系及年龄与购买行为,),之间的关系程度,(,概,率大小,),，并用这些规则找出顾客购买行为模式。,例如：购买了桌面计算机对购买其他计算机外设商品,(,打印机、喇叭、硬盘,.),的相关影响。,发现这样的规则可以应用于商品货架摆设、库存安排以及根据购买行为模式对客户进行分类。,65,2024/10/1,2024/10/1,66,啤酒与尿布的关联分析,Find all the rules,X,Y,with minimum support and confidence,support,s,probability,that a transaction contains X Y,confidence,c,conditional probability,that a transaction having X also contains,Y,Let minsup = 50%, minconf = 50%,Freq. Pat.:,Beer:3, Nuts:3, Diaper:4, Eggs:3, Beer, Diaper:3,Association rules: (many more!),Beer,Diaper,(60%, 100%),Diaper,Beer,(60%, 75%),Neural Network,67,2024/10/1,类神经网络，,类似人类神经元,结构。,神经元的主要功能是接受刺激和传递信息。神经元通过传入神经接受来自体内外环境变化的刺激信息，并对这些信息加以分析、综合和储存，再经过传出神经把指令传到所支配的器官和组织，产生调节和控制效应。,68,2024/10/1,单纯贝叶斯分类主要是根据贝叶斯定理,(Bayesian Theorem),，来预测分类的结果。,贝叶斯定理：,P(X),、,P(H),和,P(X|H),可以由给定的数据计算，是先验概率。贝叶斯定理提供了一种由,P(X),、,P(H),和,P(X|H),计算后验概率,P(H|X),的方法。贝叶斯定理是：,69,2024/10/1,Nave Bayes,分类,实例：办信用卡意愿分析,项目,性别,年龄,学生身分,收入,办卡,1,男,45,否,高,会,2,女,3145,否,高,会,3,女,2030,是,低,会,4,男,20,是,低,不会,5,女,2030,是,中,不会,6,女,2030,否,中,会,7,女,3145,否,高,会,8,男,3145,是,中,不会,9,男,3145,否,中,会,10,女,0,72,2024/10/1,73,2024/10/1,训练样本中对于,(,女性，年龄介于,3145,之间，不具学生身份，收入,中等,),的个人，按照朴素贝叶斯分类会将其分到办信用卡一类中。,办卡的概率是,(0.044)/(0.044+0)=1,(,正规化分类的结果,P(,会,)/(P(,会,)+P(,不会,),罗吉斯回归（,Logistic Regression,）,假设有个科学家想要了解某种毒物对于老鼠死亡率的分析，他做了三次实验，分别使用不同的毒物用量，去计算每一百只老鼠的死亡概率，然后他得到以下的结果：,使用,10,毫克毒物，死亡率为,15,使用,20,毫克毒物，死亡率,35,使用,30,毫克毒物，死亡率,55,从这些数值看起来，毒物的用量与死亡率呈现显著的正比关系，而且我们可以计算出一条非常完美准确的回归线：,Y=2X-5,（,Y,为死亡率，,X,为毒物用量）。,74,2024/10/1,但是，这个方程式包含有一个重大错误。假设我们使用,100,毫克毒物，根据方程式计算，这些老鼠的死亡率为,195,，也就是说每一百只老鼠会死,195,只，而如果我们完全不放任何毒物时，死亡率为,-5%,，也就是每一百只老鼠会死负五只。,很显然，这个线性回归模型没有考虑到几个重要的限制，即当我们使用毒物量降低时，死亡率应该是近于零（不会是负值），而当毒物量增加时，死亡率应该是接近于,100,。,当需要把概率限制在,0,1,时，就可以考虑使用,LOGISTIC,回归。,75,2024/10/1,Logistic,回归模型的构造,现,y,为发病或未发病，生存与死亡等定性分类变量，不能直接用回归模型进行分析。,能否用发病的概率,P,来直接代替,y,呢？即,不行。但可以,因此，定义,logit(P)= lnP/(1-P),为,Logistic,变换，则,Logistic,回归模型为,:,2024/10/1,76,经数学变换可得,:,2024/10/1,77,Logistic,回归模型是一种概率模型,它是以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项,多项分类的资料。,2024/10/1,78,79,2024/10/1,文本挖掘,基础领域,基本技术,应用领域,网站文本分析,通过文本挖掘，能够让搜索引擎找到更符合查询者原意的内容；入口网站可以侦测网页文件的关键字，判断哪些网页内容属于限制级；搜索引擎也可以运用关键字将网页内容自动分类，或者是判断哪些电子邮件是垃圾邮件。,80,2024/10/1,文章分群,在,Vassar College,的唐佛斯教授实验室中，这类利用文字挖掘技术相当成熟，能够从一堆文章中自动找出哪些是莎士比亚写的作品，同时该实验室也发现,1823,年发表的,圣诞老人,的作者并非是原先宣称的,Clement Clark Moore,，而是,Henry Livingston,。,81,2024/10/1,2024/10/1,82,8,、,Top-10 Algorithm Finally Selected at ICDM06,#1: C4.5 (61 votes),#2: K-Means (60 votes),#3: SVM (58 votes),#4: Apriori (52 votes),#5: EM (48 votes),#6: PageRank (46 votes),#7: AdaBoost (45 votes),#7: kNN (45 votes),#7: Naive Bayes (45 votes),#10: CART (34 votes),expectation maximum,最大期望,超链接分析算法,IEEE,数据挖掘国际会议,三、数据挖掘与统计学的关系,为什么数据挖掘不是传统的数据分析？,数据挖掘不是统计学的分支,统计学是数据挖掘的核心,83,2024/10/1,2024/10/1,84,为什么数据挖掘不是传统的数据分析,?,1,、海量数据,高维、高复杂度的数据,算法必须能够处理诸如千兆的海量数据。,2,、统计学具有某种保守性，它倾向于尽量地避免出现特殊方法的运用，而偏好于数学上的严格性；数据挖掘分析问题喜欢“冒险”的态度。,3,、在现代统计学中，模型是主要的，而对于模型的选择标准、如何计算等则都是次要的。但是在数据挖掘中，算法也扮演着重要的角色。,4,、统计学方法的前提假设。而数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。,2024/10/1,85,5,、在统计理论方面：,统计推断的基础“总体”和“样本”的概念是否还继续适用？,面对如此大量的数据很难定义总体和样本；,大样本渐近性质是否满足？,由于数据量太大，传统的统计量无论真实情况如何都会变得“显著”；,统计假设检验使用的小概率原理是否还适用？,因为假定小概率事件在一次实验中不会发生是合理的，而数据量大到一定程度之后，小概率事件一定会发生。,2024/10/1,86,数据挖掘不是统计学的分支,统计学是数据挖掘的核心,统计学和数据挖掘有着共同的目标。,统计学和数据挖掘有着共同的目标：发现数据中的结构或模式。,统计学在数据挖掘中起着重要的作用。,传统的统计学方法是数据挖掘的经典方法，统计学思想在整个数据挖掘过程都有重要的体现，担负着不可忽视的重任。,数据挖掘技术与统计学集成是必然趋势。,2024/10/1,87,四、数据挖掘软件,SQL2019,Clementine,马克威分析系统,Statistica,SAS,88,2024/10/1,89,2024/10/1,

展开阅读全文

第一章绪论浅谈数据挖掘课件

最新文档