数据挖掘与统计工作

资源描述

台湾辅仁大学教授谢绑昌先生作的“数据挖掘与统计工作”报告原文数据发掘的工作（Data Mining是近年来数据库应用领域中，相当热门的议题。它是个神奇又时髦的技术，但却也不是什么新东西，因为Data Minin使用的分析方法，如预测模型（回归、时间数列）、数据库分割（Da tabase Segmen tat Ion 连接分析（Link Analysis、偏差侦测（Deviation Detec）i等；美国政府从第二次世界大战前，就在人口普查以及军事方面使用这些技术，但是信息科技的进展超乎想象，新工具的出现，例如关连式数据库、对象导向数据库、柔性计算理论（包括 Neural networkFuzzy theoryGenetic AlgorithmRough Set等）、人工智能的应用（如知识工程、专家系统），以及网络通讯技术的发展，使从数据堆中挖掘宝藏，常常能超越归纳范围的关系；使Data Minin成为企业智慧的一部份。Data Minin是一个浮现中的新领域。在范围和定义上、推理和期望上有一些不同。时代不一样了，现在数据来得既多又便宜，多到了没有人有时间去看的程度。挖掘的信息和知识从巨大的数据库而来，它被许多研究者在数据库系统和机器学习当作关键研究议题，而且也被企业体当作主要利基的重要所在。有许多不同领域的专家，对Data Mining展现出极大兴趣，例如在信息服务业中，浮现一些应用，如在Intern之数据仓储和在线服务，并且增加企业的许多生机。我们对于这种Data Mining的产品应该有一个正确的认知，就是它不是一个无所不能的魔法。它不是在那边监视你的数据的状况，然后告诉你说你的数据库里发生了某种特别的现象。也不是说有了 Data Minin的工具，就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做Data Mining Data Mining所挖掘出来的信息，也不是你可以不经确认，就可以照单全收应用到业务上的。事实上，Data Minin工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesi)，但是它并不帮你查证(Verify这些假设，也不帮你判断这些假设对你的价值。Anil I ci al IntElligenct;Machine LeaniungData MiningData Warehousing I StatisticsThe Evolution of Data Mining何谓 Data MiningData Mining是指找寻隐藏在数据中的讯息，如趋势(Trend)、特征(Pattern) 及相关性(Relationship)的过程，也就是从数据中发掘信息或知识(有人称为 Knowledge Discovery in Databases, )KDD也有人称为资料考古学(Data Archaeology)数据样型分析(Data Pattern Ana)或is功能相依分析(Functional Dependency Analysis)目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域，许多产业界人士也认为此领域是一项增加各企业潜能的重要指标。此领域蓬勃发展的原因：现代的企业体经常搜集了大量资料，包括市场、客户、供货商、竞争对手以及未来趋势等重要信息，但是信息超载与无结构化，使得企业决策单位无法有效利用现存的信息，甚至使决策行为产生混乱与误用。如果能透过数据发掘技术，从巨量的数据库中，发掘出不同的信息与知识出来，作为决策支持之用，必能产生企业的竞争优势。Data Mining 可说会合了以下六种领域：Database systems, Data Warehouses, OLAPMachine learningStatistical and data analysis methodsVisualizationMathematical programmingHigh performance computingData Mining 应用的行业包括了金融业、电信业、零售商、直效行销、制造业、医疗保健及制药业等等，应用领域如下表：Applications of Data MiningCustomerfocusedOperationsfocusedResearch-focused Life-time Value Profitability Analysis Combinatorial Chemistry Market-Basket Analysis Pricing Gene tic Research Prof il ing & Fraud De tec tion EpidemiologySegmentation Risk Assessme nt Re ten tion Por tfolio Management Target Marke t Employee Turnover Acquisi tion Cash Manageme nt Knowledge Por tal Production Efficiency Cross-Selling Ne twork Performance Campaign Manageme nt Ne twork Performance ECommerceManufac turingProcesses现今计算机运算能力的跃进，以及数据储存技术的进步，数据仓储的广泛建置，加上企业行销策略转为针对单一消费者个人行销，更突显Data Mining对于企业的迫切性。Why do we need data mining?-Large number of records (cases) (108T012 bytes)-High dimensional data (variables) (10T04 attributes)- Only a small portion, typically 5% to 10%, of the collected data is ever analyzed.-Data that may never be explored continues to be collected out of fearthat something that may prove important in the future may be missing.-Magnitude of data precludes most traditional analysis (more on complexity later).Data Mining和统计分析有什么不同？硬要去区分Data Minin和Stat is t的差异其实是没有太大意义的。一般将之定义为Data Minin技术的CART、CHAID或模糊计算等等理论方法，也都是由统计学者根据统计理论所发展衍生，换另一个角度看，Data Minin有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Minin的出现会引发各领域的广泛注意呢？主要原因在相较于传统统计分析而言， Data Mining 有下列几项特性：1. 处理大量实际资料更强势，且无须太专业的统计背景去使用Data Minin的工具；2. 数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件，Da ta Minin 的工具更符合企业需求；3.纯就理论的基础点来看，Data Minin和统计分析有应用上的差别，毕竟DataMining目的是方便企业末端用者使用而非给统计学家检测用的。数据仓储、KDD、Data mining的关系若将Data Warehousing资料仓储）比喻作矿坑，Data Minin就是深入矿坑采矿的工作。毕竟Data Minin不是一种无中生有的魔术，也不是点石成金的炼金术，若没有够丰富完整的数据，是很难期待Data Minin能挖掘出什么有意义的信息的。要将庞大的数据转换成为有用的信息，必须先有效率地收集信息。随着科技的进步，功能完善的数据库系统就成了最好的收集资料的工具。数据仓储，简单地说，就是搜集来自其它系统的有用数据，存放在一整合的储存区内。所以其实就是一个经过处理整合，且容量特别大的关系型数据库，用以储存决策支持系统（Design Support Syste所需的数据，供决策支持或数据分析使用。从信息技术的角度来看，数据仓储的目标是在组织中，在正确的时间，将正确的数据交给正确的人。许多人对于数据仓储（Data Warehous）和数据挖掘（Data Mining时常混淆，不知如何分辨。其实，数据仓储是数据库技术的一个新主题，在数据科技日渐普及下，利用计算机系统帮助我们操作、计算和思考，让作业方式改变，决策方式也跟着改变。另外，决策支持系统和主管信息系统也日渐普遍，它们操作数据的方式不尽相同，因而有必要把作业性数据库和数据仓储分隔开来，利用不同数据库系统与技术操作，才能达系统最佳化。由于关系型数据库、平行处理及分布式数据库技术的进步，不论是主从式架构或主机型架构的数据库系统，资料仓储技术皆可以利用原有作业中或已有的（Legacy）系统，进而提供一个稳固的基础以支持全公司的决策支持系统（DSS）。数据仓储本身是一个非常大的数据库，它储存着由组织作业数据库中整合而来的数据，特别是指从在线处理系统（OLTP）所得来的数据。将这些整合过的数据置放于数据仓储中，而公司的决策者则利用这些数据作决策；但是，这个转换及整合数据的过程，是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。也就是，数据仓储应该具有这样的数据：整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据(Metadata)。如果数据仓储集合具有成功有效率地探测数据的世界，则挖掘出决策有用的数据与知识，是建立数据仓储与使用Data Mining的最大目的。而从数据仓储挖掘有用的数据，则是 Data Mining的研究重点，两者的本质与过程是两码事。换句话说，数据仓储应先行建立完成， Datamining 才能有效率的进行，因为数据仓储本身所含数据是干净(不会有错误的数据参杂其中)、完整的，而且是整合在一起的。因此，或许可说Data Mining是从巨大数据仓储找出有用信息之一种过程与技术。岛效塩的-運用(內部尺讣部)控制龔理霽恃性資料倉儲+亜用強北OLAP 能不能代替 Data Mining？所谓OLAP (Online Analytical PrOc意指由数据库所连结出来的在线查询分析程序。有些人会说：我已经有OLAP的工具了，所以我不需要Data Minin。事实上两者间是截然不同的，主要差异在于Data Minin用在产生假设，OLAP 则用于查证假设。简单来说， OLAP 是由使用者所主导，使用者先有一些假设，然后利用OLAP来查证假设是否成立；而Data Minin则是用来帮助使用者产生假设。所以在使用OLAP或其它Query的工具时，使用者是自己在做探索(ExploratiOn,但Data Minin是用工具在帮助做探索。举个例子来看，一市场分析师在为超市规划货品架柜摆设时，可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品，接着便可利用 OLAP 的工具去验证此假设是否为真，又成立的证据有多明显；但Data Minin则不然，执行Data Mining的人将庞大的结帐数据整理后，并不需要假设或期待可能的结果，透过 Mining技术可找出存在于数据中的潜在规则，于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现，这是OLAP所做不到的。Data Minin常能挖掘出超越归纳范围的关系，但OLAP仅能利用人工查询及可视化的报表来确认某些关系，是以Data Minin此种自动找出甚或不会被怀疑过的数据型样与关系的特性，事实上已超越了我们经验、教育、想象力的限制， OLAP可以和Data Minin互补，但这项特性是Data Minin无法被OLAP取代的。KDD(Knowledge Discovery in Daase)和 Data Mining 的关系也是需要厘清的，根据 Fayyad 等人对 KDD 的定义：The non trivial Process of iden tifying valid、novel、potentiallyuseful,andultimatelyunderstandablepattern in da ta，其流程步骤是：先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择(Selection)之数据子集；再从目的数据中作前置处理(Pre-processing)，去除错误或不一致的数据；然后作数据简化与转换工作 (Transformation)；在经由DataMining的技术程序成为样型(Patterns)、做回归分析或找出分类型态；最后经过Interpretation/Evaluation成为有用的知识。这些程序是一个循环的关系，一直重复的步骤，最后才得到一些有用的知识。所以，KDD是一连串的程序，Data Mining是其中的一个步骤而已。总而言之， Data Mining， Data warehouse， KDD 三者的关系可以如此厘清，即 Data warehouse 是一个经过处理、整合之数据库，而 KDD 是一种知识发现的一连串程序，Data Mining只是KDD的一个重要程序。它们最终目的，乃为组织取得决策支持所需的信息，这个信息是突破盲点、见人所未见的知识和讯息，能替组织取得竞争优势。Data Mining 的功能一般而言， Data Mining 功能可包含下列五项功能：?分类(classifica tion)?推估(es timation)?预测(prediction)?关联分组(affinity grouping)?同质分组(clus tering)兹将这些功能的意义及可能使用的技巧简述如下：分类按照分析对象的属性分门别类加以定义，建立类组(class)。例如，将信用申请者的风险属性，区分为高度风险申请者，中度风险申请者及低度风险申请者。使用的技巧有决策树(decision tree)，记忆基础推理(memory-based reasoning) 等。推理根据既有连续性数值之相关属性数据，以获致某一属性未知之值。例如按照信用申请者之教育程度、行为别来推估其信用卡消费量。使用的技巧包括统计方法上之相关分析、回归分析及类神经网络方法。预测根据对象属性之过去观察值来推估该属性未来之值。例如由顾客过去之刷卡消费量预测其未来之刷卡消费量。使用的技巧包括回归分析、时间数列分析及类神经网络方法。关联分组从所有对象决定那些相关对象应该放在一起。例如超市中相关之盥洗用品 (牙刷、牙膏、牙线)，放在同一间货架上。在客户行销系统上，此种功能系用来确认交叉销售(cross-selling)的机会以设计出吸引人的产品群组。同质分组将异质母体中区隔为较具同构型之群组(clusters)。同质分组相当于行销术语中的区隔化(segmen tat ion)，但是，假定事先未对于区隔加以定义，而数据中自然产生区隔。使用的技巧包括k-means法及agglomeration法。Data Mining 的应用Data Mining 导入企业，其重点在于企业领域方面的知识，而它的Domain-specificTools 要结合企业中使用者的语言和分析过程，才能发挥工具的效能与增进企业的智慧。换句话说，就是要颠覆常规和超越平日的想象，展现企业目标与问题的知识，以支持解释别人看不到、看不出的信息来。企业必须能够从巨大数据库中挖掘到浓缩、先前不知、可理解的信息，并从使用中获利。例如，一个发行管理共同基金(mutual funds)的企业体要发掘潜在客户，它要能整合客户的账户、人口统计、生活型态等数据。也就是说要能把数据库中人口数据切分成为一些关键子集合：都市化情况、婚姻状态、家庭所得、年龄、风险偏好、高净值等。最后，依据资料挖宝分析结果，可区分集群和从事推广促销活动，成功的把共同基金推展至市场上。目前企业界把Data Mining应用在许多领域。例如，行销、财务、银行、制造厂、通讯等。并且产学合作下，发展出许多实用的系统，例如 MDT、Coverstory andSpotlight、 NichWorkvisualizationsystem、 LBS、 FALCON、 FAIS、 NYNEX、 TASA 等等。这些数据发掘的系统，应用非常广泛，例如有一个应用在行销领域的例子：经由记录客户的消费记录与采购路线，超级市场可以设计出更吸引顾客购买的环境。根据数据挖掘出特别的信息来，因此现在超级市场的厨房用品，是按照女性的视线高度来摆放。根据研究指出：美国妇女的视线高度是 150公分左右，男性是163 公分左右，而最舒适的视线角度是视线高度以下 15 度左右，所以最好的货品陈列位置是在 130 至 135 公分之间。企业界实际发展 Data Mining 时，效能并不能预期，因为有许多因素影响着。例如，不充足的教育训练、不适当的支持工具、数据的无效性、过于丰富的样型(patterns)、多变与具时间性的数据、空间导向数据(spatially oriented data)、复杂的数据型态、数据的衡量性(scalabili ty)。这说明数据与知识的发掘是一项信息丰富性的工作，面对易变的环境，没有现成的 Model 马上可用，也不要期望按照程序即能成功。因此，我们要体会一些潜在的因素，如数据取舍、实体关系性、数量多寡、复杂性、数据质量、可取得性、变迁、专家意见等因素，才能做好资料挖掘工作。DataMining 对每个公司来说都是一种重要的策略性的的计划，而将之列为高度机密，所以要调查各家公司到底用Data Mining来做什么样的事其实相当不容易。根据Two Crows Corp.最近的调查显示，Data Mining主要的三个应用方式-如我们所预期的-都在市场推广方面，分别是：Cus tomer Prof il ing、Targe ted Marketing、以及 Market-Basket Analysis。在 Customer Profiling 方面，我们希望找出客户的一些共同的特征，希望能藉此预测哪些人可能成为我们的客户，以帮助行销人员找到正确的行销对象。 Data Mining可以从现有客户数据中找出他们的特征，再利用这些特征到潜在客户数据库里去筛选出可能成为我们客户的名单，作为行销人员推销的对象。行销人员就可以只针对这些名单寄发广告数据，以降低成本，也提高行销的成功率。Market-Basket Analysis 主要是用来帮助零售业者了解客户的消费行为，譬如哪些产品客户会一起购买，或是客户在买了某一样产品之后，在多久之内会买另一样产品等等。利用Data Mining，零售业者可以更有效的决定进货量或库存量，或是在店里要如何摆设货品，同时也可以用来评估店里的促销活动的成效。客户关系的管理是 Data Mining 的另一个常见的应用方式。我们可以由一些原本是我们的客户，后来却转而成为我们竞争对手的客户群中，分析他们的特征，再根据这些特征到现有客户数据中找出有可能转向的客户，然后公司必须设计一些方法将他们留住，因为毕竟找一个新客户的成本要比留住一个原有客户的成本要高出许多。近来电话公司、信用卡公司、保险公司、股票交易商、以及政府单位对于诈欺行为的侦测(Fraud Detection)都很有兴趣，这些行业每年因为诈欺行为而造成的损失都非常可观。Data Mining可以找出可能的诈欺交易，减少损失。财务金融业可以利用Data Mining来分析市场动向，并预测个别公司的营运以及股价走向。 Data Mining 的另一个独特的用法是在医疗业，用来预测手术、用药、诊断、或是流程控制的效率。下面是一些 Data Mining 的在科学、行销、工业、商业、体育等各方面运用的类型：在财务金融方面，预测市场动向，防范犯罪诈欺。分析客户的行为，可以让您看出您的客户是不是准备要转向您的竞争对手。数据挖采中的前后行为分析(Sequen ti al Pa tt ern De tec tion)功能让您分析那些已经转向您的竞争对手的客户在转向期间的行为，如此您就可以在现有客户中找到可能转向的客户，想办法留住他们。数据挖采可以帮您找出从前的一些信用不良的客户的特征，而从这些特征您就可以从现有客户中找出可能有不良信用的客户，防止产生坏账，也可以过滤这些人成为您的客户。数据挖采中的客户分类(Segmen tat ion)功能，可以让您更了解您所服务的客户，这样您就可以设计更好的产品来满足您的客户的需求。商业智慧所要解决的问题还包括如何减低诈欺或不实的申报(Fraud)。利用资料挖采的技术，您可以在特定的客户群中找出可能的诈欺行为，如此才能减少损失，增加利润。如果采用不同的价格策略，是否能增加市场占有率？什么时候才是推出新产品的好时机？我们与竞争对手的优劣势如何？让我们获利高的客户们有什么共同的特征？当我们的客户要转向我们的竞争对手之前，是否有何前兆？如何认定客户的信用风险状况？如何设计更好的保险产品来吸引客户，让客户满意？一个经纪人在一个星期中应该可以卖出多少共同基金？于销售资料中，发掘顾客的消费习性根据以往审核的资料，找寻核发信用卡的规则在NBA球赛数据中，找出球员的强弱点从消费及缴费数据中，预警信用卡呆帐可能从通话记录数据中，预警盗打电话可能从宇宙飞船拍摄的影像数据，找寻星球上的火山星际星体分类Web Mining 和 Data Minin有什么不同？如果将Web视为CRM的一个新的Channel则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。该如何测量一个网站是否成功？哪些内容、优惠、广告是人气最旺的？主要访客是哪些人？什么原因吸引他们前来？如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素？以上种种皆属Web Mining分析之范畴。Web Mining不仅只限于一般较为人所知的log fi分析，除了计算网页浏览率以及访客人次外，举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等，只要由网络连结出的数据库够大够完整，所有Off-Lin可进行的分析，Web Mining都可以做，甚或更可整合Off-Lin及On-Line的数据库，实施更大规模的模型预测与推估，毕竟凭借因特网的便利性与渗透力再配合网络行为的可追踪性与高互动特质，一对一行销的理念是最有机会在网络世界里完全落实的。整体而言，Web Mining具有以下特性：1.资料收集容易且不引人注意，所谓凡走过必留下痕迹，当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的；2. 以交互式个人化服务为终极目标，除了因应不同访客呈现专属设计的网页之外，不同的访客也会有不同的服务；3. 可整合外部来源数据让分析功能发挥地更深更广，除了 log fi、lecookie、s 会员填表数据、在线调查数据、在线交易数据等由网络直接取得的资源外，结合实体世界累积时间更久、范围更广的资源，将使分析的结果更准确也更深入。利用Data Minin技术建立更深入的访客数据剖析，并赖以架构精准的预测模式，以期呈现真正智能型个人化的网络服务，是Web Mining努力的方向。Data Mining在 CRM中扮演的角色为何？CRM (Cus tomer Rela tionship Manage)是近来引起热烈讨论与高度关切的议题，尤其在直效行销的崛起与网络的快速发展带动下，跟不上 CRM 的脚步如同跟不上时代。事实上 CRM 并不算新发明，奥美直效行销推动十数年的 CO(Customer Ownership就是现在大家谈的CRM 一客户关系管理。Data Minin应用在CRM 的主要方式可对应在Gap Analysi之三个部分：针对Acquisition Gap可利用Customer Prof il找出客户的一些共同的特征，希望能藉此深入了解客户，藉由Cluster Analyst客户进行分群后再透过PatternAnalysi预测哪些人可能成为我们的客户，以帮助行销人员找到正确的行销对象，进而降低成本，也提高行销的成功率。针对Sales Gap可利用Basket Analys帮助了解客户的产品消费模式，找出哪些产品客户最容易一起购买，或是利用SequenceDiscover预测客户在买了某一样产品之后，在多久之内会买另一样产品等等。利用Data Minin可以更有效的决定产品组合、产品推荐、进货量或库存量，甚或是在店里要如何摆设货品等，同时也可以用来评估促销活动的成效。针对Retention Gap可以由原客户后来却转成竞争对手的客户群中，分析其特征，再根据分析结果到现有客户资料中找出可能转向的客户，然后设计一些方法预防客户流失；更有系统的做法是藉由Neural NetwortS据客户的消费行为与交易纪录对客户忠诚度进行Scoring勺排序，如此则可区隔流失率的等级进而配合不同的策略。CRM 不是设一个（080）客服专线就算了，更不仅只是把一堆客户基本数据输入计算机就够，完整的 CRM 运作机制在相关的硬软件系统能健全的支持之前，有太多的数据准备工作与分析需要推动。企业透过Data Minin可以分别针对策略、目标定位、操作效能与测量评估等四个切面之相关问题，有效率地从市场与顾客所搜集累积之大量资料中挖掘出对消费者而言最关键、最重要的答案，并赖以建立真正由客户需求点出发的客户关系管理。Data Mining 的进行步骤资料挖掘既然可以增加企业智慧，提升企业竞争优势，到底应该如何进行呢？根据 Glymour 等人的研究，提出一个参考的进行步骤如下：1. 理解数据与进行的工作2. 获取相关知识与技术(AcquisitiOn3. 融合与查核资料(In tegra tion and cheCking4. 去除错误或不一致的数据(Data cleaning5. 发展模式与假设(Model and hypo thesis developmen t6. 实际数据挖掘工作7. 测试与检核所挖掘的数据(Tes ting and verfic)tion8. 解释与使用数据(In terpre tat ion an)use从八个步骤来看，Data Minin牵涉大量的规划与准备，而从其它文献得知，专家声称高达80%的过程花在准备数据阶段,这包括表格的Join以及可能相当大量的数据转换。从这个角度看,Da ta Minin只是知识发掘过程中的一个步骤而已, 而达到这个步骤前还有许许多多的工作要完成。个案研究现在已经有相当数量的公司安装了数据挖采软件，以找出那些会造成利润差异的信息。1.完美的购物经验-英国 Safeway此个案研究探讨英国的Safeway如何运用Data Minin来从大量的数据中萃取商业信息。英国Safeway使用Intelligent M从数据中萃取商业知识，这是一个Data Minin可以成为企业的一部份的最佳范例。英国Safeway定义了明确并实际的目标，使用相当干净的数据源，进行Data Mining并且投注许多人力用以解读Data Minin的结果，并且采取实际的行动以善用Data Minin所发掘出来的信息。英国Safeway的年销售量超过一百亿美金，旗下的员工接近七万名，是英国第三大的连锁超级市场，提供的服务种类则达三十四种。该公司的信息部有两台 System/39（服务器，以平行的方式执行DB2，其中最大者每周要管理八百万笔交易，以及约 4TB 的磁盘储存容量。根据英国Safeway的信息总监迈克温曲指出，该公司在两年前就体会到必须要采用不同的方式来取得竞争上的优势。在英国市场运用传统的技术，如更低的价位、更多的店面、以及更多种类的产品，竞争已经越来越困难了，温曲先生说：大部份的竞争对手在价格以及产品范围方面都能与我们匹敌。由于土地以及扩充的成本，没有一家公司有足够的资源可以在扩充方面超越对手。温曲先生的说法是，这个问题的答案是：必须以客户为导向，而非以产品与店家为导向。这意味着我们必须更了解客户个人。为了达成这个目标，我们必须了解六百万客户所做的每一笔交易，以及这些交易彼此之间的关连性。换句话说，英国Safeway想要知道哪些种类的客户买了哪些种类的产品以及购买的频率，以建立个人导向的市场。（1）一把网住将资源集中在特定的问题上，并设定可达成的目标之后，英国Safeway在商业智慧过程（也就是Data Warehousing/Data Min过程）中的下一步，就是选择适当的数据来源，将客户的交易数据集中在Data Warehous中。为了达到这个目的，该公司开始发信用卡给客户，客户用这种信用卡结帐可以享受各种优惠，这种信用卡就成为该公司在 500家店面搜集六百万客户资料的网。这些客户的消费行为数据不断地被从主数据库中萃取出来，每周存在Data Warehous中（大约有500GB ），使用的平台则为执行Intelligent M的eRS/6000SP2oIBM声称该公司在1996推出的Intelligent M能提供Data Minin作业所需的完整环境，提供数据准备的设施，以及八种Data Minin技术，包括预测模型、数据分割、以及产品吸引力分析，当然还有图形化的结果显示。通常数据在存入Data Warehous之前，都必须经过各种仔细的转换（Data Cleansin），例如将标称值转换为数值、定义衍生的属性、以及去除空值（Null Values等等，这都要视应用而定。在英国Safeway的个案里，资料源为单一的交易处理系统，该公司对这些数据质量有足够的信心，而且该公司的目标仅在于大略的估计其客户是哪些人，所以Data Cleansi并不是主要的问题。在资料被存入Data Warehous之后，Intelligent M会根据客户的相关资料，将客户分为150类。然后再用Associa ti的技术来比较这些数据集合（这些数据包括交易数据以及产品数据），然后将列出产品吸引力的清单（例如在购买烤肉炭的客户中， 75%也会购买打火机燃料）。温曲先生指出，这些功能是连续发生的：并没有一位统计师在那里跑来跑去的说：你知道这件事吗？这个过程事实上是我们业务的一部份。（2）找出模式温曲先生的说法是，由于Data Minin的贡献，我们找出了超过人类概念范围的关连性。例如Intelligent M发现某一种奶酪产品虽然销售额排名第 209，可是消费额最高的客户中有 25%都常常买这种奶酪，这些客户可是英国Safewa y最不想得罪的客户。如果使用传统的分析方法的话，这种产品很快就会不卖了，可是事实上这种产品是相当重要的。英国Safeway也发现在28种品牌的橘子汁中，有8种特别受到欢迎。因此该公司得以重新安排货架的摆设，使得橘子汁的销量能够增加到最大。我可以举出数百种与客户购买行为有关的例子，温曲先生指出：这些信息实在是无价之宝。还有，英国Safeway在了解客户每次采购时会购买哪些产品以后，就可以利用Data Minin中的Sequence Discove的功能，以侦测出长期的经常购买行为。再将这些数据与主数据库的人口统计数据结合在一起，Safeway的行销部门就可以根据每个家庭的弱点，也就是在哪些季节会购买哪些产品的趋势，发出邮件。根据这些信息，温曲先生指出：我们在去年发出了一千两百万封完全根据个别状况设计的邮件，这在我们销售量的成长方面扮演了很重要的角色。有些Data Minin的结果会比较容易应用到实际上，有的则不然。针对这个事实，英国Safeway使用另外一种工具来筛选结果，也就是将Data Minin的结果再做Data Minin，以找出有显著兴趣的数据。这种工具虽然目前使用的人不多，可是等到Data Minin越来越普遍后，接受度应该会更高。英国Safeway采取的Data Minin方式可能是很典型的。该公司把焦点集中在这种技术的商业利益上，保持数据的品质，设定实际的目标，而利用其结果时采取的步骤虽然小，但是实用。换句话说，实际的Data Minin只是较大规模的商业智慧过程中的一小部份而已。2. MCI 通讯公司与其它电话公司一样，MCI想要保有最多的顾客。方法之一就是及时找出可能考虑换到竞争公司的顾客。如果做得到这一点，该公司就可以设法留下客户，例如提供特别的费率和服务。如何从数百万的顾客之中，找到你要维持的对象昵？ MCI的办法是彻底搜寻1亿 4千万笔市场家庭数据，而评估每一笔数据的属性，则高达一万个。这些特性包括收入、生活力式、过去通话习惯的详绌资料等。但是哪些特性的组合才是最需要观察的？且数据的范围要订在多少昵？账单月费快速减少，可能代表顾客完全背公司而去了，但是我们可以从顾客的国际电话中找到更精微的模式吗？或从顾客打电话绐客户服务专线的次数找到模式？为找出这个模式， MCI 定期启动该公司的 IBMSP/2 超级计算机该公司的数据仓储（data warehouse,以找出最显著的变项，并密切注意这个变项。到目前为止，在多次重复整理历史资料后，这台SP/2已经汇编出一套含22个详细而高度机密的统计性资料文件o MCI的信息主管LanceB.Boxer指出，没有数据挖采程序的话，不可能开发出任何统计数据文件。3. USWest 公司和其它电话公司一样，它也希望能找出有家用第二和第三条电话线的强烈需求的家庭。这些需求是为了家中的青少年、传真设备和个人计算机。但是除非电话公司可以完全确定新增线路会产生实质的利益，否则他们是不会把钱投资在一些特别区域的网络总机和电话干线的。甚且，US West说，他们打算精确的找出特定顾客，这些顾客不仅接受公司提供的初级服务，而且会持续使用第二条电话线路，时间久到让公司获有利润。为了找到这些人，US West使用一个叫做PALMS的程序。与该公司共同设计这套程序的有AT&T的NCR计算机部门，及拥有美国航空公司的AMR公司旗下的Sabre Decision Technolo部i|SS。PALMS的执行平白是威力强大的NCR 平行处理计算机。首先， PALMS 过滤美国凤凰城地区域数千笔顾客记录的样本数据，这动作花了数小时。每笔家庭记录内含的项目高达250个：收入阶层、每月的电话费、去年维修记录，及该家庭尝试使用并保有如电话等候等服务的历史纪录。最后，得到一个理想的潜在客户统计模型。然后，PALMS利用这个模型来搜寻数百万笔的顾客纪录一数据量几达一兆位。此程序在找出与其它数据的关系后，如每家的住址、US West的电话干线位置、各地总机的容量，即可辨识出一群潜在的顾客这些家庭符合该幙式，且 US West不必花费太多，就能够为这些家庭提供服务。US West从1996年11月4日到1997年1月初，进行首波DM活动。这次活动的回复率很高，与花费数百万美元的广播活动不相上下。 PALMS 甚至能够计算出DM活动什么时候会达到高峰，让电话公司在回复率降低前，先行减少DM 邮件。4. UltraGem 公司在旧金山创立的UltraGem公司，一直和一家不具名的银行，共同预估可调利率抵押贷款的获利率。UltraGem的软件先分析十万笔以上的贷款记录。数据的范围包括：顾客的年龄和邮政编码、贷款的来源、以及以及此次贷款是否从前一次的贷款转换而来。结果：产生了一组规则，这组规则可辨识出可能是最高获利率的贷款申请。这些结合各种变项而产生的规则，是人类智能无法计算出来的， UltraGem董事长StevenA.Ver如此说到。现在，该银行能够预测诸如谁能提早还款、谁可能拖延付款等因素，而藉此调整不同的利率与手续费。5. Wal-MartStores 公司由于该公司最先采用大量的交易数据厍，而改革了零售业。从1980年代起，Wal-Mart每晚从各分店收集了大量的收款机资料。但是，除了使用来自NCR公司强大的计算机，Wal-Mart一直无法使用所有的数据。面对7亿笔令人心生畏惧的潜在预测要计算每一次计算 2,700家分店个别的项目迫使他们把店面按区域划分，产品类别而分。去年，Wal-Mart已经把系统转换为由NeoVistaSolutions公司所提供的数据挖采系统。系统运用数百台处理器执行这项工作，协助Wal-Mart预测特定分店中，对某一单项产品的需求。而且它也改善了 Wal-Mart市场一购物篮分析的正确性。市场一购物篮分析的目的，在查看顾客上门时，倾向购买的产品组合。6. 国内的例子现在许多电信公司都开始往 Data-Mining 的方向走，中华电信、远传、台湾大哥大及东森电讯等，银行方面如中信银，花旗、汇丰都已经开始规划进行本身信息流及客户流的Data-Mining，网络方面像104人力银行，数博网，资商讯息亦开始从事 Data-Mining 的研究开发。但此方面国内才刚起步尚未有成功的例子传出；倒是卖工具的SAS,SPSS,NCR,STATISTICA,ORACLE等软件厂商有不错的业绩。卖铲子的能赚钱，买了铲子能不能挖掘到宝藏仍是未知数?除此之外，支持XML、强化数据仓储（Data Warehousin与）新增数据采矿（DataMining功能的Microsoft SQL Server 2即0将于十一月中旬问市，新增的XML与 HTTP支持简化数据存取功能，以及功能强大的数据采撷（Data Minin系统，将大幅强化数据所能提供的参考价值与可用性、存取效率与实时决策支持系统分析，让企业能以最低的成本建置完善的数据库。Data Mining 工具Da ta Miming的工具是利用数据来建立一些仿真真实世界的模式（Model）, 利用这些模式来描述数据中的特征（Patterns以及关系（Relatio）。这些模式有两种用处，第一，了解数据的特征与关系可以提供你做决策所需要的信息，譬如Association Modi!以帮助超级市场或百货店规画如何摆设货品。第二，数据的特征可以帮助你做预测，例如你可以从一份邮寄名单预测出哪些客户最可能对你的推销做响应，所以你可以只对特定的对象做邮购推销，而不必浪费许多印刷费邮寄费而只得到很少的回应。Data Mining 可以建立六种模式： Classificat、ioRnegressio、n Time Serie、sClusteringAssociation以及 Sequence Classificat以及 Regressio主要是用来做预测，而Associati与Sequence主要是用来描述行为（例如消费行为）Clustering 则是二者都可以用的上。1. ClassificationClassificat是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会被分类为几个少数的离散数值，例如将一组数据分为可能会响应或是可能不会响应两类）。Classificat常常被用来处理如前面说到的邮寄对象筛选的问题。我们会用一些已经分类的数据来研究它们的特征，然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的历史性数据，或是将一个完整数据库做部份取样，再经由实际的运作来测试；譬如利用一个大的邮寄对象数据库的部份取样来建立一个 Classification Mqc以后再利用这个Model来对数据库的其它数据或是新的数据作预测。Classificat通常会牵涉到两种统计方法：Logis tic Regres以及 Discriminant Analysis 然而因为 Data Minin已渐普遍，所以 Neural Net以及 Decision Tr也渐渐受到采用。虽然这些统计方法本身都十分复杂，但使用者并不会牵涉到这些繁杂的统计。Neural Net使用许多参数（每个参数代表Net上的一个Node）来建立一个模式，这个模式接受一组输入值来预测出一个连续值或分类值。每一个节点（ Node）都是一个函数，这个函数是使用输入该节点的相邻节点值的加权总和(Weighted Sum )做运算。在建立一个模式的过程中，我们要用一些数据来喂给这个网络，训练它来找到一组能够产生最佳输出结果的加权值(WeightS。有一种最常用的训练法称为Back-Propagati，它是把输出结果与一个已知的正确结果相比。每次相比之后就产生另一组调整过的Weights然后再产生一个新的输出值再与该已知值相比。这个过程经过反复的执行后，这个Neural Ne就被训【练得能够相当正确的做预测了。可是Neural Ne有两个问题。首先，Neural Ne最受质疑的是它的暧昧不明的特性，也就是它做的预测所根据的因素并不明确。第二，NeuralNet对测试数据可以做相当正确的预测，但是对真实数据预测的准确性则较差。但是现在已经有一些新的技术可以改正这个缺点。Decision Tr则是利用一系列的规则来得到一个类别或数值。例如，你想把申请贷款的人归类成风险高与风险低两种。有了这个Decision Tr，e银行的放款人员就可以审查申请人的条件，决定该人是属于高风险或低风险群。例如收入高于 40000而且高负债的人会被归为高风险之类，而收入低于 40000而且工作超过 5 年则会被归为低风险之类。 Decision Tree 现在相当普遍，因为它所做的预测相当正确，而且又比 NeuralNet 容易了解。 Decision Tr与Neural Ne也可以用来做Regression某些种类的Neural Ne甚至可以用来做ClusteringDecision Trees2. RegressionRegression!使用一系列的现有数值来预测一个连续数值的可能值。3. Time-Series ForcastingTime-Series Forca与iR觀ressio很像，只是它是用现有的数值来预测未来的数值。Time-SerieForcastin的不同点在于它所分析的数值都与时间有关。 Time-SerieForcas tin的工具可以处理有关时间的一些特性，譬如时间的阶层性（例如每个礼拜五个或六个工作天）、季节性、节日、以及其它的一些特别因素如过去与未来的关连性有多少。4. ClusteringClus terii是将数据分为几组，其目的是要将组与组之间的差异找出来，同时也要将一个组之中的成员的相似性找出来oClusteri与Classificat不）同的是，你不晓得它会以何种方式或根据什么来分类。所以你必须要有一个分析师来解读这些分类的意义。5. AssociationAssociati是要找出在某一事件或是数据中会同时出现的东西。Association主要是要找出下面这样的信息：如果It emA是某一事件的一部份，则It emB也出现在该事件中的机率有X%。（例如：如果一个顾客买了低脂奶酪以及低脂优酪乳，那么这个顾客同时也买低脂牛奶的机率是 85%。）6.Sequence DiscoverySequence Discov与yAssociati关系很密切，所不同的是 Sequence Discovery 中相关的Item是以时间区分开来（例如：如果做了 X手术，则Y病菌在手术后感染的机率是 45%。又例如：如果 A 股票在某一天上涨 12%，而且当天股市加权指数下降，则 B 股票在两天之内上涨的机率是 68%）。有一点很重要的是，没有一种Data Mining的工具可以应付所有的要求。对于某一种问题，数据本身的特性会影响你所选用的工具。所以你可能会需要用到许多不同的工具以及技术从数据中找到最佳的模式。在产学界合作下，近二年有惊人的发展，而各种工具只在某些领域下有特别的效能，也就是说尚无适用所有业种、用途的工具问世。以下介绍一般常用的工具分类，列于下表：1. Case-BasedReasoning2. DataVisualization3. FuzzyQueryandAnalysis4. KnowledgeDiscovery5. NeuralNetworks表 Data mining 分析工具Data mining to ols定义代表性产品Case-basedReasoning在关系型数据库中提供个Means 找出record以发现类似规范的记录或一般记录1. CBR Express2. Es teen3. Ka te-CBR4. The Easy ReasonerDataVisualization其目标是从不同的角度，让信息以图形方式呈现，让使用者容易和快速的使用。这工具把不同数据次集合，或不同汇总性数据，让使使用者快速的了解。1. A lt erian2. AVS/Express3. Visualiza tionEdition4. Axum5. Discovery6.SPSS Diamond7.Visual Insigh tFuzzy Query andAnalysis模糊理论积极的承认人主观性问题的存在，进而以模糊集合来处理不易量化问题，故能找出意想不到的信息。模糊理论发展的工具能使使用者容易导入既定的标准中，而此种工具最大用途是，当使用者要查核多重标准，以及要改变每一种标准时。1. CubiCalc2. FuziCalc3. Fuzzy TECH for business4. Ques tKnowledgeDiscovery这些工具特别设计以便确认那些已存在变量间的显著关系，也就是当它们有可能多重关系时，特别有用

展开阅读全文

数据挖掘与统计工作

最新文档