资源描述
大数据时代的 数据挖掘与商务智能,1,大 纲,大数据的时代背景 商务智能与数据科学 基于统计的传统数据分析技术 数据管理系统与联机分析处理 数据挖掘与知识发现技术 典型应用及案例分析,2,第二部分 商务智能与数据科学,3,商务智能概论,什么是商务智能? 数据、信息、知识 管理、信息与决策 决策支持系统,4,什么是商务智能?,商务智能(BI)定义众说纷纭。 高级管理人员信息系统(EIS) 管理信息系统(MIS),决策支持系统(DSS) 数据库技术,数据仓库(数据集市) 数据整合与清洗工具 查询和报告工具,在线分析处理工具(OLAP) 统计数据分析,数据挖掘 分析性ERP、CRM、SCM。 企业绩效管理,平衡记分卡,5,商业智能Gartner,商业智能的概念于1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。,6,什么是商务智能?,商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。 ,7,企业,企业这里用“组织机构”或“实体”会显得更完整,因为所有的组织机构和实体(不只是企业)都可以而且应该利用商务智能;之所以仍用“企业”是为保持与“商务”的一致性。各行各业,包括非企业性机构,比如政府部门、教育机构、医疗机构和公用事业等,都应该而且能够利用商务智能。,8,现代信息技术,利用现代信息技术这是这一定义中的关键之一,IT的发展产生了信息经济和信息社会,在这一新型的经济和社会形态中,信息的爆炸式激增又产生了对能够处理和控制信息的新技术的强烈需求;商务智能就是新的IT在商务分析中的有效利用。 BI过程中所涉及的IT主要有:从不同的数据源收集的数据中提取有用的数据,对数据进行清理以保证数据的质量,将数据经转换、重构后存入数据仓库或数据集市(这时数据变为信息),然后寻找合适的查询、报告和分析工具和数据挖掘工具对信息进行处理(这时信息变为辅助决策的知识),最后将知识呈现于用户面前,转变为决策。,9,收集数据,收集收集数据是管理和分析数据的前提,数据收集工作是十分重要的,必须引起企业的充分重视,在这方面中国企业与世界上发达国家中的先进企业之间的差距非常大,这是商务智能在中国还不能很快成熟起来的重要原因之一, 这应了中国的一句俗话:“巧妇难为无米之炊”。 数据和信息的收集主要是通过各种交易系统进行的,比如ERP、CRM、SCM和E-Business等系统。随着中国企业在这些方面的进步,数据和信息的数量会快速增长的。另外,信息,特别是非结构化的信息,来自公司各个部门和各个员工创造和收集的、没有放在上述交易系统中的内容。第三方也是企业收集数据和信息的一个重要来源,这样的外部数据和信息包括市场调研报告、人口统计报告、顾客信用报告等。,10,管理和分析数据,管理这里的“管理”主要是指对数据的储存、提取、清洗、转换、装载、整合等工作,其目的主要是为了提高数据的质量和安全性。 分析“分析”是一个广泛的概念,这里包括数据查询、数据报告、多维分析、数据挖掘、高级统计分析等。大多数人理解的商务智能都集中在这些分析工具上。,11,结构化与非结构化数据,结构化结构化的数据主要是指储存于各个交易系统背后的关系型数据库中的数据,通常都是以表格的形式存在和展现的。传统的商务智能概念只包括这种结构化的、可定量的数据。 非结构化的非结构化的数据和信息主要是上面的提到的各个部门和各个员工创造和收集的、没有放在各种交易系统中的内容,通常是以零散的文件形式存在和展现的;新的商务智能概念纳入了非结构化内容的分析,但是非机构化的内容的管理仍然主要是通过文件管理和内容管理(Document Management & Content Management)软件来进行的。,12,商务数据和信息,商务数据和信息并不能加以狭隘的理解,这里所致的商务数据和信息包括一切可能对商务产生影响的、直接和间接的数据和信息,往小里说包括顾客的名字、地址和电话号码等,往大里说包括过国际上的政治、经济、文化和军事情况等。,13,商务智能的目的,创造和累计商务知识和见解这是商务智能的第一层的目的和功能, 也是最直接的目的和功能;“知识和见解”正是“智能”得名的由来。 改善商务决策水平这是商务智能的更高一层的目的和功能,企业能否利用好这一功能、实现这一目的在很大程度上取决于领导者的意识和胸襟以及企业文化中决策科学化和民主化的成分。,14,商务行动与商务流程,采取有效的商务行动采取有效的商务行动是创造和累计商务知识和见解、改善商务决策水平的目的和动力。商务智能是能够指导实战的高明兵法,而不是“无所不知、但无能为力”的“纸上谈兵”。 完善各种商务流程残缺、散乱、僵化、低效的商务流程是企业的顽疾,商务智能能够为这一顽疾的诊断和治疗做出一定的贡献; 优化后自动化(请注意先后顺序)的商务流程反过来也会促进商务智能的发展。,15,商务绩效,提升各方面商务绩效这是商务智能在企业内部的最高目的和作用,有效的商务智能系统和技术能够帮助企业提升各个方面的绩效:财务的和非财务的,前台的和后台的,企业内的和供应链内的,组织的和个人的。企业绩效管理已成为热门的管理和技术概念,这既是因为各种软件厂商的推动又是因为企业所面临的绩效方面的压力的增大。,16,综合竞争力,增强综合竞争力这是商务智能在企业中的最高目的和作用。商务智能事关企业的兴衰成败和生死存亡。如今以及未来企业之间的竞争是主要是综合智能上的竞争,不管是中国企业还是外国企业,不管是国营企业还是民营企业,不管是大企业还是小企业,都必须提高企业经营和竞争活动中的智能水平,争取成为优秀的智能企业,否则一定会落后于智能上高人一等、捷足先登的企业。 智慧和能力把商务智能分为智慧和能力是因为真正的商务智能既有思想层面也有行动层面(而且“智能”本身可以一分为二、二合为一)。,17,商务智能软件发展前景,根据Gartner公司的报告,2007年全球BI(商业智能)软件市场份额达到了51亿美元,比2006年增加了13%。 最大的赢家是那些大的软件厂商,如SAP、IBM、Oracle和Microsoft,它们总的市场份额从2006年的20%,增加到2007年的66%。这种急剧增长主要是通过并购来实现的。在2007年1月份,SAP收购了BO(Business Object),IBM收购了Cognos。在2007年3月份,Oracle则收购了Hyperion。 合并之后,SAP和BO排名第一,占据了全球26.3的BI软件市场,比第二名(IBM和Cognos,市场份额为14.7%)高出了将近一倍。SAS为第三名,市场份额为14.5%。下表中的排名与此不同,是因为有些并购直到2008年才最终完成。,18,Gartner发布 商务智能魔力象限,19,Gartner发布 客户数据挖掘魔力象限,20,数据、信息与知识,每时每刻,我们身边都充满了各种各样的数据。但只有将这些杂乱无章的数据,转换为信息和知识,才能帮助我们做出聪明的选择。 由于数据、信息与知识三者之间有着密切的相关性,他们常被混淆使用。我们将重点对数据、信息与知识进行分析和对比。,21,数据(Data),数据泛指对客观事物的数量、属性、位置及其相互关系的抽象表示,以适合于用人工或自然的方式进行保存、传递和处理。 例如,水的温度是100,礼物的重量是500克,木头的长度是2米,大楼的高度时45层。在这些表述中:100;500克;2米;45层就是数据。 数据的表现形式是多种多样的,除了数字,数据还以图像、声音、文字等形式表现出来。,22,信息(Information),信息是指有一定含义的、经过加工处理的、对决策有价值的数据。 信息数据处理 信息是有意义的数据,是被赋予相关性和目的性的数据。例如,人口的分布情况、降雨量分布情况等。 可以用专门的信息管理系统对各类信息进行管理。信息管理系统的最基本功能就是数据收集和数据处理。,23,知识(Knowledge),知识是信息基础上的又一次升华,是浓缩的系统化了的信息。需要通过信息,使用归纳、演绎的方法得到。知识只有在经过广泛深入地实践检验,被人消化吸收,并成为了个人的信念和判断取向之后才能成为知识。 知识信息+理解(understanding)与推理(reasoning)解决问题的技能(skill) 决策支持系统、专家系统、案例推理系统是对人类知识的利用,而智能数据分析是获得隐含在数据信息中的知识。 OECD 1990s 知识分类 3W+H,24,信息(Information)知识(Knowledge)与智慧(Wisdom),25,The Data Information Knowledge and Wisdom Hierarchy (DIKW),知识是从数据到智慧划分为不同层次的。,26,示例,数据:上季度产品A在华东地区销售额为120万。 信息:上季度产品A华东地区销售额比去年同期减少了25 %。 知识:如分析原因是华东地区销售单位不行,或产品A进入了衰退期,还是公司整体营销活动落后,竞争者强力促销导致?或是其它原因。针对这一问题公司应对的策略是什么? 智慧:应对的行动方案可能有多种,但(战略)选择哪个靠智慧。行动则又会产生新的交易数据。,27,管理与管理系统,管理是管理主体作用于管理客体的活动过程。随着科技的发展,管理及管理系统的信息化、网络化、智能化已越来越受到人们的广泛关注。 (信息)管理系统:数据处理系统、检索系统、计算机辅助系统、管理信息系统MIS、办公自动化系统OA、决策支持系统DSS、知识管理系统KMS等。,28,决策与信息,“决策” 一词的英语表述为decision-making,意思就是作出决定或选择。 当今是信息爆炸时代,重要的不是获得信息,而在于对信息的加工和分析,使之对决策有用。 决策者需要的是对决策有意义的新信息,决策者的注意力是一种最宝贵资源,不能无谓消耗在大量无关的信息上。 对信息的提供,就应当有一定条件的限制,不符合这些条件的信息,不应该输送给决策者。所以信息系统应该包括一个筛选系统,以保证提供与决策有关的有用信息。,29,国民经济和社会的信息化,社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史,因此政府提出 “信息化”和“发展软件产业”,30,数据分析与挖掘,有许多预测机构和名人都看好数据分析技术对未来科学技术的影响,对市场所占有的份额有乐观的估计。 世界有名的Gartner Group咨询公司预计:不久的将来先进大型企业会设置“统一数据分析专家”, 数据分析的应用一定会扩展开来! 微软专家也认为数据分析与挖掘会成为21世纪的重要技术之一,也有研究小组。在微软亚洲研究院(,31,数据分析与挖掘概况,一些技术的发展也需要数据分析技术。 ERP(企业资源计划), SCM(物流与供应链管理), CRM(客户关系管理),BI(商务智能), 数据库, 数据仓库,知识管理 决策支持系统新的发展。 数据的大量积累,需求的多样性而发展起来。,32,数据分析与挖掘概况,数据分析与挖掘,有价值的知识,可怕的数据,33,数据分析与挖掘概况,数据爆炸,知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,34,应用需求,科学领域 生物医学数据 & DNA数据分析 空间数据分析 (GIS, GPS, 遥感系统) 商业领域 经济 & 金融数据分析 零售业数据分析 电信业数据分析 WWW数据分析,Necessity is the mother of invention(Plato),35,现代数据分析的特点,最大的特点:海量数据集(大数据) 美国零售商沃尔玛每天大约2千万笔的交易,一年的客户交易数据库容量超过11TB AT&T公司,1亿电话用户,每天3亿次的呼叫特征数据 美国宇航局NASA的地球观测系统每小时生成几个GB的原始数据 人类基因工程中超过3.3109个核苷酸的数据库 其它特点:较高维度,有噪声,属性值缺失,36,技术驱动,更大,更便宜的存储器 - 磁盘密度以Moores law增长 “每18个月增长一倍” - 存储器价格飞快下降 下降更快,更便宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的可视化技术 数据处理与分析技术 - 数据库与数据仓库 - 统计学 - 人工智能 - 机器学习,37,智能数据分析(1),Intelligent data analysis has its origins in various disciplines. Ststistics and machine learning is the most important two disciplines.(2003),38,智能数据分析(2),智能数据分析是指利用人工智能的方法对数据进行分析,力图从海量数据中挖掘出有用的信息,获取所需的知识。(2007),39,智能数据分析(3),智能数据分析技术是多种学科的交叉的产物。它是商业(企业)竞争需求和技术发展推动的结果。 个人观点:,40,数据科学的构成,计算机技巧 数学和统计知识 实质性的专业知识,41,42,数据科学家的能力,计算机能力:数据的获取和整理 数学和统计学能力:数据的挖掘 图形可视化:数据的提炼和展现,43,谢 谢 !,44,
展开阅读全文