资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,6,章 数据挖掘与商务智能技术,6.1,商务智能概述,6.1.1,商务智能技术的发展,商务智能的定义,商务智能是指透过资料的萃取、整合及分析,支持决策过程的技术和商业处理流程,其目的是为了使使用者能在决策的时候,尽可能得到更好的协助。,商务智能是运用数据仓库、在线分析和数据挖掘技术来处理和分析数据的技术,它允许用户查询和分析数据库,进而得出影响商业活动的关键因素,帮助用户做出更好、更合理的决策。,6.1,商务智能概述(续),6.1.1,商务智能技术的发展(续),商务智能的定义(续),商务智能是通过利用多个数据源的信息以及应用经验和假设,来促进对企业动态性的准确理解,以便提高企业决策能力的一组概念、方法和过程的集合。,商务智能是通过获取与各个主题相关的高质量和有意义的信息来帮助人们分析信息、得出结论、形成假设的过程。,6.1,商务智能概述(续),6.1.2,商务智能与管理决策,商务智能技术能够帮助企业实现商业信息收集和处理的自动化,以降低运营成本;,商务智能能够帮助企业真实地分析财务状况和盈利水平,规范企业的业务行为和管理行为,使企业的管理决策实现由人为经验型到科学决策型转变;,6.1,商务智能概述(续),6.1.2,商务智能与管理决策(续),使用商务智能可以使企业深入了解自己的客户并保持稳定的客户群;,商务智能的引人可以帮助企业整合这些集成应用系统,使这些相对独立、各自为战的系统发挥更大的作用,使数据信息得到更有效的利用。,6.1,商务智能概述(续),6.1.3,商务智能的大众化,6.1,商务智能概述(续),6.1.3,商务智能的大众化,6.1,商务智能概述(续),6.1.3,商务智能的大众化,纽约时报,是美国新闻界的领头羊和风向标。在,IT,技术的应用方面,它不惜重金。,2009,年,其,IT,研发部门宣布,将围绕实时分析、智能预测和用户互动三大,IT,技术来提高新闻发布和时事分析的质量。这三大技术,都在不同程度上涉及到商务智能。,6.2,商务智能过程,6.2.1,知识发现,知识发现的特征,知识模式是使用一种形式化语言来进行的表达,表达描述了事实集合的子集中的一种显著的事实。,通过某种知识发现方法得到一个顾客细分的结果子集为,41,岁顾客,,42,岁顾客,,48,岁顾客,,43,岁顾客,,64,岁顾客,,可以归纳为“,40,岁之上的顾客”或者“中年以上的顾客”等。,知识发现强调模式的有效性、新颖性、潜在有用性以及最终能被理解。,6.2,商务智能过程(续),6.2.2,知识发现过程,1,、理解所要进行研究的领域、与之相关的以前的知识、以及用户的目标;,2,、创建,/,选择目标数据集合;,3,、数据清理和预处理;,4,、数据缩减和投影;,5,、选定数据挖掘任务;,6,、选择数据挖掘算法;,7,、数据挖掘过程;,8,、对挖掘出来的模式进行解释;,9,、完善和巩固所发现的知识。,6.2,商务智能过,程,程(续),知识表达形,式,式与数据挖,掘,掘,数据挖掘方,法,法,分类分析,例如信用卡,用,用户可以分,为,为按时还款,客,客户和拖欠,还,还款客户等,。,。,回归分析,根据历年的,劳,劳动力水平,,,,总投资等,因,因变量来回,归,归得到与,GDP,有关的回归,模,模型方程,,进,进一步用以,预,预测。,关联规则,如“年轻顾,客,客会购买,Levis,牛仔裤”,,“,“购买,信息系统,一书的顾客,经,经常会购买,C,语言,一书”。,聚类分析,将相似的对,象,象聚集在一,起,起的一种分,析,析方法。,6.2,商务智能过,程,程(续),数据预处理,(,1,)数据集整,理,理,将相关的数,据,据都整理在,一,一个或多个,二,二维表中;,注意数据的,一,一致性以及,完,完整性。,(,2,)数据采样,通过随机采,样,样等方法从,海,海量数据中,抽,抽取少量的,记,记录;,采样只能在,记,记录维度上,,,,而不能在,属,属性维度上,。,。,(,3,)数据清洗,将不必要的,属,属性剔除;,修正或删除,有,有明显错误,和,和冲突的数,据,据;,识别异常值,。,。,6.2,商务智能过,程,程(续),数据预处理,(,(续),(,4,)缺失数据,处,处理,缺失值指的,是,是应该有但,却,却没有的数,据,据;,采用该属性,的,的平均值或,是,是众数替代,;,;,采取回归或,神,神经元网络,等,等技术来进,行,行计算和预,测,测相应的数,值,值;,利用软计算,方,方法来处理,缺,缺失值。,(,5,)初步统计,分,分析,描述均值,,中,中位数,众,数,数,最大值,,,,最小值,,标,标准差,数,据,据个数;,两两相关系,数,数、数据直,方,方图等。,6.3,数据挖掘方,法,法,分类,分类分析是,对,对对象的特,征,征进行分析,,,,并将之归,类,类到已定义,类,类中。,分类分析的,过,过程,首先,基于,训,训练数据集,,,,采用分类,算,算法来构造,分,分类器;,训练数据集,指,指一个已有,的,的数据集,,其,其中每条记,录,录都已经属,于,于一个已知,的,的类别中。,其次,使用,分,分类器对新,数,数据集进行,分,分类。,6.3,数据挖掘方,法,法(续),分类(续),分类分析的,评,评估标准,速度:即生,成,成和使用分,类,类器的计算,花,花费;,鲁棒性:即,给,给定噪音数,据,据,分类器,能,能够正确预,测,测的能力;,可伸缩性:,即,即在大量数,据,据规模时,,有,有效构造分,类,类器的能力,;,;,可解释性:,及,及通过训练,得,得到的分类,器,器可理解和,被,被解释的层,次,次和水平。,6.3,数据挖掘方,法,法(续),聚类,聚类分析是,将,将一个数据,对,对象的集合,按,按照某种标,准,准进行划分,,,,但是要划,分,分的类是未,知,知的。,一个聚类内,部,部的数据对,象,象按照该标,准,准具有极高,的,的相似性,,而,而类与类之,间,间的数据对,象,象的相似性,很,很低。如,猫,猫和狗、动,物,物和植物。,聚类分析软,件,件:,SPSS,、,SAS,等。,6.3,数据挖掘方,法,法(续),聚类(续),聚类的局限,性,性,对数据要求,严,严,要聚类,结,结果要明确,,,,就需分离,度,度很好的数,据,据。,所有聚类方,法,法分析的仅,是,是简单的一,对,对一的关系,,,,可能忽视,商,商务和经济,系,系统多因素,和,和非线性的,特,特点。,6.3,数据挖掘方,法,法(续),关联规则,大规模客户,交,交易数据库,中,中会存在着,数,数据项之间,所,所潜在的相,互,互关系的知,识,识模式。,如“年轻顾,客,客会购买,Levis,牛仔裤”,,“,“购买,信息系统,一书的顾客,经,经常会购买,C,语言,一书”等。,关联规则挖,掘,掘已经成为,商,商务智能中,引,引人注目且,发,发展相当迅,速,速的分支。,6.4,复杂类型数,据,据挖掘,空间数据挖,掘,掘,空间数据包,括,括:地图,,遥,遥感图片,,医,医学图像等,。,。,空间数据的,特,特点,包括距离、,位,位置、色块,、,、气温等信,息,息。,通常,按,按照,复,复杂,、,、多,维,维的,空,空间,索,索引,结,结构,组,组织,数,数据,。,。,6.4,复杂,类,类型,数,数据,挖,挖掘,(,(续,),),空间,数,数据,挖,挖掘,(,(续,),),空间,数,数据,挖,挖掘,是,是指,对,对空,间,间中,非,非显,式,式存,在,在的,知,知识,、,、空,间,间关,系,系或,其,其他,有,有意,义,义的,模,模式,等,等进,行,行提,取,取,,需,需要,综,综合,数,数据,挖,挖掘,与,与空,间,间数,据,据库,技,技术,。,。,例如,,,,通,过,过对,地,地质,断,断裂,带,带应,力,力分,析,析可,以,以推,断,断出,哪,哪些,地,地方,近,近期,发,发生,地,地震,的,的概,率,率较,高,高,,这,这个,挖,挖掘,过,过程,中,中,,不,不但,需,需要,对,对地,址,址断,裂,裂带,的,的地,理,理位,置,置数,据,据进,行,行处,理,理,,还,还需,要,要结,合,合地,震,震历,史,史数,据,据和,时,时间,数,数据,进,进行,挖,挖掘,。,。,6.4,复杂,类,类型,数,数据,挖,挖掘,(,(续,),),多媒,体,体数,据,据挖,掘,掘,多媒,体,体数,据,据包,括,括:,音,音频,数,数据,、,、视,频,频数,据,据、,图,图像,数,数据,等,等。,典型,的,的多,媒,媒体,数,数据,库,库系,统,统包,括,括,GoogleEarth,,百,度,度图,像,像,,人,人类,基,基因,数,数据,库,库等,。,。,如在,反,反恐,档,档案,和,和追,踪,踪系,统,统中,,,,应,用,用恐,怖,怖份,子,子图,像,像查,询,询和,搜,搜索,,,,音,频,频匹,配,配与,语,语音,识,识别,等,等方,面,面。,6.4,复杂,类,类型,数,数据,挖,挖掘,(,(续,),),时序,数,数据,和,和序,列,列数,据,据挖,掘,掘,时序,数,数据,库,库是,指,指由,随,随时,间,间变,化,化的,序,序列,值,值或,事,事件,组,组成,的,的数,据,据库,,,,即,每,每个,数,数据,对,对象,都,都有,一,一个,相,相应,的,的时,间,间属,性,性值,。,。如,,,,股,票,票市,场,场的,每,每日,行,行情,等,等。,时序,数,数据,库,库和,序,序列,数,数据,库,库挖,掘,掘的,主,主要,内,内容,包,包括,趋,趋势,分,分析,,,,相,似,似性,搜,搜索,以,以及,序,序列,模,模式,挖,挖掘,。,。,6.4,复杂,类,类型,数,数据,挖,挖掘,(,(续,),),文本,数,数据,挖,挖掘,文本,数,数据,来,来自,各,各种,数,数据,源,源,,如,如新,闻,闻文,章,章、,研,研究,论,论文,、,、电,子,子书,籍,籍、,电,电子,邮,邮件,和,和,Web,页面,等,等。,文本,数,数据,库,库中,存,存储,最,最多,的,的数,据,据是,半,半结,构,构化,数,数据,,,,它,既,既不,是,是完,全,全结,构,构化,的,的也,不,不是,完,完全,无,无结,构,构。,例如,,,,一,个,个电,子,子邮,件,件中,即,即包,括,括标,题,题、,作,作者,、,、出,版,版日,期,期、,长,长度,和,和时,间,间等,结,结构,化,化数,据,据,,也,也会,包,包含,大,大量,非,非结,构,构化,数,数据,内,内容,,,,如,内,内容,文,文本,和,和摘,要,要等,。,。,Google,和百,度,度搜,索,索引,擎,擎就,是,是典,型,型的,文,文本,挖,挖掘,的,的系,统,统应,用,用。,6.4,复杂,类,类型,数,数据,挖,挖掘,(,(续,),),网络,挖,挖掘,网络,数,数据,特,特点,:,:复,杂,杂性,更,更大,,,,网,络,络数,据,据具,有,有极,强,强的,动,动态,性,性,,用,用户,需,需求,多,多种,多,多样,。,。,网络,数,数据,挖,挖掘,应,应用,网页,有,有效,排,排序,链接,结,结构,挖,挖掘,Web,文档,的,的自,动,动分,类,类和,组,组织,Web,记录,挖,挖掘,6.5,商务,智,智能,应,应用,与,与发,展,展趋,势,势,商务,智,智能,的,的决,策,策考,量,量,应用,商,商务,智,智能,需,需要,考,考虑,的,的因,素,素,要根,据,据企,业,业自,身,身的,特,特点,考,考虑,是,是否,应,应用,商,商务,智,智能,技,技术,,,,以,及,及构,建,建怎,样,样的,商,商务,智,智能,系,系统,,,,切,忌,忌盲,目,目
展开阅读全文