物联网导论--第13章_物联网中的智能决策v1135

上传人:321****fg 文档编号:245582684 上传时间:2024-10-09 格式:PPTX 页数:35 大小:1.32MB
返回 下载 相关 举报
物联网导论--第13章_物联网中的智能决策v1135_第1页
第1页 / 共35页
物联网导论--第13章_物联网中的智能决策v1135_第2页
第2页 / 共35页
物联网导论--第13章_物联网中的智能决策v1135_第3页
第3页 / 共35页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,13,章,物联网中的,智能决策,内容提要,智能决策,是物联网“,智,智慧”的来,源,源。,本章将介绍,数,数据挖掘的,基,基本流程,,基,基本类型和,典,典型算法。,第,12,章介绍了搜,索,索引擎的相,关,关知识,搜索引擎的,基,基本组成,搜索引擎的,体,体系结构(,信,信息采集,,索,索引技术,,搜,搜索服务),物联网中搜,索,索引擎的挑,战,战,本章介绍,数据挖掘的,基,基本流程,(预处理,,数,数据挖掘,,知,知识评估与,表,表示),重,点,点介绍,几种典型的,数,数据挖掘算,法,法,,最后讨论,物联网中智,能,能决策的新,特,特点,。,内容回顾,13.1,数据挖掘概,述,述,13.2,数据挖掘的,基,基本类型和,算,算法,*,13.3,智能决策与,物,物联网,什么是数据,挖,挖掘?数据,挖,挖掘有哪三,个,个步骤?,本章内容,13.1,数据挖掘概,述,述,数据挖掘,(,DataMining,),从大量,数据,中获取潜在,有,有用的并且,可,可以被人们,理,理解的,模式,的过程,是一个,反复迭代,的,人机交互和,处,处理,的过程,历,经,经多个步骤,,,,并且在一,些,些步骤中需,要,要由用户提,供,供决策,数据挖掘的,过,过程:,数据预处理,、,、数据挖掘,和,和对挖掘结,果,果的评估与,表,表示,每一个阶段,的,的输出结果,成,成为下一个,阶,阶段的输入,13.1,数据挖掘概,述,述,数据挖掘的,过,过程,数据预处理,阶,阶段,数据准备:,了,了解领域特,点,点,确定用,户,户需求,数据选取:,从,从原始数据,库,库中选取相,关,关数据或样,本,本,数据预处理,:,:检查数据,的,的完整性及,一,一致性,消,除,除噪声等,数据变换:,通,通过投影或,利,利用其他操,作,作减少数据,量,量,数据挖掘阶,段,段,确定挖掘目,标,标:确定要,发,发现的知识,类,类型,选择算法:,根,根据确定的,目,目标选择合,适,适的数据挖,掘,掘算法,数据挖掘:,运,运用所选算,法,法,提取相,关,关知识并以,一,一定的方式,表,表示,知识评估与,表,表示阶段,模式评估:,对,对在数据挖,掘,掘步骤中发,现,现的模式,(,知识,),进行评估,知识表示:,使,使用可视化,和,和知识表示,相,相关技术,,呈,呈现所挖掘,的,的知识,13.1,数据挖掘概,述,述,数据挖掘的,过,过程,13.1,数据挖掘概,述,述,13.2,数据挖掘的,基,基本类型和,算,算法,*,13.3,智能决策与,物,物联网,数据挖掘的,基,基本类型和,算,算法有那些,?,?,本章内容,13.2,数据挖掘的,基,基本类型和,算,算法,数据挖掘的,基,基本类型,关联分析,(Association Analysis),聚类分析,(Clustering Analysis),离群点分析,(Outlier Analysis),分类与预测,(ClassificationandPrediction),演化分析,(EvolutionAnalysis),描述性,挖掘任务:,刻,刻划数据库,中,中数据的一,般,般特性,预测性,挖掘任务:,在,在当前数据,上,上进行推断,和,和预测,关联分析,关联分析,的目标是从,给,给定的数据,中,中发现频繁,出,出现的模式,,,,即,关联规则,关联规则,通常的表述,形,形式是,XY,,表示“数,据,据库中满足,条,条件,X,的记录,(,元组,),可能也满足,条,条件,Y”,以某电器商,场,场销售记录,为,为例:,含义:,4%(,支持度,),的顾客的年,龄,龄在,20,至,29,岁且月收,入,入在,3000,至,5000,元,且这,样,样的顾客,中,中,,65%(,置信度,),的人购买,了,了笔记本,电,电脑,关联分析,挖掘关联,规,规则,需,要,要,置信度,和,支持度,越高越好,基本概念,项集,:满足若,干,干条件的,数,数据项的,集,集合,如,果,果条件数,为,为,k,,则称,k,-,项集,满足年龄,(,顾客,“2029,”,”),的项集是,1-,项集,满足年龄,(,顾客,“2029,”,”),收入,(,顾客,“30005000,”,”),的项集是,2-,项集,计算步骤,首先找到,具,具备足够,支,支持度的,项,项集,即,频繁项集,然后由频,繁,繁项集构,成,成关联规,则,则,并计,算,算置信度,关联分析,如何寻找,频,频繁项集,Apriori,算法,基本思想,:,:,利用已求,出,出的,k,-,项集来计,算,算,(,k,+1)-,项集,首先计算,频,频繁,1-,项集,然后根据,两,两个频繁,k,-,项集,p,1,p,2,.,p,k,,,q,1,q,2,.,q,k,计算频繁,(k+1)-,项集,其,中,中,p,i,=,q,i,,,1=,i=k,-1,,且该,(,k,+1)-,项集为,p,1,p,2,.,p,k,q,k,最后判定,该,该,(,k,+1)-,项集是否,频,频繁即可,缺点:,可能产生,大,大量候选,项,项集,并,需,需要重复,地,地扫描数,据,据库,FP-Growth,算法,利用树状,结,结构保存,项,项集,从,而,而减小了,计,计算频繁,项,项集所需,的,的存储空,间,间,关联分析,如何由频,繁,繁项集构,造,造关联规,则,则,并计,算,算置信度,关联规,AB,的置信度,其中,count(AANDB),为满足条,件,件,A,以及,B,的数据项,数,数目,,count(A),为满足条,件,件,A,的数据项,数,数目,计算步骤,对于每一,个,个频繁项,集,集,S,,计算,S,的所有非,空,空子集,对于每个,S,的非空子,集,集,F,,若,大,大于给,定,定置信度,阈,阈值,则,得,得到一个,关,关联规则,分类和预,测,测,分类和预,测,测,的目标是,找出描述,和,和区分不,同,同数据类,或,或概念的,模,模型或函,数,数,,以便能,够,够使用模,型,型预测数,据,据类或标,记,记未知的,对,对象,所获得的,分类模型,可以采用,多,多种形式,加,加以描述,输,输出,分类规则,判定树,数学公式,神经网络,分类与预,测,测的区别,:,:,分类通常,指,指预测数,据,据对象属,于,于哪一类,,,,而当被,预,预测的值,是,是数值数,据,据时,通,常,常称为预,测,测,分类和预,测,测,以,判定树,方法为例,,,,简要介,绍,绍分类的,基,基本步骤,和,和结果表,示,示,问题实例,:假定商,场,场需要向,潜,潜在的客,户,户邮寄新,产,产品资料,和,和促销信,息,息。客户,数,数据库描,述,述的客户,属,属性包括,姓,姓名、年,龄,龄、收入,、,、职业和,信,信用记录,。,。,我们可以,按,按是否会,在,在商场购,买,买计算机,将,将客户分,为,为两类,,只,只将促销,材,材料邮寄,给,给那些会,购,购买计算,机,机的客户,,,,从而降,低,低成本。,分类和预,测,测,用于预测,客,客户是否,可,可能购买,计,计算机的,判定树,,其中,每个非树,叶,叶节点,表示一个,属性上的,测,测试,,,每个树叶,节,节点,代表,预测结果,分类和预,测,测,如何构造,上,上述判定,树,树?,基本概念,:,:,n,个客户中,有,有,a,个购买了,计,计算机的,期望信息,建立树节,点,点时,选,取,取合适的,判,判定属性,,,,以,最大化期,望,望信息增,益,益应,某种属性,上,上的信息,增,增益大小,反,反映了该,属,属性区分,给,给定数据,的,的的能力,强,强弱,10,条客户记,录,录,其中,6,人购买了,计,计算机,,4,人没有购,买,买。这,10,位客户中,有,有,3,人的职业,是,是学生,,其,其中有,2,人购买计,算,算机,而,非,非学生客,户,户购买计,算,算机的有,4,人。在选,择,择区分属,性,性以前,,数,数据的期,望,望信息为,,,,用职业,区,区分之后,的,的期望信,息,息为,,,,则选,择,择职业作,为,为区分属,性,性的信息增益为,聚类分析,聚类的目,的,的是,将数据对,象,象划分为,多,多个类或,簇,簇,,在同一,个,个簇中的,对,对象之间,具,具有较高,的,的相似度,,,,而不同,簇,簇中的对,象,象差别较,大,大,聚类与分,类,类的区别,:,:,要划分的,类,类是事先,未,未知的,聚类分析,的,的应用,聚类分析,聚类分析,的,的方法,划分方法,:要求事,先,先给定聚,类,类的数目,k,。首先创,建,建一个初,始,始划分,,然,然后通过,对,对划分中,心,心点的反,复,复迭代来,改,改进划分,。,。典型算,法,法包括,k,-means,算法和,k,-medoids,算法等,层次方法,:对给定,数,数据集合,进,进行逐层,递,递归的合,并,并或者分,裂,裂,因此,可,可以被分,为,为合并或,分,分裂方法,。,。合并方,法,法首先将,每,每个对象,都,都作为独,立,立的类,,然,然后持续,合,合并相近,的,的类,直,到,到达到终,止,止条件为,止,止。分裂,方,方法首先,将,将所有的,数,数据对象,置,置于一个,类,类中,然,后,后反复迭,代,代并判定,当,当前的类,是,是否可以,被,被继续分,裂,裂,直到,达,达到终止,条,条件为止,基于密度,的,的方法,:只要某,区,区域数据,密,密度超过,阈,阈值,就,将,将该区域,的,的数据进,行,行聚类。,其,其优势在,于,于噪音数,据,据下的抗,干,干扰能力,,,,并能够,发,发现任意,形,形状的聚,类,类,聚类分析,聚类分析,的,的方法(,续,续),基于网格,的,的方法,:把对象,空,空间量化,为,为具有规,则,则形状的,单,单元格,,从,从而形成,一,一个网格,状,状结构。,在,在聚类的,时,时候,将,每,每个单元,格,格当作一,条,条数据进,行,行处理。,优,优点是处,理,理速度很,快,快,因处,理,理时间与,数,数据对象,数,数目无关,,,,而只与,量,量化空间,中,中的单元,格,格数目相,关,关,基于模型,的,的方法,:如果事,先,先已知数,据,据是根据,潜,潜在的概,率,率分布生,成,成的,基,于,于模型的,方,方法便可,为,为每个聚,类,类构建相,关,关的数据,模,模型,然,后,后寻找数,据,据对给定,模,模型的最,佳,佳匹配。,主,主要分两,类,类:统计,学,学方法和,神,神经网络,方,方法,离群点分,析,析,离群点,(Outlier),:数据集,合,合中存在,的,的一些数,据,据对象,,它,它们与其,余,余绝大多,数,数数据的,特,特性或模,型,型不一致,寻找离群,点,点的意义,发现信用,卡,卡诈骗,。通过检,测,测购物地,点,点、商品,种,种类或者,购,购物金额,和,和频率,,能,能够发现,与,与绝大多,数,数正常消,费,费不一样,的,的记录,,这,这种行为,就,就有可能,属,属于信用,卡,卡诈骗性,使,使用,预防网络,诈,诈骗,。在网络,销,销售的时,候,候,诈骗,者,者往往冒,充,充商家,,出,出售报价,比,比正常价,格,格低出许,多,多的商品,,,,这样的,行,行为也是,可,可以通过,离,离群点分,析,析被找到,的,的,离群点分,析,析,寻找离群,点,点的方法,基于统计,的,的方法:,需要事先,已,已知数据,的,的分布或,概,概率模型,(,例如一个,正,正态分布,),,然后根,据,据数据点,与,与该模型,的,的不一致,性,性检验来,确,确定离群,点,点,基于距离,的,的方法:,不需要数,据,据模型,,而,而是将那,些,些没有足,够,够邻居的,数,数据对象,看,看作是离,群,群点,这,里,里的邻居,是,是基于距,给,给定对象,的,的距离来,定,定义的。,现,现有的基,于,于距离的,离,离群点探,测,测算法又,分,分为基于,索,索引的算,法,法,嵌套,循,循环算法,和,和基于单,元,元的算法,,,,其目的,都,都是为了,减,减小计算,和,和,I/O,开销,基于偏移
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!