数据挖掘课件

上传人:仙*** 文档编号:241431894 上传时间:2024-06-25 格式:PPT 页数:102 大小:751.50KB
返回 下载 相关 举报
数据挖掘课件_第1页
第1页 / 共102页
数据挖掘课件_第2页
第2页 / 共102页
数据挖掘课件_第3页
第3页 / 共102页
点击查看更多>>
资源描述
数据挖掘数据挖掘在智能信息系统中的应用研究在智能信息系统中的应用研究 吴渝吴渝重庆邮电学院计算机学院重庆邮电学院计算机学院2004.12目录目录n数据挖掘简介数据挖掘简介n数据挖掘研究数据挖掘研究n平台技术平台技术n海量数据挖掘海量数据挖掘n应用研究应用研究n电子邮件智能分析电子邮件智能分析n网络入侵检测网络入侵检测n研究展望研究展望2数据挖掘简介数据挖掘简介实例实例应用应用工具工具3什么是数据挖掘什么是数据挖掘n通过采用自动或半自动的手段,在海量数通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分据中发现有意义的行为和规则的探测和分析活动。析活动。n数据挖掘是从数据中自动地抽取模式、关数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构联、变化、异常和有意义的结构海量数据数据挖掘知识库4实例实例n全球最大的零售商沃尔玛(全球最大的零售商沃尔玛(Walmart):):星星期四、啤酒与尿布期四、啤酒与尿布n销售额上涨了销售额上涨了30n英国电信通过直邮的方式向客户推荐新产英国电信通过直邮的方式向客户推荐新产品品n使直回应率提高了使直回应率提高了100n汇丰银行分类客户群,对每种产品找出最汇丰银行分类客户群,对每种产品找出最有价值的客户有价值的客户n营销费用减少了营销费用减少了305应用举例应用举例n电信电信:客户流失:客户流失n百货公司百货公司/超市:购物篮分析超市:购物篮分析 n保险:交叉销售,流失保险:交叉销售,流失n信用卡:信用卡:欺诈探测欺诈探测n电子商务:电子商务:网站日志分析,个性化服务网站日志分析,个性化服务n税务部门:偷漏税行为探测税务部门:偷漏税行为探测n警察机关:犯罪行为分析警察机关:犯罪行为分析n医学:医学:医疗保健,病症原因分析医疗保健,病症原因分析6应用比例应用比例7商业工具:商业工具:SPSS Clementine8丰富的数据挖掘算法丰富的数据挖掘算法nPredictionNeural net,C5.0nClassificationNeural net,C5.0nSegmentationKohonen,Kmeans,C5.0nAssociationApriori,GRI,Web graphnSequenceCaprI,Neural Net,Regression9价格?价格?nSPSS Clementine 7.2 中文版校园方案中文版校园方案n租赁优惠租赁优惠买断优惠(台币)买断优惠(台币)n教授个人研究使用(教授个人研究使用(1人)人)n 225000395000(10万万RMB)n教学专用版(教学专用版(10人)人)n335000 595000 n教学专用版(教学专用版(25人)人)n 449000 795000(20万万RMB)1人民币 3.908台币10数据挖掘研究数据挖掘研究回顾回顾技术技术11数据挖掘历史回顾数据挖掘历史回顾n1989 IJCAI Workshop on Knowledge Discovery in Databases nKnowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)n1991-1994 Workshops on Knowledge Discovery in DatabasesnAdvances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)n1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining(KDD95-98)nJournal of Data Mining and Knowledge Discovery(1997)n1998 ACM SIGKDD,SIGKDD1999-2001 conferences,and SIGKDD ExplorationsnMore conferences on data miningnPAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.12相关技术相关技术 Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)Visualization13数据挖掘的不同视角数据挖掘的不同视角nDatabases to be minednRelational,transactional,object-relational,active,spatial,time-series,text,multi-media,heterogeneous,legacy,WWW,etc.nKnowledge to be minednCharacterization,discrimination,association,classification,clustering,trend,deviation and outlier analysis,etc.nTechniques utilizednDatabase-oriented,data warehouse(OLAP),machine learning,statistics,visualization,neural network,etc.nApplications adaptednRetail,telecommunication,banking,fraud analysis,DNA mining,stock market analysis,Web mining,Weblog analysis,etc.14预言模型文化(预言模型文化(PM)输出的是预言模型输出的是预言模型知识发现文化(知识发现文化(KD)输出的是规则输出的是规则数据挖掘文化数据挖掘文化n 共同点共同点n两种文化输入的都是学习集(两种文化输入的都是学习集(learning sets)n目的都是尽可能多的自动化数据挖掘过程目的都是尽可能多的自动化数据挖掘过程 n数据挖掘过程并不能完全自动化,只能半自动化数据挖掘过程并不能完全自动化,只能半自动化n举例说明举例说明n假设移动电话用户根据其转换到其他通信公司的风险,被分成低、假设移动电话用户根据其转换到其他通信公司的风险,被分成低、中、高三组中、高三组n一个数据挖掘系统可能抽取出一条规则,比如:一个数据挖掘系统可能抽取出一条规则,比如:“一天至少接到两一天至少接到两个电话的用户有低的更换率个电话的用户有低的更换率”。n一个预言模型可能给每个用户分配两个分数:一个分数在一个预言模型可能给每个用户分配两个分数:一个分数在0和和1之间,之间,表示用户可能更换通信公司的概率,另一个暗示该用户在下一年可表示用户可能更换通信公司的概率,另一个暗示该用户在下一年可能会给公司带来的利润。能会给公司带来的利润。15数据挖掘与标准化进程数据挖掘与标准化进程nCRISP-DM(CRoss-Industry Standard Process for Data Mining)n数据挖掘过程标准化数据挖掘过程标准化nXML(Extensible Markup Language)n与数据预处理相结合,表示数据与数据预处理相结合,表示数据nSOAP(Simple Object Access Protocol)n数据库与系统互操作的标准数据库与系统互操作的标准nPMML(Predictive Model Markup Language)n预言模型交换标准预言模型交换标准,,利用利用XML描述和存储数据挖掘模型描述和存储数据挖掘模型nOLE DB For Data Miningn数据挖掘系统基于数据挖掘系统基于API的接口,可算为通用数据挖掘语言的接口,可算为通用数据挖掘语言n2000年年3月,微软公司推出了一个数据挖掘语言月,微软公司推出了一个数据挖掘语言 16数据挖掘标准流程数据挖掘标准流程nCRISP-DM(CRoss-Industry Standard ProcessData Mining),),在在1996年制定,是当今数据挖掘业界通年制定,是当今数据挖掘业界通用流行的标准之一,用流行的标准之一,强调数据挖掘在商业中的应用,解强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域决商业中存在的问题,而不是把数据挖掘局限在研究领域n流程内容流程内容n商业理解商业理解n数据理解数据理解n数据准备数据准备n建立模型建立模型n模型评估模型评估n模型发布模型发布17数据挖掘流程数据挖掘流程n商业理解(商业理解(Business Understanding)n确定目标,对现有资源评估,确定问题是否能够通过确定目标,对现有资源评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制定数据挖数据挖掘来解决,确定数据挖掘的目标,制定数据挖掘计划掘计划n数据理解数据理解(Data Understanding)n确定数据挖掘所需要的数据,对数据进行描述,数据确定数据挖掘所需要的数据,对数据进行描述,数据的初步探索,检查数据的质量的初步探索,检查数据的质量n数据准备数据准备(Data Preparation)n选择数据,清理数据,对数据进行重建,调整数据格选择数据,清理数据,对数据进行重建,调整数据格式使之适合建模式使之适合建模18数据挖掘流程数据挖掘流程n建立模型(建立模型(Modeling)n对各个模型进行评价,选择数据挖掘模型,建立模型对各个模型进行评价,选择数据挖掘模型,建立模型n模型评估模型评估(Evaluation)n评估数据挖掘的结果,对整个数据挖掘过程的前面步评估数据挖掘的结果,对整个数据挖掘过程的前面步骤进行评估,确定下一步怎么办?是发布模型?还是骤进行评估,确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型对数据挖掘过程进行进一步的调整,产生新的模型n模型发布(模型发布(Deployment)n把数据挖掘模型的结果送到相应的管理人员手中,对把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型模型进行日常的监测和维护,定期更新数据挖掘模型19预言模型交换标准预言模型交换标准PMML20为什么需要为什么需要PMML?n模型交换模型交换n对于复杂的数据挖掘任务,需要应用不同的数据挖掘工具,因而对于复杂的数据挖掘任务,需要应用不同的数据挖掘工具,因而工具之间必须能够互相交换结果工具之间必须能够互相交换结果n模型部署(模型部署(deploy)n软件商能够更容易地将数据挖掘结果导入到其他支持这种标准的软件商能够更容易地将数据挖掘结果导入到其他支持这种标准的工具中。从发展的眼光看,需要将商业智能跨越在工具中。从发展的眼光看,需要将商业智能跨越在Ineternet上进上进行实施部署,行实施部署,PMML为这项功能提供了的基础。为这项功能提供了的基础。n独立性独立性n独立于平台、应用和操作系统,只定义模型描述,而不是模型执独立于平台、应用和操作系统,只定义模型描述,而不是模型执行的方法行的方法 n标准化标准化n标准化的模型描述就象标准化的模型描述就象HTML之于之于Internet一样,将开放模型的封一样,将开放模型的封闭性,开放数据挖掘行业。闭性,开放数据挖掘行业。21PMML优缺点优缺点n优点优点n描述数据挖掘模型的标准描述数据挖掘模型的标准 n在数据挖掘工具之间,以及数据挖掘工具和其他应用之间交换数在数据挖掘工具之间,以及数据挖掘工具和其他应用之间交换数据挖掘模型据挖掘模型 n数据挖掘工具外部一种存储模型的有效的方式数据挖掘工具外部一种存储模型的有效的方式 n将模型与数据和工具分离将模型与数据和工具分离 n用户易于编辑模型(作为用户易于编辑模型(作为XML文档,可以通过文本编辑器编辑)文档,可以通过文本编辑器编辑)n缺陷缺陷n当前,模型并没有真正实现与数据的分离,因为,在建模前需要当前,模型并没有真正实现与数据的分离,因为,在建模前需要经过大量的数据转换经过大量的数据转换 n没有被所有的数据挖掘软件商采纳没有被所有的数据挖掘软件商采纳 n对模型诊断(对模型诊断(diagnostics)和期望的性能度量没有规定和期望的性能度量没有规定 22数据挖掘平台研究与开发数据挖掘平台研究与开发n层次结构层次结构n数据挖掘数据挖掘+商业逻辑商业逻辑+行业应用行业应用n可扩展性的体系结构可扩展性的体系结构n软件结构软件结构n数据挖掘平台的应用数据挖掘平台的应用n针对行业的解决方案针对行业的解决方案n软件开发商二次开发软件开发商二次开发23层次结构:层次结构:数据挖掘数据挖掘+商业逻辑商业逻辑+行业应用行业应用数据挖掘算法层商业逻辑层行业应用层24可扩展性的体系结构可扩展性的体系结构探索数据仓库探索数据仓库模型库模型库行业应用行业应用知识知识数据挖掘应用服务器数据挖掘应用服务器行业客户端行业客户端信息系统数据挖掘应用服务器行业客户端数据挖掘应用平台数据挖掘应用平台25软件结构软件结构n供数据挖掘使用的数据仓库供数据挖掘使用的数据仓库nETL(抽取、转换、装载)工具抽取、转换、装载)工具n数据挖掘应用服务器数据挖掘应用服务器n数据挖掘应用服务器管理平台数据挖掘应用服务器管理平台n针对行业的分析平台针对行业的分析平台26数据挖掘平台针对行业的解决方案数据挖掘平台针对行业的解决方案信息系统数据源针对行业的数据挖掘应用模型使用27数据挖掘平台对软件开发商二次开发数据挖掘平台对软件开发商二次开发信息系统数据源软件产品:MIS、ERP、CRM模型使用原来的软件产品增加数据挖掘决策支持模块28基于粗糙集的智能数据分析平台基于粗糙集的智能数据分析平台nRIDAS:基于:基于Rough Set的研究平台,可的研究平台,可用于数据挖掘用于数据挖掘n开发:重庆邮电学院计算机科学与技术研开发:重庆邮电学院计算机科学与技术研究所究所29RIDAS功能功能 nComplete nDiscretization nAttribute reduction nValue reduction nAutomation nSample test nSample recognizing nGenerating rules from incomplete data set directly nTraining data collection nChecking history 30和其它系统比较和其它系统比较 AuthorChongqing Univ.of Posts&Telecomm.Norwegian Univ.of Sci&Tech.,NorwayUniv.of Ulster,N.IrelandNameRIDASRosetta (version 1.4.41)GROBIAN(testing version)Date200120011999Num.OfAlgorithmsComplete:6Discretize:12Reduction:10+5Complete:5Discretize:9Reduction:8Based on Rough Set Library(RSL)PlatformWin9X/Win2000/WinNT/Win XPWin98/Win95/Win NTWin3.X/Win95Input FileFormatTxt formatTxt format,C+format,Matlab format,etc.RIS file format(defined by themselves)Display FormatTxt and Table formatTable formatDialogInterfaceMDIMDISDI31RIDAS界面界面32粗糙集算法粗糙集算法Discretization algorithm(11)Data complete algorithm(6 )Cancel completeDiscernibility matrix based completeAverage complete条件平均补齐;组合补齐;条件组合补齐;基于属性重要性的离散算法;Nave algorithm;Semi-Naive数据离散算法;Nguyen greedy algorithmgreedy algorithm;Improved greedy algorithmgreedy algorithm 1;Improved greedy algorithmgreedy algorithm 2;基于断点重要性;等频率划分算法;等距离划分算法;基于信息熵算法 Entropy Scaler;Manual Scaler(手工指定断点);33Attribute reduction algorithms(12)Value reduction algorithms(5)General value reduction algorithm;归纳值约简算法;Discernibility matrix based value reduction algorithm;heuristic value reduction heuristic value reduction algorithmalgorithm;Skowron algorithm;General attribute reduction algorithm;基于可辨识矩阵和 逻辑运算的属性约简算法;基于特征选择的属性约简算法;归纳属性约简算法;基于互信息的属性约简算法;Entropy based attribute reduction algorithm 1;Entropy based attribute reduction algorithm 2;动态约简算法;Gene reduction algorithm1;Gene reduction algorithm2;Gene reduction algorithm3;Manual reduction algorithm34存在问题存在问题n算法流程较固定算法流程较固定n引入新算法困难,模型单一引入新算法困难,模型单一n支持数据格式不够支持数据格式不够n处理能力和处理数据量局限较大处理能力和处理数据量局限较大n无可视化支持无可视化支持n无知识解释功能无知识解释功能n软件软件bug较多,非专业开发较多,非专业开发35数据挖掘系统如何支持数据挖掘系统如何支持PMML标准?标准?n一个实际的数据挖掘系统一个实际的数据挖掘系统D-Miner36急需人员加盟急需人员加盟n系统分析员、软件工程方式管理系统分析员、软件工程方式管理n更多挖掘算法和模型实现更多挖掘算法和模型实现n方便的模型和算法导入机制方便的模型和算法导入机制n可视化支持,丰富的数据视图可视化支持,丰富的数据视图n数据库等各种数据接口支持数据库等各种数据接口支持n海量数据处理能力海量数据处理能力n行业应用接口行业应用接口37基于Rough Set的海量数据挖掘算法研究2004.9思想简介思想简介38当前数据特点当前数据特点n数据规模巨大:成百万、千万甚至更多的数据规模巨大:成百万、千万甚至更多的海量数海量数据据n数据分布存储:集中处理代价极其昂贵数据分布存储:集中处理代价极其昂贵n数据来源广:甚至在格式和内容上也存在差距;数据来源广:甚至在格式和内容上也存在差距;n数据特性未知:数据结构、内在联系和分布规律数据特性未知:数据结构、内在联系和分布规律知之甚少知之甚少n如生物基因数据、空间数据和互联网络信息等如生物基因数据、空间数据和互联网络信息等n数据包含不确定信息:数据不完备、冲突等数据包含不确定信息:数据不完备、冲突等n数据日益增长:新数据可能与旧数据之间形成新数据日益增长:新数据可能与旧数据之间形成新的联系,呈现新的结构,甚至产生新的冲突的联系,呈现新的结构,甚至产生新的冲突 39海量数据处理方案海量数据处理方案n直接处理海量数据全集的方法直接处理海量数据全集的方法n可伸缩可伸缩Rough Set知识约简算法知识约简算法 n分布式处理海量数据集的方法分布式处理海量数据集的方法n基于基于Rough Set的海量数据分割算法的海量数据分割算法40数据集数据集通常方法:通常方法:装载装载内存内存知识知识挖掘挖掘装载装载可伸缩性可伸缩性 方法:方法:数据集数据集当前重当前重要信息要信息当前重当前重要信息要信息内存内存内存内存知识知识提取提取提取提取装载装载处理处理处理处理可伸缩算法思想可伸缩算法思想41解决方案解决方案n提出了类分布链表提出了类分布链表(CDL)的结构的结构nCDL包含每步数据处理所需所有信息包含每步数据处理所需所有信息n通过通过CDL改进一组知识约简算法改进一组知识约简算法n求取信息熵求取信息熵n离散化离散化n属性约简属性约简n值约简值约简42CDLCDL的分类的分类n一个一个CDL可以分为三个部分:可以分为三个部分:不相容类分布链表(不相容类分布链表(ICDL)知识约简的重点知识约简的重点 单例相容分布链表(单例相容分布链表(SSCDL)多例相容分布链表(多例相容分布链表(MSCDL)例:例:CDL(Salary)=#13&5#2&7#46#8#ICDL(Salary)=#13&5#46#SSCDL(Salary)=#8#MSCDL(Salary)=#2&7#43通过通过CDLCDL发现知识的过程发现知识的过程数据集数据集内存内存知识知识提取并载入提取并载入处理处理ICDLSSCDLMSCDL处理处理DBMS44算法测试结果算法测试结果n环境环境n训练集大小:训练集大小:10万至万至100万万n测试集大小:训练集的测试集大小:训练集的30%n测试环境:通过测试环境:通过VC6.0&SQL Server 2000编程实现编程实现n值得注意:使用值得注意:使用RIDAS系统不能训练如此大数据集系统不能训练如此大数据集n结论结论n改进算法可以提高算法的可伸缩性改进算法可以提高算法的可伸缩性n改进算法不损失正确率及识别率等性能改进算法不损失正确率及识别率等性能n能够处理大规模数据集能够处理大规模数据集nCDL的方法可以作为一种框架改进许多其他的方法可以作为一种框架改进许多其他Rough Set算法的可伸缩性算法的可伸缩性45分布式数据挖掘分布式数据挖掘(DDM)DDM)Data SourceData SourceData SourceData MiningAlgorithmData MiningAlgorithmData MiningAlgorithmLocalModelLocalModelLocalModelLocal Model AggregationFinal Model46分布式处理海量数据分布式处理海量数据12ninout全局全局知识知识分布式数据挖掘系统分布式数据挖掘系统数据集数据集1数据集数据集2数据集数据集n数据集数据集?如何分割才是比较理想的呢如何分割才是比较理想的呢47解决方法解决方法n通常的通常的DDM系统都把重点放在了组合局部系统都把重点放在了组合局部模型上了,在处理海量数据的时候采用随模型上了,在处理海量数据的时候采用随机抽样的思想进行分割机抽样的思想进行分割n解决方案:解决方案:n提出了最佳分割的定义提出了最佳分割的定义n提出基于提出基于Rough Set的分割算法来找寻最佳分的分割算法来找寻最佳分割割n如果一个信息系统经过分割后,我们可以从分割后如果一个信息系统经过分割后,我们可以从分割后的信息系统中得到与原始的信息系统相同的知识或的信息系统中得到与原始的信息系统相同的知识或者规则,则我们说这样的分割是最佳的分割。者规则,则我们说这样的分割是最佳的分割。48父数据集父数据集子数据集子数据集1子数据集子数据集2子数据集子数据集n数据分割数据分割子规则集子规则集1子规则集子规则集2子规则集子规则集n父规则集父规则集规则生成规则生成组合规则组合规则分布式学习模型分布式学习模型49算法测试算法测试n正确性测试正确性测试n和不分割(和不分割(RIDAS)、随机分割方案对比随机分割方案对比n速度测试速度测试n记录数:记录数:12960n属性数:属性数:9n海量数据测试海量数据测试n记录数:记录数:581012n属性数:属性数:55n其中训练集数:其中训练集数:30000050算法正确性测试方法算法正确性测试方法数据集数据集RIDAS规则集规则集(1)测试测试数据集数据集1规则集规则集1父规则集父规则集测试集测试集50%RIDAS随机分割随机分割测试测试本文方法本文方法数据集数据集n规则集规则集nRIDAS原原 始始数据集数据集(测试集测试集)总正确率总正确率平均正确率平均正确率+/n(2)(3)(4)组合规则组合规则(1)AC(3)ACrandom(4)ACmean(2)ACrs51算法测试结果算法测试结果n算法的性能随着分割数目的增多比较稳定,算法的性能随着分割数目的增多比较稳定,分割数目比较大时性能比随机分割方法要分割数目比较大时性能比随机分割方法要好很多好很多n在性能上本算法比处理数据全集的算法要在性能上本算法比处理数据全集的算法要差一些,但是要比处理数据全集的方法更差一些,但是要比处理数据全集的方法更快地获取规则快地获取规则n分割过程也是知识挑选的过程,会比较耗分割过程也是知识挑选的过程,会比较耗时时n本文的方法能够较好的处理海量数据集本文的方法能够较好的处理海量数据集52数据挖掘应用研究数据挖掘应用研究邮件分类邮件分类网络入侵检测网络入侵检测53主要内容主要内容n基于基于Rough Set的邮件分类系统的研究的邮件分类系统的研究n基于基于Rough Set的网络入侵检测系统的研的网络入侵检测系统的研究究54利用利用Rough Set解决问题的步骤解决问题的步骤n理解相关的先验知识,建立系统模型理解相关的先验知识,建立系统模型n收集大量样本填充决策表收集大量样本填充决策表n规则挖掘过程规则挖掘过程n数据预处理数据预处理n删除多余属性,求出属性约简;删除多余属性,求出属性约简;n删除多余的属性值,得到值约简;删除多余的属性值,得到值约简;n根据值约简求出逻辑规则根据值约简求出逻辑规则n测试以及使用规则解决问题测试以及使用规则解决问题55基于基于Rough Set的的n目前的解决方案:目前的解决方案:nBayesian、Nave Bayesian,Broosting tree,Co-trainingn存在的问题存在的问题n考虑分析邮件头中蕴含的有用信息,利用考虑分析邮件头中蕴含的有用信息,利用基于基于Rough Set的数据挖掘方法将这些有的数据挖掘方法将这些有用信息提取出来用信息提取出来56邮件头示例Received:(qmail 3071 invoked by uid 10000);3 Jan 2002 07:09:33+0800 Received:from unknown(HELO )(61.134.9.11)by 61.135.132.233 with SMTP;3 Jan 2002 07:09:33+0800 Received:from localhost 12.235.111.30 by with ESMTP(SMTPD32-7.04)id AFBB105014E;Wed,02 Jan 2002 04:44:43+0800 Received:from apple(128.8.99.7)by with Microsoft SMTPSVC(5.0.2195.4617);Tue,Jan 1 13:22:30 2002-0800 Message-ID:Return-Path:Delivered-To:Date:Tue,Jan 1 16:14:52 2002+0800(CST)From:neakvkl To: Subject:(Junk mail)由用户自己写入的由用户自己写入的信息信息由邮件服务器添加由邮件服务器添加的信封信息的信封信息57Email Route发送者128.8.99.7U207.46.181.83USA12.235.111.30(12-235-111-30-,USA)No IP(202.206.64.35Hebei,China)R61.134.9.11H(,218.30.21.18)Xian,China61.135.132.233Beijing,ChinaReceived 1Received 2Received 3路由中断路由中断58邮件分类系统:决策表邮件分类系统:决策表属性属性1属性属性2属性属性3属性属性4属性属性5 属性属性n决策属性决策属性Amy20.1是是0 0正常邮件正常邮件Richard57.2否否1 6广告邮件广告邮件Mary60.33否否3 1可疑邮件可疑邮件 .Grace13.25是是1 2正常邮件正常邮件R=C DCDVU59属性的定义属性的定义nA0:邮件中继次数,即邮件头中邮件中继次数,即邮件头中“Received”标签的个标签的个数;数;nA1:收件人个数;收件人个数;nA2:邮件路由信息中的中断次数,邮件路由信息中断定邮件路由信息中的中断次数,邮件路由信息中断定义为:若前一条义为:若前一条“Received”标签中接收站点的域名和标签中接收站点的域名和IP与后一条与后一条“Received”标签中发送站点的域名和标签中发送站点的域名和IP均不相均不相同,则被视为路由信息中断;同,则被视为路由信息中断;nA3:“Received”项中的各个域名与其项中的各个域名与其IP不匹配的次数;不匹配的次数;nA4:“Received”中发送站点项缺少域名的次数;中发送站点项缺少域名的次数;nA5:“Received”中的中的by项缺少域名的次数;项缺少域名的次数;nA6:“Received”中的中的from项缺少项缺少IP的次数;的次数;60nA7:“From”中的原始发送地址与中的原始发送地址与“Received”中的原始中的原始发送地址是否一致;一致则取值为发送地址是否一致;一致则取值为1,否则取值为,否则取值为0;nA8:“To”中的目的地址与中的目的地址与“Received”中的实际收信人中的实际收信人的地址是否一致;一致则取值为的地址是否一致;一致则取值为1,否则取值为,否则取值为0;nA9:“Delivered-To”项和项和“To”项是否一致,若一致则项是否一致,若一致则取值为取值为1,否则取值为,否则取值为0,若不存在,若不存在“Delivered-To”项,项,则这一属性值的缺省值为则这一属性值的缺省值为1;nA10:“Return_Path”项和项和“From”项是否一致,若一致项是否一致,若一致则取值为则取值为1,否则取值为,否则取值为0,若不存在,若不存在“Return_Path”项,项,则这一属性值的缺省值为则这一属性值的缺省值为1;61邮件分类决策表示例邮件分类决策表示例A0A1A2A3A4A5A6A7A8A9A10D31100100100213000001011121000001111161404311111321101100111141100100001361404310011221102100111111000000011262规则挖掘过程规则挖掘过程A0 分割成分割成6个区间个区间*,0.5)0 0.5,1.5)1 1.5,2.5)2 2.5,3.5)3 3.5,5.5)4 5.5,*)5A1 分割成分割成2个区间个区间*,1.5)0 1.5,*)1 3 1 1 0 0 1 0 0 1 0 0 21 3 0 0 0 0 0 1 0 1 1 16 1 4 0 4 3 1 1 1 1 1 3.6 1 4 0 4 3 1 0 0 1 01 改进的贪改进的贪心算法心算法1A0 A1 A2 A4A5 A6 A7 A8A9 A10A01A81D1A20A100D2A03A10A21A41A51A60A70A80A91A101D3属性约简属性约简离散化离散化值约简值约简基于信息基于信息熵算法熵算法1启发式启发式值约简算法值约简算法63测试l在小数据量的情况下l数据量逐渐增多的情况下l大数据量的情况下l在邮件过滤中邮件分类模型的效果64算法正确性测试算法正确性测试邮件邮件集合集合80封封训练集训练集40封封随机选取50属性提取3 1 1 0。0 0 21 3 0 0。0 1 1 6 2 1 0。1 1 3规则集规则集作为测试集正确:92.5错误:3.75未识别:3.75正确:87.5错误:8.75未识别:3.75多数优先策略少数优先策略决策表决策表65算法稳定性测试算法稳定性测试66处理大数据量的算法测试处理大数据量的算法测试测试样本数:13167普通邮件为7586广告邮件为4831可疑邮件为750 67垃圾邮件判定测试垃圾邮件判定测试68基于基于Rough Set的邮件分类系统的邮件分类系统n邮件接收模块邮件接收模块 n利用利用POP3协议,构造协议,构造POP3类类n邮件路由分析模块邮件路由分析模块 n利用邮件头中的利用邮件头中的Received标签对邮件的传送路标签对邮件的传送路由进行分析记录由进行分析记录n邮件分类模块邮件分类模块69系统界面系统界面70人员需求人员需求n系统分析员,软件工程项目管理系统分析员,软件工程项目管理nJava编程人员编程人员n服务器解决方案服务器解决方案n实用智能邮件分析功能实现实用智能邮件分析功能实现n围绕邮件的服务和安全研究围绕邮件的服务和安全研究71Rough Set 在入侵检测中的研究在入侵检测中的研究n入侵检测的必要性入侵检测的必要性n传统技术存在的局限传统技术存在的局限n基于数据挖掘的入侵检测系统的现状及存基于数据挖掘的入侵检测系统的现状及存在问题在问题 n采用采用Rough Set技术的可行性技术的可行性72基于基于Rough Set的入侵检测系统的入侵检测系统协议解析器协议解析器基于基于Rough Set规则规则挖掘挖掘模块模块规则集规则集嗅探器嗅探器检测模块检测模块告警告警/日志日志模块模块训练训练数据数据告警告警日志日志训练训练检测检测Network管理员管理员73建立分类模型建立分类模型属性属性描述描述A1protocol typeA2source IPA3destination IPA4source location(EXTERNAL_NET,HOME_NET etc)A45*dst_host_srv_diff_host_rateA46*dst_host_serror_rate A47*dst_host_srv_diff_host_rateD正常或者特定的攻击名称正常或者特定的攻击名称基础属性基础属性(28个)个)集合属性集合属性(19个)个)决策属性决策属性74决策表:收集样本填充决策表:收集样本填充A1A6A7A8A30A31D6800271.001002255 1.0191700200.0075规则挖掘过程某些具有特殊意义且对检测攻击重要的属性不进行离散化处理其他属性按照算法被离散化倒不同的区间中A10 分割成2个区间*,1.5)01.5,*)1 3 1 1 0 0 1 0 0 1 0 0 21 3 0 0 0 0 0 1 0 1 1 16 1 4 0 4 3 1 1 1 1 1 3.6 1 4 0 4 3 1 0 0 1 0 1 A0A1A2A4A5A6A7A8.A47A10 A120 D3A20A100D2A03A10A21A41A51A60A70A80A91A101D3属性约简属性约简离散化离散化值约简值约简76增量式学习算法增量式学习算法原始训练原始训练数据库数据库新攻击新攻击新的训练新的训练数据库数据库数据挖掘过程新攻击新攻击原始训练原始训练数据库数据库原始规则集原始规则集新的规则集数据挖掘过程增量式学习过程新的规则集77部分规则示例部分规则示例规则逻辑规则A10 A120 D3IF the protocol type is IP AND the source IP is the same as the destination IPTHEN it is a“land”attackA16A41 A88 D12IF the protocol type is TCPAND the TCP flag is FINAND the number of connections to the same destination is in 180.5.5,254.5)Then it is a“TCP FIN scan”attack.A11 A89A187 A375 D19IF the protocol is icmp,AND the service is icmp echo,AND the number of connections to the same destination is at least 254.5AND the number of connections with the same service is at least 113.THEN it is a“smurf”attack.78系统界面系统界面79正在进行的研究正在进行的研究n智能的无监督学习智能的无监督学习n报警智能处理报警智能处理80人员需求人员需求n系统分析员,软件工程管理系统分析员,软件工程管理nJava编程编程n更多实用智能算法更多实用智能算法n主动防御技术主动防御技术n定位为企业或个人的产业化开发定位为企业或个人的产业化开发81数据挖掘应用展望数据挖掘应用展望实例实例研究研究82应用展望应用展望n基于移动通信的智能定位服务系统基于移动通信的智能定位服务系统n个性化主动信息提供服务个性化主动信息提供服务n数字电视数字电视n网络信息检索网络信息检索n生物基因的智能挖掘生物基因的智能挖掘83电子商务推荐系统简介电子商务推荐系统简介n电子商务推荐系统的作用:电子商务推荐系统的作用:n将电子商务网站的浏览者转变为购买者将电子商务网站的浏览者转变为购买者(Converting Browsers into Buyers)n提高电子商务网站的交叉销售能力提高电子商务网站的交叉销售能力(Cross-Sell)n提高客户对电子商务网站的忠诚度提高客户对电子商务网站的忠诚度(Building Loyalty)84电子商务推荐系统的界面表现形式电子商务推荐系统的界面表现形式nBrowsing:根据客户查询要求返回高质量的推荐根据客户查询要求返回高质量的推荐nSimilar Item:推荐系统根据客户购物篮中的商品和客户推荐系统根据客户购物篮中的商品和客户可能感兴趣的商品推荐类似的商品可能感兴趣的商品推荐类似的商品nEmail:通过电子邮件的方式通知客户可能感兴趣的商品通过电子邮件的方式通知客户可能感兴趣的商品信息信息nText Comments:向客户提供其他客户对相应产品的评向客户提供其他客户对相应产品的评论信息论信息nAverage Rating:向客户提供其他客户对相应产品的等向客户提供其他客户对相应产品的等级评价级评价 nTop-N:根据客户的喜好向客户推荐最可能吸引客户的根据客户的喜好向客户推荐最可能吸引客户的N件产品件产品 nOrdered Search Results:列出所有的搜索结果,并将列出所有的搜索结果,并将搜索结果按照客户的兴趣降序排列搜索结果按照客户的兴趣降序排列85电子商务推荐系统的输入电子商务推荐系统的输入客户输入客户输入(Targeted Customer Inputs)隐式浏览输入隐式浏览输入(Implicit navigation):客户的浏览行为客户的浏览行为作为推荐系统的输入,但客户并不知道这一点作为推荐系统的输入,但客户并不知道这一点显式浏览输入显式浏览输入(Explicit navigation):客户的浏览行为客户的浏览行为是有目的向推荐系统提供自己的喜好是有目的向推荐系统提供自己的喜好关键词和项目属性输入关键词和项目属性输入(Keywords and Item attributes):客户输入关键词或项目的有关属性以得到推荐系统客户输入关键词或项目的有关属性以得到推荐系统有价值的推荐有价值的推荐用户购买历史用户购买历史(Purchase history):用户过去的购买纪用户过去的购买纪录录86电子商务推荐系统的输入电子商务推荐系统的输入社团输入社团输入(Community Inputs)项目属性项目属性(Item Attribute):社团对商品风格和社团对商品风格和类别的集体评判类别的集体评判社团购买历史社团购买历史(Community Purchase History):社团过去的购买纪录社团过去的购买纪录文本评价文本评价(Text Comments):其他客户对商品其他客户对商品的文本评价,计算机并不知道评价是好是坏的文本评价,计算机并不知道评价是好是坏评分评分(Rating):其他客户对商品的评分,计算其他客户对商品的评分,计算机可以对评分进行处理机可以对评分进行处理87电子商务推荐系统的输出电子商务推荐系统的输出建议建议(Suggestion)单个建议单个建议(Single Item)未排序建议列表未排序建议列表(Unordered List)排序建议列表排序建议列表(Ordered List)预言预言(Prediction):系统对给定项目的总体评系统对给定项目的总体评分分个体评分个体评分(Individual Rating):输出其他客户输出其他客户对商品的个体评分对商品的个体评分评论评论(Review):输出其他客户对商品的文本评输出其他客户对商品的文本评价价88电子商务推荐技术分类标准电子商务推荐技术分类标准n自动化程度自动化程度(Degree of Automation)n客户为了得到推荐系统的推荐是否需要显式的输入信息客户为了得到推荐系统的推荐是否需要显式的输入信息n持久性程度持久性程度(Degree of Persistence):n推荐系统产生推荐是基于客户当前的单个会话推荐系统产生推荐是基于客户当前的单个会话(Session)还是基于客户的还是基于客户的多个会话多个会话nNon-Personalized Recommendation:n推荐系统的推荐主要基于其他客户对该产品的平均评价,这种推荐系统推荐系统的推荐主要基于其他客户对该产品的平均评价,这种推荐系统独立于客户,所有的客户得到的推荐都是相同的独立于客户,所有的客户得到的推荐都是相同的 nAttributed-Based Recommendation:n推荐系统的推荐主要基于产品的属性特征推荐系统的推荐主要基于产品的属性特征nItem-to-Item Correlation:n推荐系统根据客户感兴趣的产品推荐相关的产品推荐系统根据客户感兴趣的产品推荐相关的产品 nPeople-to-People Correlation:n又称协同过滤,推荐系统根据客户与其他已经购买了商品的客户之间的又称协同过滤,推荐系统根据客户与其他已经购买了商品的客户之间的相关性进行推荐相关性进行推荐89电子商务推荐系统研究热点与方向电子商务推荐系统研究热点与方向n对当前的电子商务推荐系统进行改进,以使得推对当前的电子商务推荐系统进行改进,以使得推荐系统能产生更加精确的推荐荐系统能产生更加精确的推荐 n将数据挖掘技术及将数据挖掘技术及Web挖掘技术应用到电子商务挖掘技术应用到电子商务推荐系统中,产生完全自动化的推荐,使用户感推荐系统中,产生完全自动化的推荐,使用户感受到完全个性化的购物体验受到完全个性化的购物体验 n将电子商务推荐系统由虚拟的销售人员转变为市将电子商务推荐系统由虚拟的销售人员转变为市场分析工具场分析工具 n开发销售方的电子商务推荐系统,为商家的产品开发销售方的电子商务推荐系统,为商家的产品定价、促销活动及交叉销售等提供推荐定价、促销活动及交叉销售等提供推荐 90智能信息处理工作分类智能信息处理工作分类n理论研究:理论研究:n进行智能信息处理算法和模型研究,成果主要以发表进行智能信息处理算法和模型研究,成果主要以发表论文为主,结果用仿真方式验证。由于面临问题的复论文为主,结果用仿真方式验证。由于面临问题的复杂度,没有一个理论工具具有绝对优势。杂度,没有一个理论工具具有绝对优势。n工具开发:工具开发:n进行智能信息处理平台研发。针对不同行业应用,可进行智能信息处理平台研发。针对不同行业应用,可共用大量智能分析手段,也可在该平台基础上进行二共用大量智能分析手段,也可在该平台基础上进行二次开发,包括设计各种定制的模型和算法。次开发,包括设计各种定制的模型和算法。n行业应用:行业应用:n在智能信息分析平台支持下,进行真实的行业应用系在智能信息分析平台支持下,进行真实的行业应用系统开发。针对不同应用领域进行数据特性分析,以及统开发。针对不同应用领域进行数据特性分析,以及采取不同的智能方案是至关重要的。采取不同的智能方案是至关重要的。91智能信息处理解决方案的层次体系智能信息处理解决方案的层次体系智能信息处理平台处理接口信息挖掘平台管理行业示范应用层安全取证定位服务图像分析知识库模型库算法库92行业示范应用模式行业示范应用模式n进行个性化的智能分析方案集成,可采用进行个性化的智能分析方案集成,可采用整合式或分离式两种不同模式。整合式或分离式两种不同模式。n整合式:整合式:经过充分测试和选择,将最合适行业经过充分测试和选择,将最合适行业应用的算法导入行业示范系统中,智能信息处应用的算法导入行业示范系统中,智能信息处理平台和最终的行业示范系统相对独立,而应理平台和最终的行业示范系统相对独立,而应用的智能算法和示范系统是整合的。用的智能算法和示范系统是整合的。n分离式:分离式:以智能信息处理平台为主体进行行业以智能信息处理平台为主体进行行业知识挖掘,最终的行业示范应用只是知识的应知识挖掘,最终的行业示范应用只是知识的应用。在本项目的三个示范系统中,这两种方式用。在本项目的三个示范系统中,这两种方式都会涉及。都会涉及。93网络安全监控与取证系统网络安全监控与取证系统n取证系统目标取证系统目标n建立适当的系统自动收集、过滤,自动发现可疑数据,建立适当的系统自动收集、过滤,自动发现可疑数据,自动分析、提取证据,并实现高效、安全可靠地存储自动分析、提取证据,并实现高效、安全可靠地存储数据。系统可以在出现安全事件后使证据量最大化。数据。系统可以在出现安全事件后使证据量最大化。n网络安全监控与取证存在两个主要问题:网络安全监控与取证存在两个主要问题:n数据量巨大,管理员难以直接处理有关事件数据量巨大,管理员难以直接处理有关事件n许多具有证据价值的数据消失,部分证据和海量的正许多具有证据价值的数据消失,部分证据和海量的正常计算机数据混杂在一起,很难获得常计算机数据混杂在一起,很难获得n解决方案解决方案n应用智能信息处理技术,自动对大数量级的管理数据应用智能信息处理技术,自动对大数量级的管理数据进行裁减、分析,以实现方便的安全管理,同时及时进行裁减、分析,以实现方便的安全管理,同时及时发现并保存潜在的计算机证据,在海量数据中查找证发现并保存潜在的计算机证据,在海量数据中查找证据、分析各个数据证据间的关联。据、分析各个数据证据间的关联。94面向第三代的智能定位服务系统面向第三代的智能定位服务系统n背景背景nLBS技术成为国内外相关领域的研究热门,提出了技术成为国内外相关领域的研究热门,提出了LBS等新型增值服务的解决方案。等新型增值服务的解决方案。n基于第三代移动通信基于第三代移动通信TD-SCDMA、CDMA手机、手机、CDMA手机定位技术研究手机定位技术研究n问题:问题:n对于大量移动对象的存储,移动对象过
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!