数据挖掘语言课件

上传人:沈*** 文档编号:241431877 上传时间:2024-06-25 格式:PPT 页数:46 大小:1.60MB
返回 下载 相关 举报
数据挖掘语言课件_第1页
第1页 / 共46页
数据挖掘语言课件_第2页
第2页 / 共46页
数据挖掘语言课件_第3页
第3页 / 共46页
点击查看更多>>
资源描述
第九章第九章.数据挖掘语言与工具的选择数据挖掘语言与工具的选择数据挖掘的语言一数据挖掘工具的商业应用和选择三数据挖掘的研究热点二技术革新的背景:数据库技术的成熟和数据应用的普及网络时代各领域数据积累量的指数增长人类“数据丰富而知识贫乏”的问题.需要一种新技术从海量数据中自动、高效提取所需的拥有信息。数据挖掘语言数据挖掘语言用来说明用户感兴趣的数据集、需要挖掘的知识类型、模式和如何发现等问题的与系统进行沟通的机器语言,使挖掘系统在用户指导下有目的的进行数据挖掘工作。各个机构和相关公司共同研究和开发标准化的数据挖掘语言阶段 代表:DMG提出的PMML 微软BLE DB for data mining 研究机构和相关公司 自行研究和开发数据 挖掘语言阶段。代表:DMQL,MSQL,MINE RULE第一阶段第二阶段挖掘语言标准化的重要性挖掘语言标准化的重要性ANSI(美国国家标准局)批准SQL作为关系数据库的美国标准,并公布SQL的文本。厂商纷纷推出支持SQL的软件或接口软件,使SQL突破机器规模和系统成为共同的数据存取语言和标准接口。数据挖掘语言数据挖掘语言数据挖掘查询语言数据挖掘模型语言标准数据挖掘语言出色的数据挖掘查询语言的好处用户界面的友好性,方便用户使用,不必关心语言是如何实现的;语言的通用性,方便把数据挖掘平滑地集成到应用系统中;使用的继承性,方便未来对语言和技术进行改进和调试。用来支持特殊的和交互的数据挖掘,一组数据挖掘原语数据挖掘原语与挖掘系统进行通信,灵活的和有效的进行知识发现代表性的产品:DMQL(dataminingquerylanguage)数据挖掘查询语言数据挖掘查询语言五种知识表达:特征规则、辨别规则、关联规则、分类语言、聚集两种背景知识原语:概念层次、数据关系的用户信任度四种兴趣度测量原语:简单性、确定性、效用性和新颖性可视化显示方式:规则、表格、报告、图表、图形、决策树、立方体数据挖掘原语:用来定义一个数据挖掘任务,通过原语来与数据挖掘系统通信,使知识发现更有效。原语类型包括:被挖掘的知识的种类原语任务相关数据原语背景知识原语兴趣度测量原语被发现模式的表示和可视化原语用来说明与任务相关的数据的语法一、与任务相关的数据原语usedatabase/datawarehouse-将数据挖掘任务指向说明的DB或DWfromwhere-分别制定所涉及的表或数据立方体,定义检索数据的条件概念分层和对数据关系用户信任度的分层 三、用于挖掘过程的背景知识usehierarchyfor-说明概念分层的使用Definehierarchyonas-说明概念分层的定义包括:置信度、支持度、新颖度、噪声度四、评估模式的兴趣度量和阈值withthreshod=-说明模式的兴趣度量及其阈值可视化问题:显示规则、表格、交叉表、饼图、直方图、判定树、立方体、曲线等 五、可视化发现模式额期望表示 display as-说明挖掘模式的期望表示 公司A的数据库为Acompany_db,包括:customer(cust_ID,name,address,age,income,credit_info,),item(item_ID,name,brand,),employee(empl_ID,name,category,),purchase(trans_ID,cust_ID,empl_ID,),branch(branch_ID,name,address),items_sold(trans_ID,item_ID,qty),works_at(empl_ID,branch_ID)希望了解购买商品价格不低于100元的顾客的年龄、所购商品类型、商品产地。针对每一个特征希望以百分比的形式展现特别的,要求canada顾客,用AmEx信用卡付款的情况。结果用表的形式表现出来实例usedatabaseAcompany_dbusehierarchylocation_hierarchyforB.addressminecharacteristicsascustomerPurchasinganalyzecount%inrelevancetoC.age,I.type,I.place_madefromcustomerC,itemI,purchasesP,items_soldS,works_atW,branchBwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDandP.method_paid=/AmEx0andP.empl_ID=W.empl_IDandI.price=100andW.branch_ID=B.branch_IDandB.address=/Canada0withnoisethreshold=5%displayastableMSQL:该语言采用类SQL语言的语法,使用了包含排序、分组和其他原语在内的SQL语言原语。MINERULE:同样采取类似SQL的语法,用于挖掘关联规则数据挖掘查询语言数据挖掘查询语言PMML(predictivemodelmarkuplanguage)预言模型标记语言基于XML语言的,对数据挖掘模型进行描述和定义,提供模型共享的一种快速简便方式。开发机构:DMG数据挖掘协会,目前已经开发的语言模型的开放标准:PMML1.0PMML1.1PMML2.0(最新)数据挖掘模型语言数据挖掘模型语言特点:允许应用程序和OLAP工具从数据挖掘系统中获得模型,不用独自开发数据挖掘模块;收集大量潜在使用的模型,使ISV独立软件供应商的系统间可以共享模型。方便数据挖掘系统在模型定义和描述方面有标准可循,系统之间就可以共享模型。可以解决数据挖掘系统的封闭性问题,方便其在其他应用系统中嵌入数据挖掘模型。使用XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型、模型格式,并按标准的数据挖掘术语来解释结果。CWM(commonwarehousemetamodel)公共仓库元模型在异构环境下,帮助不同的数据挖掘工具、平台和元数据知识库进行元数据交换,为数据挖掘和商务智能工具之间进行共享元数据制定了一套关于语法和语义的规范。提出机构:OMG对象管理组织基于三个工业标准:OMG的建模标准UML,利用它对CWM进行建模OMG的元模型和元数据存储标准MOF,提供易购环境下对元数据知识库的访问接口OMG的元数据交换标准XML,实现OMG数据以XML文件方式进行交换数据挖掘模型语言数据挖掘模型语言对上述两者的结合,既有定义模型的功能,又能作为查询语言与DMS通信,进行交互和特殊的挖掘。代表性的产品:微软OLEDBforDM通用数据挖掘语言通用数据挖掘语言消费者应用和提供者应用提供了基于API的数据挖掘实现途径,包括创建原语及dm模型的定义和使用基于SQL语言的协议,提供开放接口,任何组织可以用简单且容易实现的方式,将模型与自己构建的应用相结合。特别适用于电子商务网站的站点个性化设计和购物篮分析。数据挖掘的语言一数据挖掘工具的商业应用和选择三数据挖掘的研究热点二发现语言的形式化描述,专门用于知识发现的数据挖掘语言数据挖掘过程中的可视化网络环境下的数据挖掘技术,在英特网上建立数据挖掘服务器,与数据库服务器配合,实现webmining加强对各种非结构化数据的采集,如:图形、视频图像、音频和多媒体数据的采集研究热点研究热点数据挖掘的语言一数据挖掘工具的商业应用和选择三数据挖掘的研究热点二采用人工智能的技术,包括决策树、规则归纳、神经元网络、可视化、模糊建模、簇聚和传统的统计方法。这些数据采掘工具差别很大,不仅体现在关健技术上,还体现在运行平台、数据存取、价格等方面,出现在早期,单独的数据挖掘算法即成为一个软件。要求用户对具体的算法和技术有熟悉的了解。eg:C4.5决策树、平行坐标可视化独立数据挖掘软件独立数据挖掘软件横向数据挖掘工具集横向数据挖掘工具集提供多种数据挖掘算法,包括数据的转换和可视化。未面向特定应用,是通用的算法集合,通用的处理模式eg IBM intelligence Miner,Oralce Darwin纵向数据挖掘解决方案纵向数据挖掘解决方案针对特定的应用提供完整的数据挖掘方案,多用于解决特定的难题,而嵌入应用系统中。eg KDI(零售业)HNC(欺诈行为监测)数据挖掘的技术基于不同的,相互独立的模型和技术,技术边界明显缺少简明精确的问题描述方法,挖掘语义主要是由实现方法决定在嵌入大型应用或商用活动上仍难以实现数据挖掘引擎和数据库系统是松散耦合现有的数据挖掘行业是高度分散的,公司和研究机构独立开发挖掘系统和平台,没有形成开放性的标准和原语。存在的问题 a数据准备:数据的净化、描述、变换和抽样;b数据访问:即访问不同数据源的能力。工具必须支持开放数据库结构,并能有效支持其他类型数据的数据源;c算法与建模:优秀的工具应当包含多种算法以处理不同的需求,同时要求如算法的稳定性、收敛性和对噪声的敏感程度;d模型的评价与解释:能够提供多样的,易于理解的解释和评价;e用户界面:部分工具应提供可嵌入编程语言中的应用编程接口API和CUI接口评价的指标PA是Megaputer Intelligence 1994年推出的数据挖掘软件,对数据进行预处理和挖掘,完成规则归纳、分类、聚类、建模和预测。主要应用于金融、市场、制药、电信等行业。功能:集成数据处理和表达:查看、抽样、分割、逻辑运算提供可视化呈现:直方图、二维图、三维图、蛇形图强大的扩展功能:.scv 可从多种数据导入和输出提供的是一整套而非一两条数据挖掘算法,实现多策略挖掘multi-DM1.PolyAnalystPA的算法不是多种算法的简单堆积,而是对传统算法进行了优化和创新;作为一个层次化的体系,强调在不同的阶段使用不同的算法强大的结果解释功能,支持SRL(symbolic rule language)符号化规则语言,可表示数学公式和函数,可读性能好。李建,刘红星.新的数据挖掘工具-Poly Analyst.计算机应用PolyAnalystIBM公司开发的用于处理结构化(数据库表、数据库视图和平面文件)和非结构化(顾客信件、在线服务、传真和电子邮件、网页)的嵌入式挖掘工具包括:intelligent Miner Modeling,提供数据挖掘建模的各种函数与集成开发API Intelligent Miner Scoring,提供了对于输入数据测试、打分功能;Intelligent Miner Visualization 提供了数据挖掘模型的可视化功能;允许企业从文本信息中获取有价值的客户信息,文本数据源允许多种格式2.IntelligentMiner实例:银行应用场景银行拥有的很多客户数据:客户 ID、年龄、性别、婚姻状况、职业、账龄、储蓄存款户头、是否使用信用卡、平均余额、信用交易数量、借记交易数量.How 细分客户,找出其中最有价值的客户?现有客户对银行具有哪些潜在的风险?那些客户存在商机?哪些客户是潜在的信用卡客户?.1.数据准备过程在DB2创建BANK数据库和银行客户信息表db2createdbBANK;createtablebank.customers(CLIENT_IDCHAR(9),AGEREAL,GENDERCHAR(2),MARITAL_STATUSCHAR(12),PROFESSIONCHAR(24),NBR_YEARS_CLIREAL,SAVINGS_ACCOUNTCHAR(3),INT_CREDITCARDCHAR(3),AVERAGE_BALANCEDECIMAL(10,2),NO_CRED_TRANSREAL,NO_DEBIT_TRANSREAL)notloggedinitially;importfromcustomers.csvofdelmodifiedbyCHARDELCOLDEL,DECPT.insertintobank.customers;方法:数据挖掘中的分群、预测和孤立点识别的方法2.对数据库BANK进行数据挖掘idmenabledbBANKfenceddbcfg;3.DesignStudio挖掘建模将海量顾客分成有限群体,刻画不同群体特征,MARITAL_STATUS 主要为 single,INT_CREDITCARD 主要为 NO,PROFESSION 主要为 inactive,NO_DEBIT_TRANS 为低,NO_CRED_TRANS 为中,SAVINGS_ACCOUNT 主要为 NO,AVERAGE_BALANCE 为中,NBR_YEARS_CLI 主要为 1.0,AGE 主要为 24.0,GENDER 主要为 M集成SAS的统计模块和图形用户界面GUI,使用SEMMA方法学提供一个能支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。SAS数据挖掘方法论-SEMMA方法:抽样sample(重视数据质量)探索explore(数据特征探索、分析和预处理)修改modify(问题明确化,数据调整和技术选择)建模model(模型的开发,知识的发现)评价assess(模型和知识的综合解释和评价)3.SASEnterpriseMiner通用的在线分析挖掘(on-lineanalysismining,OLAM)用于在大型关系数据库和数据仓库内交互地挖掘多层次的知识,多任务数据挖掘系统。特点:对关系数据、多维数据的强大在线分析挖掘功能;通过OLEDB和RDBMS可以连接到多种数据源;关联和时序算法对挖掘大数据集上频繁,连续的模式表现出卓越性能;集成了数据源、挖掘任务和挖掘应用;多维利润分析技术;用户自定义参数和可视化分类;分析关系数据和多维数据,界面友好;OLAP探测功能强,导航功能强杨杰等.DBMiner数据挖掘平台及其应用.系统仿真学报4.DBMiner作为开源数据挖掘软件,提供丰富的可扩展性,具备GUI特性,适用于数据挖掘的初学者。数据挖掘流程用XML文件描述;通过GUI界面显示;100%用JAVA编程语言编写;集成WEKA的学习器和评估方法BLOG:showRapidMiner数据挖掘入门数据挖掘入门5.RapidMiner承担国家863项目系统原型数据挖掘工具,其主要功能主要包括:数据预处理数据获取、取样、筛选和数据转换四个部分数据取样:随机取样-每一组观测值中都有相同的被取样的概率等距取样-对数据编号,取样的观测值之间的距离相等分层取样-将样本总体分层若干层次,每个层次中的观测值有相同被选用概率,不同层次之间的概率可不同,是模型具有较好的拟合度。起始顺序取样-从输入数据的起始位置开始取样,对取样数量预先规定分类取样-按观测值的某种属性分类,取样以类为单位数据筛选:通过数据筛选选调不希望包括进来的观测值数据转换:将数据与将来要建立的模型拟合得更好数据挖掘数据评价5.复旦ARminer传统的数据挖掘套件(Classicsuites)SASEnterpriseMiner5.3SPSSClementine12开源数据挖掘软件(OpenSource)RapidMiner、JHepwork、orangeKNIMEWeka专门化的数据挖掘软件(Specialized)ViscoverySOMiner5.0prudsysDiscovery5.5/BasketAnalyzer5.2BissantzDeltaMaster5.3.6BI内置的数据挖掘软件(BIVendors)SAPNetWear7.0DataMiningWorkbenchOracle11gDataMiningMicrosoftSQLServer2005AnalysisServices数据挖掘软件分类基于组件的数据挖掘和机器学习软件套装,基绑定了Python以进行脚本开发其是一个给机器学习和数据挖掘和分析的试验环境,同时用于研究了真实世界数据挖掘知名机器学机软件,其支持几种经典的数据挖掘任务,显著的数据预处理,集群,分类,回归,虚拟化,以及功能选择科学家,工程师和学生所设计,是一个免费的开源数据分析框架,开源库来创建一个数据分析环境,并提供了丰富的用户接口,以此来和那些收费的的软件竞争用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台,JAVA编程SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSPSS公司的ClementineStatsoft公司的StatisticaDataMinerDBMiner公司的DBMinerNCR公司的TeradataWarehouseMinerUnica公司的AffiniumModelInsightful公司的InsightfulMinerDataMiner公司的RIK,EDMandDMSKInformationDiscovery公司的DataMiningSuiteAngoss公司的KnowledgeSTUDIODataMiningTechnologies公司的NuggetsFujitsu公司的GhostMinerOracle公司的Darwin数据挖掘软件分类1.红麦软件Q:新浪产品的优劣,产品服务的好坏,都会引起范围广泛的媒体报道与网民评论,网络舆情信息上的引导与控制对于新浪企业来说至关重要首先要了解、掌握危机事件,就要在互联网上对于有关新浪的舆情事件进行抓取、分析。对网络舆情信息的监控与分析必须要浏览和查找海量的网络信息,这包括网络新闻、博客、论坛、贴吧、知道等等,从这些信息中提取与相关的突发事件的舆情信息。然后敏锐发现和整理与新浪有关的舆情信息,正确进行分析研究筛选,开展动态跟踪,科学分析研判,形成定期分析制度,分析突发事件舆情信息的时间与空间分布情况,再通过多种手段和渠道做正确的舆论方向引导。随着互联网技术的不断更新,为了进一步加强互联网上有关新浪的新闻宣传信息内容安全管理。百度指数,海量网页和新闻搜索行业、热词、视频,抓取微博用户行为和博客数据排行、行业、属性细分、采购商抓取电商平台的浏览记录、商品品类、收藏行为和交易行为行业分析、市场细分、淘宝热词、流失顾客监控、自有店铺运营统计分析、什么好卖.词汇记忆,搜索引擎页面分析技术(页面提醒商品变化)电子商务的推荐系统。基本都是基于协同过滤的推荐系统:背后的算法是基于内容、基于用户行为、基于产品等。另外一个可以就是对网络用户行为分析。来分析用户在网站的点击行为。从而为产品设计、改进产品提供指导。文本挖掘,因为以前都是点击流数据,对于用户评论的文字信息,提炼的很少,主要用Google、垂直搜索引擎会用到排序之类。国内基于互联网的数据挖掘运用,主要从一下三个方向:
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!