数据挖掘与R语言工具优势

上传人:友**** 文档编号:157260836 上传时间:2022-09-29 格式:DOCX 页数:11 大小:428.43KB
返回 下载 相关 举报
数据挖掘与R语言工具优势_第1页
第1页 / 共11页
数据挖掘与R语言工具优势_第2页
第2页 / 共11页
数据挖掘与R语言工具优势_第3页
第3页 / 共11页
点击查看更多>>
资源描述
1.数据挖掘概述数据挖掘是应用统计学、 机器学习和模式识别等学科的知识,从数据中发现 有用的、有效的、未知的 并且可以理解的信息 的一项技术。简言之,数据挖掘技术就是从大量的历史数据中总结原因,发现事物的本质,把握事物发展的趋势。2.数据挖掘常用模型有了数据,我们要做的就是寻找合适的模型。数据挖掘的目的或者是理解产生数据的机制,或者是预测。根究不同的目的,我们可以将模型分为描述性模型与预测性模型。其中描述性模型是为了揭示蕴含在历史数据中的规律,属于无监督模型;预测性模型是对未来时间的预测,属于监督模型。数孫挖掘模型描述性模型(无监督模型) 不人为指定研究对象,超过模型弊 i 去寻校事罚间的本贡预範性模型(有监督模型)有明确目的.指定一个研究对象,考尋具 也疋泉与研究对氢冋影电夫丟和隹度模型图示B相关性分析原理应用场景探索现象之间关系的密切程度和表达形式。研究设备发生的缺陷类型与投运年限的相主成分分析因子分析对应分析A两者有很强的正相关性将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。关性。用于招投标家打分数据各技术要素细指标中的维研究。因子分析的基本目ri .的就是用少数几个典型相关分析是分析两组随机变量间典型相关分析扩展。利用因子分析原因子去描述许多指标或因素之间的联系,因子分析可以 使用旋转技术帮助解释因子,在解释方面更加有优势。线性密切程度的统 计方法,是两变量 间线性相关分析的变L呈 A A輝理,同时将变量与样本反映在一张图上。因子分析将投标中相关各技术要素分解为因子线性组合,构造 因子模型。运用在生产域中的设备型与缺陷类间两组变量的线性关系究。同时将样本(设 备类别)与变量(缺陷原因)在 一张图上展示, 研究之间的相似性。聚类分析通过分析事物的内 在特点和规律,并 根据相似性原则对 事物进行分组。通过不同的聚 类方法对研究 对象进行聚类,并以图形化将 结果展示出来。研究设备在投运后开始发生缺陷的危险时刻。并对统计区间内的设备是否发生缺陷进行研究。从历史数据中,总 结事物发展的规 律,把握未来发展 的趋势。确定两种或两种以 上变数间相互依赖 的定量关系的一种 统计分析方法。通过时间序列 模型,了解缺陷 随时间变化的 发展趋势。建立缺陷供电 局和设备类型 间的线性模型,对未来缺陷数 进行预测。Logistic 回归生存分析Logistic回归只能处 理两类分类问题, 是一种线性分类 器,实现简单,但 容易欠拟合,一般 精确度不太高。对管理对象的生存 时间进行分析和推 断,研究生存时间 和结局与众多影响 因素间关系及其程 度大小的方法。应用在设备是 否发生缺陷的 业务场景中。关联规则序列模式挖掘昭紀憾劇记嵋拳决策树贝叶斯分类严=11” n r. * 从大量数据中发现潜在的对象之间的同时出现的关系。A现象出现B现象 也会同时发生的情况。对代表事件之间存在某种序列关系的数据进行相对时间或者其他模式出现频率高的模式挖掘。根据数据规则的生 成过程,用倒立的 树形图将结果展示出来。研究设备在同情况下会生严重和紧缺陷的频繁 度和关系。用在研究某单体设备随时间变化而现不同缺陷型的模式挖掘。将影响缺陷类型的供电局、供应商、设备间的关系用树形图展示出来。GBDT( MART)迭代决策树是一类利用概率统对历史缺陷数计知识进行分类的据的严重等级算法。该方法简单进行贝叶斯分(利用先验概率)、类,计算下次缺分类准确性高、速陷发生出现不度快。同等级的概率来进行分类。是一种迭代的决策GBDT几乎可应树算法,该算法由用与所有的回多棵决策树组成,归问题(线性/所有树的结论累加非线性),亦可起来做最终答案。应用与二分类问题。KNN算法(最近临近法)聂近临近点 KNN算法是机器学 习里面比较简单的 一个分类算法:计 算一个点A与其他 所有点之间的距 离,然后将A点分 配到所属类别中比 例最大的类别中。用于生成领域、招投标领域等分类问题的研究。随机森林神经网络文本挖掘社会网络的简单组合方法实现对简单决策树的Bagging 回归改良,提高精确性。*门?(工)siii 7(.面、引入核方法极支持向量机大提高对非线性问题的处理能力。另一种组合方式,随机产生大量决策树,再进行投票分 类。SVM核心是寻找最 大间隔分类超平2忸1BU J.I利用不断放回抽样利用机器学中的再抽样合算法建立陷预测模型。利用抽样组合, 对结果进行等权投票的算法建立缺陷预测模型。利用模拟神经网络利用自我学的自我学习系统进的机器学习行模型拟合,有效法建立缺陷地解决很复杂的有测模型。大量相互相关变量漲工 T的分类和回归问 题,但对维度多、 样本量小的数据模 拟效果不好。习算预对一些系统收集数据时间不长、维度复杂的数据进行研究。jL*石:m专式勺 学月氏撮竜指从文本数据中抽 取有价值的信息和 知识的计算机处理 技术。对大量的缺陷 描述的文本信 息进行挖掘,迅 速找出有价值 的关联信息。来源于数学的图 论,目前被广泛应 用于社会学、经济 学、管理学领域。应用到生产领 域的缺陷数据 中,进行设备缺 陷的社会网络 分析。-单铁番H -弧鹅0推荐系统LDA(主题模型)异常检测EM算法(最大期望法)la推荐系统的实现主基于营销数据要分析两个方面:库中的用户信基于内容(用户或息和用电情况者物品基本信息的进行针对性营相似度)和协同滤销。波(基于历史数据,过滤复杂的、难以表达的概念)的实现。LDA是一种非监督LDA模型可以机器学习技术,可运用到营销个以用来识别大规模性化推荐、电网文档集(document的社交网络等collection )或语料领域。库(corpus)中潜藏的主题信息。发现与数据一般行用于用户用电为或特征不一致的量异常行为检模式,常用的有基测。于统计、距离、密度、深度、偏移、高维数据的异常点检测算法。遗传算法越口箱1的f(EXr;J|亍怖道应JT检测诽怙|迅扌H 左宓二耋具|蒔和在统计中被用于寻 找,依赖于不可观 察的隐性变量的概 率模型中,参数的 最大似然估计。遗传算法是由进化 论和遗传学机理而 产生的直接搜索优 化方法。EM算法常用在 机器学习中的数据聚类(DataClustering)领 域。遗传算法用于分类和其他优化算法,也可能 用于评估其他 算法的拟合度。147FRGrowth 算法itemnode-linksc三 4 一n F 七bp一 1I Jcadchiblcbead ofFP Growth是一种比 Apriori更高效的频 繁项挖掘方法,它 采用了一种简洁的 数据结构(频繁模 式树),在这棵树上 找出包含P的频繁 项集。用于在大量的 缺陷数据中快 速寻找关联关 系,大大提高效 率。粗糙集方法也亦!Aprt(X)粗糙集理论可以用 于分类,发现不准 确数据或噪声数据 内的结构联系。模糊集方法空间数据挖掘深度学习模糊集理论作为传 统的二值逻辑和概 率论的一种替代, 它允许我们处理高 层抽象,并且提供 了一种处理数据的 不精确测量的手 段。空间数据挖掘是从 空间数据中发现模 式和知识。深度学习是机器学 习研究中的一个新 的领域,它模仿人 脑的机制来解释数 据,例如图像,声 音和文本。3. R语言工具优势可对数据集进 行降维,发现分 类规则,并对得 到的结果进行 统计评估等应 用。模糊集理论允 许处理模糊不 清或不精确的 事实的分类问 题。可以结合局方 的GIS系统进行 电量、设备等数 据的挖掘。深度学习是目 前最接近人脑 的复杂模型,百 度在语音、OCR、人脸识 别、图片搜索领 域有应用。R语言的排名R语言由于其开源、 丰富的各种算法和数据挖掘模型、强大的画图能力和可拓展能力让它成为这几年各大高校和企业届最受欢迎的数据挖掘软件。software2012 used(%)2011 used(%)R (245)30.7%23.3%Excel (238)29.3%21.8%Rapid-1 RapidMiner (213)26.7%27.7%KNIME (17421.8%12.1%Weka / Pentaho (118)14,8%11,8%StatSoft Siatistica(112)14.0%8.5%SAS (101)12.7%13.6%Rapid I Rapid Analytics (&3)10.4%Not askd im 2011MATLAB (80)10.0%7.2%IBM SPSS Siaiislics (62)7.6%72%JBMSPSS Modeler (54)63%8.3%SAS Ertorpriso Minor (-16)5.B%7.1%第13期KDnuggets关于数据挖掘软件使用的调查-对于过去的12个月里实际的项目过程中使用了哪些数据挖掘(分析)软件,R、Excel和RapidMiner则名列三甲(去年 R排名第二)。另一份关于最常使用的底层语言依次为R语言、SQL Java和Python。R语言的优势几乎覆盖了整个统计领域最前沿的算法。广泛、便捷的数据接口。比如R-base可以良好的接入 CSV(Comma Separated Values)数据扩展包,直接读入 SPSS SAS Minitab、Stata、Excel等文件通过数据库,读取 MySQL、SQL Server、DB2、Oracle等数据库甚至直接读取图片、语音、网页等非结构化数据同其他语言的调用。强大、完善的绘图功能。R 提供了为高级”(High level)、低级” (Low level)和“交互式” (Interactive)三种绘图方式基于 Graphical Programming Language 的完整绘图框架ps、pdf、png、jpeg、bmp、gif、SVG LATEX HTML 输出,甚至动画最重要的一点:R is free (in both senses)。R语言的操作界面控制台通过交互式操作,输入命令后敲回车即可看到运行结果。R语言可以通过不同的加载包调用其他开源数据挖掘软件例如:通过加载rattle包,调出rattle工具的操作界面(图形化建模工具)通过加载RWeka包,可以应用 Weka工具的各种数据挖掘算法口idwIf*3曲pl 节31 mt pr mi* JfiHU空 iKUEfl IhltrCsrffibt r41-iLl-3&XdlaU-fiffi bfijrdiXft4Ialuicwe QClUluWlAL; 12Itai 1” XhY “ !_| .llli53 Ml 3 CThLm* LJJLHILBI書1.q :lf ULummW13C L W:T5Z MlS i *何晒4帰jtaQdluT怦fhCATWHisi: Q w U3sUdu1:曲3血L;涵 OJ幻R语言工具与公司系统集成可以通过Rjava包在JAVA中调用R中的命令,技术部门同事已经实现在公司系统的编译R语言,并将模型结果部署到系统中(下图是相关性分析在系统中的演示)。HI*性第皆匚孚无1 3JitU旳fkE看XJL*c* tsrasrioa 沁 emsomO.S4dM34K7 Mifrrf iftKc同审不戈店 ES謀謨皤毗祠-C. iT35Tt54lK3-a-tiWM:rrH3皿赃9刑o :ra耳如訂gr OKniM:ttS*JTK匚眞曲定烬il苫砲送戳fl 1 UOGKiCM 42KHt M0MJD4IMK:la 映Q. CZTHMtMC9Ef HQmmmSTHI:cmras ftMFmswmi afcfiitiffiWWii0 垃比Lgjerr血律弼知白澤去逮村恋庙 4v*iru m aim口 1T1WK:MMMJ町 HTKMnZiMbTE? W1K71T iT&IIEQ AKMXrilS. 41MrFi+-i#a!Rr -r Jlrfr nra -rwBId-iM K-a mwTfG&py an EDvwrK wawnr?n CdliC M-l riTa-Er-C MrVWWTC wwr- Jbbf*下一號 GL*f Jl 并 4UiHXKBnOif腳囂贰PIMiB 筍气Lil.iHQn rt-ElKE旱:3U.目細d, U%=A ; r;炳 M:C ff+JlI1tELC &-5W44t43L !Bnm441T4吗/-./ :L 撫:匕:*二.L.常鼻樹产.r* 4- .a -*. :*=;-”r 十、.4“、, * .aiCTLfrf f4ni*拇C. UMIBE HriflSio919K1G? 冷C bM 证E49U!43a- - * x ; . .J , .匚WEI上MS3it1详*Zf HS.:C H! idl1 HTT -5-九-“ *-
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!