数据挖掘应用平台及其关键技术研究

上传人:仙*** 文档编号:163743592 上传时间:2022-10-22 格式:DOC 页数:11 大小:484KB
返回 下载 相关 举报
数据挖掘应用平台及其关键技术研究_第1页
第1页 / 共11页
数据挖掘应用平台及其关键技术研究_第2页
第2页 / 共11页
数据挖掘应用平台及其关键技术研究_第3页
第3页 / 共11页
点击查看更多>>
资源描述
目 录学校代码: 10246学 号: 990307博 士 学 位 论 文数据挖掘应用平台及其关键技术研究院 系:计算机与信息技术系专 业: 计算机软件姓 名:朱建秋指 导 教 师: 朱扬勇 教授完 成 日 期: 2002年4月25日4数据挖掘应用平台及其关键技术研究复旦大学博士学位论文数据挖掘应用平台及其关键技术研究The Research on A Data Mining Platform and Its Key Technologies朱建秋导 师朱扬勇 教授指导小组成员施伯乐 教授胡运发 教授顾 宁 教授目 录摘 要1ABSTRACT3第一章前言51.1 立论背景和研究意义51.1.1 立论背景51.1.2 研究意义61.2 研究现状61.2.1 数据挖掘技术61.2.2 数据挖掘系统71.3 存在的问题及研究方向101.4 本文工作111.4.1 研究内容111.4.2 本文结构14第二章 数据挖掘系统的发展及问题分析152.1 引言152.2 数据挖掘过程模型162.2.1 Fayyad过程模型及数据挖掘定义162.2.2 CRISP-DM过程模型及数据挖掘商业定义172.3 四代数据挖掘系统192.4 数据挖掘系统发展的三个阶段212.4.1 独立的数据挖掘系统212.4.2 横向的数据挖掘工具212.4.3 纵向的数据挖掘解决方案222.5 问题分析232.5.1 提出问题232.5.2 闭环问题242.5.3 用户问题252.5.4 过程模型问题262.5.5 数据挖掘应用平台282.6 本章小结28第三章 数据挖掘应用平台293.1 数据挖掘应用平台框架293.1.1 数据挖掘系统的用户293.1.2 扩展的CRISP-DM模型303.1.3 数据挖掘应用平台框架323.1.4 框架、平台、系统343.2 数据挖掘应用平台总体设计353.2.1 体系结构353.2.2 功能模块353.3 数据挖掘应用平台关键技术分析393.3.1 数据源到指标体系的映射393.3.2 业务模型和算法的映射393.3.3 数据挖掘模型的融合393.3.4 数据挖掘模型的表示403.3.5数据挖掘应用平台建模语言423.4 数据挖掘应用平台特色433.4.1 基于构件的软件设计方法433.4.2 横向工具和纵向解决方案的融合433.4.3 与其他数据挖掘系统的比较443.5 本章小结45第四章 数据挖掘算法层474.1 引言474.2 带负属性的关联规则算法474.2.1 关联规则研究现状474.2.2 问题描述494.2.3 相关概念494.2.4 算法描述504.2.5 实验结果524.3 带时间特征的序列模式算法TESP534.3.1 序列模式研究现状534.3.2 问题描述544.3.3 相关概念554.3.4 TESP算法564.3.5 试验结果594.4 决策树算法DMTree604.4.1 分类算法研究现状604.4.2 问题描述614.4.3 DMTree算法设计614.4.4 DMTree的分割指标624.4.5 DMTree的MDL修剪634.5 基于遗传算法的前馈神经网络分类算法644.5.1 问题描述644.5.2 BP算法654.5.3 遗传学习算法654.5.4 基于遗传学习算法和BP算法的前馈网络664.6 CLIQUE聚类算法664.6.1 聚类研究现状664.6.2 问题描述684.6.3 CLIQUE算法描述684.7 异常检测LOF算法694.7.1 异常检测研究现状694.7.2 问题描述714.7.3 局部异常LOF的形式定义714.7.4 LOF算法分析及优化724.8 本章小结73第五章 业务逻辑层745.1 数据挖掘技术在CRM领域的应用745.2 客户特征化和指标体系745.2.1 客户特征化(Customer Profiling)745.2.2 客户特征化构建方法755.2.3 CRM数据挖掘应用平台的指标体系755.3 产品推荐模型765.3.1 基本概念765.3.2 研究现状775.3.3 实现的方法785.4 客户获取模型795.4.1 基本概念795.4.2 传统方法805.4.3 实现的数据挖掘方法815.5直销和客户响应模型815.5.1 基本概念815.5.2 传统方法835.5.3 实现的数据挖掘方法845.6 客户流失模型855.6.1 基本概念855.6.2 直接预测方法855.6.3 指标选择865.6.4 流失预测865.6.5 抑制链式反应875.7 客户价值模型875.7.1 基本概念875.7.2 潜在价值(PV)885.7.3 生命周期价值(LTV)885.7.4 实现的方法895.8 业务模型建模语言DMAPML895.8.1 业务建模任务905.8.2 模型925.9 本章小结92第六章 基于数据挖掘应用平台的系统936.1 关联规则挖掘工具ARMiner936.1.1 系统概述936.1.2 系统功能936.1.3 系统特色946.1.4 系统应用966.2 数据挖掘工具集DMiner966.2.1 系统概述966.2.2 系统功能976.2.3 系统特色986.2.4 系统应用996.3 客户智能分析系统CIAS1006.3.1 系统概述1006.3.2 系统功能1016.3.3 系统特色1036.4 本章小结104第七章 结束语1057.1 本文工作1057.2 结论1067.3 后续工作106参考文献108攻读学位期间作者的工作成果115致 谢116摘 要摘 要数据挖掘是从大量的数据中发现其潜在规律的技术,是当前计算机科学研究的热点之一。经过十多年的发展,研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。数据挖掘系统也从第一、二代系统转向第三、四代系统的研制。数据挖掘是面向应用的多学科交叉领域,应用推动了数据挖掘技术和理论的研究。而数据挖掘系统是数据挖掘研究和应用的桥梁,对数据挖掘技术的推广起到很大的作用。如何将现有的算法集中在一个统一的框架下,并且与特定的领域相结合,构造出能被各种层次的用户所接受的数据挖掘系统,是数据挖掘系统研究需要迫切解决的问题之一。本文研究第三代数据挖掘系统设计及其实现的关键技术,提出了一个统一的框架,设计并实现了基于第三代技术的数据挖掘应用平台,对数据挖掘系统的建设和发展具有理论和实际的指导意义。本文主要工作如下:1) 提出将数据挖掘系统从技术角度划分为四代,从发展观点经历三个阶段的论断,从而归纳出数据挖掘系统与应用相结合的趋势,提出数据挖掘应用平台的概念。2) 构建了一种新颖的数据挖掘体系结构,将数据挖掘划分成数据层、算法层、业务逻辑层、行业表示层五个层次。本文扩展了CRISP-DM数据挖掘过程模型,增加了过程模型对用户角色和闭环特征的支持,在此基础上设计了数据挖掘应用平台的框架和体系结构。提出通用的平台不能解决特定的领域问题,应该和各个领域的业务逻辑相结合构建应用平台,最后在行业具体应用上进行实施的论点。3) 改进和优化了部分数据挖掘算法,提高了算法的性能和适用范围。提出了带负属性的关联规则算法和带时间特征的序列模式算法TESP。带负属性的关联规则算法引入兴趣度作为评价的准则,并对传统关联规则算法进行改进,使得其能够挖掘带负属性的关联规则。TESP算法引入序列模式时间特征的概念,在找出模式的同时,也给出序列模式的时间特征,并且允许用户在挖掘之前对模式的这些时间特征进行限制,提高了序列模式挖掘的灵活性和有用性。将遗传算法和BP神经网络相结合,研制了基于遗传算法的前馈神经网络分类算法。对决策树算法SLIQ、局部异常因子检测LOF等算法给出了设计和实现上的优化。4) 提出在客户关系管理(CRM)领域构建业务逻辑层的体系架构,利用数据挖掘技术为客户行为建模,设计并实现了五个业务模型:产品推荐、客户获取、客户流失、客户价值、客户响应。5) 设计并实现了数据抽取转换装载工具DMETL、关联规则工具ARMiner和数据挖掘工具集DMiner、以及客户智能分析系统CIAS。关键词:数据挖掘应用平台、业务逻辑、业务模型、客户行为建模、构件中图分类号:TP302Error! Reference source not found.AbstractData Mining is a process of extracting previously unknown, actionable information from very large database and is a hot field in the research of computer science now. The emphases of research are moving from discovering techniques into system applications after more than ten years development. It now pays more attention to the integration of several discovering strategies and techniques and infiltration of multiple subjects. The data mining systems are moving from 1st, 2nd generations into 3rd, 4th generations.Data mining is an application oriented multiple-subject intersectional field and the data mining techniques and theories are motivated by applications. Data mining systems are the bridges between data mining researches and applications and play an important role in popularization of data mining techniques. It is an exigent problem to be solved in the research of data mining systems how to collect existing algorithms under a uniform framework integrating with specific domains and how to construct the data mining systems that can be accepted by different users.In this paper, we have a study on the key techniques in designing and implementing 3rd generation data mining systems and propose a uniform framework, design and implement a Data Mining Application Platform based on 3rd generation techniques. It may be a theoretical and practical guidance for the construction and development of data mining systems.The majority of our work is summarized here:1) Propose the conclusion to break the development of data mining systems into four generations from technique aspect and three phases from evolution aspect, then induce the trend that data mining systems should be integrated with applications, and bring forward the concept of Data Mining Application Platform.2) Design a novel data mining system architecture that divides data mining into five layers: data layer: algorithm layer, business rule layer, business presentation layer. In this article, we extend the CRISP_DM data mining process model by adding process models support to user role and closed loop, then design the framework and architecture of Data Mining Application Platform. We conclude that the universal platform cannot solve the problem in specific domain and we should construct the application platform through integrating with business rules, then implement in specific applications.3) Improve and optimize some data mining algorithms, improve the performance and applicable range of the algorithms. We bring forward the association rule algorithm with negative attributes and sequential pattern algorithm with time characteristicTESP. The association rule algorithm with negative attributes introduces interesting as the criterion of evaluation and makes some improvements to be able to mine association rules with negative attributes. TESP introduces the concept of sequential patterns time characteristic, it gives the time characteristic of sequential patterns when finding the patterns and it also allows user to put some restricts on the time characteristic of sequential patterns in order to improve the usefulness and flexibility of sequential pattern mining. We integrate the genetic algorithms with BP neural network and design a genetic based backpropagation neural network classifier. We make some optimization on the design and implementation of decision tree algorithmSLIQ and automatic outlier detection algorithmLOF.4) Propose the architecture of designing the business rule layer in customer relationship management (CRM), make use of data mining techniques to build customer behavior models, design and implement five operation model: product recommendation, customer acquisition, customer attrition, customer value, customer response.5) Design and implement a data ETL toolDMETL, an association rule toolARMiner, a data mining tool setDMiner and a customer intelligent analysis systemCIAS.Key Words: Data Mining Application Platform, business rule, business model, customer behavior modeling, componen
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!