教材配套教学课件

资源描述

清华大学出版社本章目标了解知识发现的基本过程掌握KDD过程模型的应用学习KDD实验案例24六月2024第1页，共36页3.1知识发现的基本过程清华大学出版社数据库中的知识发现（KnowledgeDiscoveryinData,KDD）从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。KDD一词是UsamaM.Fayyad于1989年首次提出，并给出如上定义。定义解析KDD一个处理过程，大部分步骤是系统自动执行的；数据集一个有关事实的集合；模式针对某个数据集，描述了数据自身的特性；可信的要求发现的模式必须经过了正确性检验，能够应用到新数据中；新颖的表示发现的模式应该是以前没有发现的、希望得到的新发现；潜在使用价值表示发现的模式应该有价值、有意义，价值和意义一般不能直接从数据中看出来或查询和搜索出来，是可以被利用的潜在价值；可被人理解发现的模式是人们容易理解的，从而更好的被评估和利用。24六月2024第3页，共36页清华大学出版社3.1.1KDD过程模型24六月2024第4页，共36页1、经典模型经典模型（阶梯处理模型，阶梯处理模型，Fayyad等提出等提出，9步骤步骤）（1）数据准备数据准备了解应用领域情况，熟悉背景知识，确定用户要求。（2）数据选择数据选择根据用户要求从数据库中提取与KDD相关的数据，会利用一些数据库操作对数据进行处理。（3）数据预处理数据预处理对数据进行加工，检查数据的完整性及数据的一致性，对其中的噪声数据、缺失数据进行处理。（4）数据缩减数据缩减对经过预处理的数据，根据知识发现的任务对数据进行再处理，主要通过投影或数据库中的其他操作减少数据量。（5）确定确定KDD的目标的目标根据用户要求，确定KDD是发现何种类型的知识。（6）确定知识发现算法确定知识发现算法根据目标选择合适的知识发现算法，包括选取合适的模型和参数，并使得知识发现算法与整个KDD的评价标准相一致。（7）数据挖掘数据挖掘运用算法，从数据中提取出用户所需要的知识。（8）模式解释模式解释对发现的模式进行解释。为了取得更为有效的知识，可能会返回到前面处理步骤中反复进行前面的KDD过程，从而提取出更有效的知识。（9）知识评价知识评价将发现的知识以用户能理解的方式呈现，同时对知识进行检验和评估。清华大学出版社3.1.1KDD过程模型24六月2024第5页，共36页图3.1经典KDD处理模型清华大学出版社3.1.1KDD过程模型2、CRISP-DM模型（Cross Industry Standard Process for Data Mining，跨行业数据挖掘标准流程，6个步骤）。（1）商业理解（Business understanding）关注项目目标和商业前景的需求。给出了数据挖掘问题的定义和最初的计划。（2）数据理解（Data understanding）数据的收集和假设的构造。（3）数据准备（Data preparation）选择表、记录和属性，为所选的模型工具清洗数据。（4）建模（Modeling）选择和应用一个或多个数据挖掘技术。（5）评估（Evaluation）通过对发现的结果进行分析，判断开发的模型是否达到了商业目标，同时确定该模型未来的使用价值。（6）部署（Deployment）若模型达到了商业目标，制定行动计划应用模型。24六月2024第6页，共36页参考Web站点http:/www.crisp-dm.org清华大学出版社3.1.1KDD过程模型3、联机模型OLAM（On-lineAnalyticalMiningModel）传统数据挖掘过程的问题（1）挖掘过程交互性不足，用户参与困难。（2）发现的内容不好解释和理解，评估和应用困难。（3）多个相关数据集上模式的比较和趋势分析实现困难。24六月2024第7页，共36页清华大学出版社联机分析挖掘（On-lineAnalyticalMining）又称多维数据挖掘。SimonFraser大学JiaweiHan教授等在数据立方体（DataCube）的基础上提出的一种数据挖掘技术。OLAM技术将数据挖掘技术（DM）和联机分析处理技术（OLAP）集成在一起，在多维数据库中发现知识，克服了传统的数据挖掘过程存在的问题。24六月2024第8页，共36页清华大学出版社3.1.2知识发现软件1、独立的知识发现软件针对某一种数据挖掘算法设计开发的软件。2、横向的知识发现软件集成化的知识发现工具集，即知识发现的通用软件；如EnterpriseMiner，IntelligentMiner，Cognos，SetMiner，Clementine，WarehouseStudio，RuleQuest，See5等。3、纵向的知识发现软件针对特定的应用提供完整的数据挖掘和知识发现解决方案的软件。24六月2024第9页，共36页清华大学出版社3.1.3KDD过程的参与者1、业务分析人员主要职责是解释业务对象，根据业务对象，确定用于数据定义和数据挖掘算法的业务需求。2、数据分析人员主要职责将业务需求转化为知识发现的过程，应用数据分析、数据挖掘的各种算法、方法和工具及软件，选择合适的技术，实施挖掘会话，并对KDD结果进行解释和评估。3、数据管理人员主要职责是负责按照KDD目标提取数据。知识发现专家和应用领域的用户24六月2024第10页，共36页3.2KDD过程模型的应用清华大学出版社3.2.1步骤1：商业理解1、任务确定商业目标2、任务评估形势3、任务确定KDD目标4、任务制定项目计划24六月2024第12页，共36页清华大学出版社3.2.2步骤2：数据理解1、任务收集和描述数据2、任务探查数据24六月2024第13页，共36页清华大学出版社3.2.3步骤3：数据准备1、任务抽取数据1）数据源关系型数据库（RelationalDataBase，RDB）、数据仓库或平面文件。24六月2024第14页，共36页图3.2 Drive 数据库清华大学出版社3.2.3步骤3：数据准备2）属性和实例选择（1）淘汰属性（2）构造属性（3）实例选择24六月2024第15页，共36页新属性值是现有的两个属性值的增长百分比或下降百分比清华大学出版社3.2.3步骤3：数据准备2、任务清洗数据KDD过程中的数据预处理（Datapreprocessing）工作。1）噪声数据处理噪声（Noise）属性值中的随机错误。处理噪声发现和处理重复记录和错误属性值；采取数据平滑操作；发现和处理孤立点。24六月2024第16页，共36页清华大学出版社数据平滑（DataSmoothing）一种减少数据中噪声的处理技术。分箱方法、均值平滑、中值平滑、函数平滑、线性拟合方法等。分箱方法将数据进行排序，并对它们进行“等高度”划分成若干个箱，每箱中数据个数相同，再根据箱中数据均值、中值或边界接近值进行平滑聚类分析技术发现并尽可能从数据集中删除非典型实例，即孤立点。24六月2024第17页，共36页图3.3 基于聚类分析的孤立点检测清华大学出版社3.2.3步骤3：数据准备2）缺失数据处理产生原因遗漏；无法填写。处理办法忽略含有缺失值的记录；手工填补缺失值；利用均值代替缺失值；利用同类均值填补缺失属性值；使用全部常量填补缺失值；利用最可能的值填补缺失值。24六月2024第18页，共36页清华大学出版社3.2.3步骤3：数据准备3、任务变换数据数据变换（DataTransformation）平滑数据数据标准化数据类型变换24六月2024第19页，共36页清华大学出版社数据标准化（Normalization）改变数据值使之落在一个指定的范围内。4种常用的标准化方法十进制缩放（Decimalscaling）Min-Max标准化（Min-Maxnormalization）Z-Score标准化（NormalizationusingZ-scores）对数标准化（Logarithmicnormalization）24六月2024第20页，共36页清华大学出版社3.2.4步骤4：建模1、任务选择建模技术2、任务检验设计3、建模和评估24六月2024第21页，共36页建立一个有指导学习或无指导聚类模型的典型步骤：（1）从准备好的数据集实例中选择训练和检验数据；（2）选择一组输入属性；（3）如果学习是有指导的，选择一个或多个输出属性；（4）选择学习参数的值；（5）调用数据挖掘工具建立模型。（6）数据挖掘完成，对模型进行评估。如果结果不够理想，可以多次重复上述步骤。清华大学出版社3.2.5评估1、任务评估结果从商业角度评估模型的价值，是否符合商业目标。2、任务回顾和确定下一步方案对整个KDD过程进行总结，根据评估结果和总结，确定下一步的任务。24六月2024第22页，共36页清华大学出版社3.2.6部署和采取行动（Takingaction）1、任务制定部署方案制定部署策略，包括必要的步骤及相应的实施办法。2、任务制定监控和维护方案准备监控策略，避免数据挖掘结果被长期无用。3、任务采取行动对KDD中发现的知识具体化，并直接用于解决合适的问题。24六月2024第23页，共36页3.3实验：KDD案例清华大学出版社1、实验目的使用KDD过程模型，通过建立信用卡筛选分类模型，对新申请信用卡客户进行评估，决定是否接受其信用卡申请。通过实验重点掌握KDD的数据准备、建模和评估过程，了解和体会KDD的迭代过程。24六月2024第25页，共36页清华大学出版社2、实验数据源实验数据来自UCI的CreditScreeningDatabases。数据库全名为JapaneseCreditScreeningDatabase.包含690个申请信用卡的客户信息，其中307个是申请被接受了的，383个是申请被拒绝了的。15个输入属性和1个输出属性，输出属性用（）表示信用卡申请被接受，用（）表示被拒绝。所有输入属性名和值都用无意义的符号表示，以保护机密数据。24六月2024第26页，共36页清华大学出版社3、实验方法使用简化的CRISP-DM模型包括：确定目标、准备数据，建模和评估4个步骤。24六月2024第27页，共36页清华大学出版社4、实验过程（1）步骤1：确定目标有指导学习建立信用卡筛选分类模型评估模型。模型不理想重新实验利用聚类技术检验输入属性对模型质量的影响。模型理想评估新申请客户，决定接受与否。（2）步骤2：准备数据数据集CreditScreening.xls，选择所有690个实例和16个属性，其中15个属性作为输入属性，第16个属性Class作为输出属性，生成.csv文件，加载到Weka。24六月2024第28页，共36页清华大学出版社（4）实验过程（3）步骤3：建模24六月2024第29页，共36页图3.4 分类模型训练结果清华大学出版社（4）实验过程（4）步骤4：评估检验集分类正确率为84.3%（不算太差），可以用于评估新申请客户。若希望得到更高质量分类器，则可以考虑l修改算法参数l进行属性评估l进行实例选择l选择其他有指导学习算法24六月2024第30页，共36页清华大学出版社通过无指导聚类技术评估输入属性检查输入属性是否能够很好地定义数据中所包含的类。步骤（1）执行聚类（k-means算法），发现309和381个实例被分别分类到Cluster0和Cluster1中（大小近似相等的簇），与实际分类情况极其接近，可认为簇质量较高。初步断定输入属性对于实例的分类能力是较强的。（2）对属性进一步分析，包括对缺失属性值进行检测（Preprocess预处理查看Missing）对所有属性的分类能力进行检测，找出具有较大/较小分类能力的属性。期望利用具有较大分类能力的属性，重新学习，建立更高质量的分类模型。24六月2024第31页，共36页清华大学出版社通过无指导聚类技术评估输入属性发现nine、ten、eleven和twelve4个属性具有较好的分类预测能力one、two、four、five和six5个属性具有较差的分类预测能力结论可以仅使用较好分类预测能力的4个属性建模，在提高效率的同时，又不降低分类器的质量。24六月2024第32页，共36页清华大学出版社通过无指导聚类技术评估输入属性24六月2024第33页，共36页（a）（b）（c）（d）（e）（f）（g）（h）（i）图3.10 信用卡筛选数据集几个属性的Visualize cluster assignments窗口清华大学出版社通过无指导聚类技术选择实例（3）通过实例选择来提高模型质量方法选择每个类中取代表性属性值的20个实例，其中分类属性值为在各个类中出现比例最高的属性值（如one属性的b值）；数值属性值为接近各类中均值的取值（如two属性的25和22.67，最典型实例为属性two取这两个值或接近这两个值的实例）。结果92.2%的分类正确率。结论一个使用类代表性属性值选择的300个最典型的数据实例建立的有指导模型能够比用690个训练实例建立的模型效果更好。24六月2024第34页，共36页清华大学出版社本章小结24六月2024第35页，共36页图3.12 第3章内容导图

展开阅读全文

教材配套教学课件

最新文档