数据挖掘章概念描述特征化与比较教学课件3

上传人:无*** 文档编号:241431864 上传时间:2024-06-25 格式:PPT 页数:57 大小:754KB
返回 下载 相关 举报
数据挖掘章概念描述特征化与比较教学课件3_第1页
第1页 / 共57页
数据挖掘章概念描述特征化与比较教学课件3_第2页
第2页 / 共57页
数据挖掘章概念描述特征化与比较教学课件3_第3页
第3页 / 共57页
点击查看更多>>
资源描述
时间反复无常,鼓着翅膀飞逝数据挖掘章概念描述特征化与比较数据挖掘章概念描述特征化与比较特征化和比较特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2024/6/256数据概化和基于汇总的特征化数据概化和基于汇总的特征化n数据概化n将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次n方法:nOLAP方法:n面向属性的归纳2024/6/257OLAPOLAP方法方法n在数据立方体上进行计算和存储结果n优点n效率高n能够计算多种汇总n如:count,average,sum,min,maxn还可以使用roll-down和roll-up操作n限制n只能处理非数值化数据和数值数据的简单汇总。n只能分析,不能自动的选择哪些字段和相应的概念层次2024/6/258面向属性的归纳nKDD Workshop(89)中提出n不限制于种类字段和特定的汇总方法n方法介绍:n使用SQL等收集相关数据n通过数据属性值删除和属性值概化来实现概化n聚集通过合并相等的广义元组,并累计他们对应的计数值进行n和使用者之间交互式的呈现方式.2024/6/259基本方法基本方法n数据聚焦数据聚焦:选择和当前分析相关的数据,包括维。n属性删除属性删除:如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。n属性概化属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。n属性阈值控制属性阈值控制:typical 2-8,specified/default.n概化关系阈值控制概化关系阈值控制:控制最终关系的大小2024/6/2510基本算法基本算法nInitialRelInitialRel:得到相关数据,形成初始关系表nPreGen:通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。nPrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。n结果的表示结果的表示:概化关系、交叉表、3D立方体2024/6/2511示例示例nDMQL:use Big_University_DBmine characteristics as“Science_Students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in“graduate”n相应的相应的SQL:SQL:Select name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in“Msc”,“MBA”,“PhD”2024/6/2512类特征化:示例类特征化:示例Prime Generalized RelationInitial Relation2024/6/2513概化结果的表示概化结果的表示n概化关系:n一个表格,其中有属性字段,后附汇总方法。n交叉表:n二维交叉表n可视化方法:nPie charts,bar charts,curves,cubes,and other visual forms.n量化特征规则:(上表与上表与136页例页例4.26)2024/6/2514表达方式表达方式-概化关系概化关系(133页例页例4.22)2024/6/2515表达方式表达方式交叉表交叉表(133页例页例4.23)2024/6/2516使用使用CubeCube技术进行实现技术进行实现n对给定的数据动态创建数据立方体:对给定的数据动态创建数据立方体:n便于有效的下钻操作n可能增加响应时间n解决方法:实现存储一些较高层次的统计信息。n使用预定义的数据立方体:使用预定义的数据立方体:n预先构建数据立方体nCube计算的花费和额外的存储空间2024/6/2517特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化分析特征化:分析属性之间的关联性分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2024/6/2518属性相关性分析属性相关性分析nwhy?n哪些维需要包括?n需要概化到什么层次?n减少属性;从而容易理解模型结果nWhat?n使用统计的方法进行数据预处理n过滤掉一些不相关或者相关性比较弱的字段n保留并对相关属性进行排序n相关性和维度、层次有关n分析特征化,分析比较 2024/6/2519属性相关性分析属性相关性分析n步骤:n数据收集n使用保守的AOI进行预相关分析n相关性分析,删除不相关和弱相关属性n使用AOI产生概念描述2024/6/2520相关性度量标准相关性度量标准n相关性度量标准决定了如何对属性进行判断的标准n方法n信息增益information gain(ID3)n增益比gain ratio(C4.5)nGini索引gini indexn不确定性n相关系数2024/6/2521Entropy 和 Information Gainn集合S中类别Ci的记录个数是si 个 i=1,m n期望信息n属性A的熵是n信息增益2024/6/2522一个例子一个例子(131页例页例5.9)n任务n使用分析特征化来了解研究生的一般特征n属性名称 gender,major,birth_place,birth_date,phone#,and gpanGen(ai)=concept hierarchies on ainUi=attribute analytical thresholds for ainTi=attribute generalization thresholds for ainR=attribute relevance threshold2024/6/2523例子:分析特征化(续)例子:分析特征化(续)n1.数据收集ntarget class:graduate studentncontrasting class:undergraduate studentn2.使用 Ui分析概化n属性删除nremove name and phone#n属性概化n generalize major,birth_place,birth_date and gpanaccumulate countsn候选关系:gender,major,birth_country,age_range and gpa2024/6/2524例子:分析特征化例子:分析特征化(2)(2)Candidate relation for Target class:Graduate students(=120)Candidate relation for Contrasting class:Undergraduate students(=130)2024/6/2525例子:分析特征化例子:分析特征化(3)(3)n3.相关性分析n计算期望信息n计算每个属性的熵Number of grad students in“Science”Number of undergrad students in“Science”2024/6/2526例子:分析特征化例子:分析特征化(4)(4)n得出每个属性的熵n计算每个属性的Information GainnInformation gain for all attributes2024/6/2527例子:分析特征化例子:分析特征化(5)(5)n4.Initial working relation(W0)derivationnR=0.1n删除不相关或者弱相关的属性=drop gender,birth_countryn删除比较类的关系n5.在W0进行AOI分析Initial target class working relation W0:Graduate students2024/6/2528特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较挖掘类比较:获取不同类之间的不同处获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2024/6/2529挖掘类比较挖掘类比较n比较:比较两个或者更多类.n方法:n将相关的数据分成目标类和比较类。n将两个类别的数据概化到相同的层次。n用相同层次的描述对元组进行比较。n对于每个元组展现其描述和两个衡量标准:nsupport-distribution within single classncomparison-distribution between classesn将差异很大的元组特别显示出来n相关性分析:n发现最能体现类别之间差异的属性.2024/6/2530例子:分析性比较例子:分析性比较(133页例页例5.10)nTaskn使用区别规则来分析本科生和研究生nDMQL queryuse Big_University_DBmine comparison as“grad_vs_undergrad_students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”where status in“graduate”versus“undergraduate_students”where status in“undergraduate”analyze count%from student2024/6/2531例子:分析性比较例子:分析性比较(2)(2)n条件:nattributes name,gender,major,birth_place,birth_date,residence,phone#and gpanGen(ai)=concept hierarchies on attributes ainUi=attribute analytical thresholds for attributes ainTi=attribute generalization thresholds for attributes ainR=attribute relevance threshold2024/6/2532例子:分析性比较例子:分析性比较(3)(3)n1.数据收集n目标类和比较类n2.属性相关性分析nremove attributes name,gender,major,phone#n3.同步概化ncontrolled by user-specified dimension thresholdsnprime target and contrasting class(es)relations/cuboids2024/6/2533例子:分析性比较例子:分析性比较(4)(4)Prime generalized relation for the target class:Graduate studentsPrime generalized relation for the contrasting class:Undergraduate students2024/6/2534例子:分析性比较例子:分析性比较(5)(5)n4.在目标和比较类别上,Drill down,roll up and other OLAP operations,确定概化层次.n5.展现方式n generalized relations,crosstabs,bar charts,pie charts,or rulesn比较性的度量,以体现目标类和比较类之间的差别ne.g.count%2024/6/2535量化区分规则量化区分规则nCj=目标类nqa=概化元组n也覆盖比较类别的元组nd-weightn范围:0,1n量化区别规则2024/6/2536例子例子:量化区别规则量化区别规则n量化区别规则(135页例页例5.11)nwhere 90/(90+120)=30%Count distribution between graduate and undergraduate students for a generalized tuple2024/6/2537类别描述类别描述n量化特征规则n必要n量化区别规则n充分n量化描述规则n必要和充分2024/6/2538例子例子:量化描述规则量化描述规则(136页例页例5.13)n对于目标类Europe的量化描述规则(137页例页例5.14)Crosstab showing associated t-weight,d-weight values and total number(in thousands)of TVs and computers sold at AllElectronics in 19982024/6/2539特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量在大型数据库中挖掘描述统计度量n讨论n总结2024/6/2540挖掘数据散布特征挖掘数据散布特征n动机n更好的了解数据:集中趋势,差别 和 分布n数据散布特征 nmedian,max,min,quantiles,outliers,variance,等.2024/6/2541衡量中心趋势衡量中心趋势n平均值n带权平均n中位数:一个整体度量n如果是奇数,则为中间数,偶数则为中间两数的平均n用插值的方法进行估计n模n出现次数最多的值nUnimodal,bimodal,trimodalnEmpirical formula:2024/6/2542衡量离散趋势衡量离散趋势n四分位数四分位数,异常异常 和和 盒图盒图n四分位数四分位数:Q1(25th percentile),Q3(75th percentile)n中间四分位区间中间四分位区间:IQR=Q3 Q1 n五数概括五数概括:min,Q1,M,Q3,maxn盒图盒图:ends of the box are the quartiles,median is marked,whiskers,and plot outlier individuallyn异常异常:usually,a value higher/lower than 1.5 x IQRn方差和标准差nVariance s2:(algebraic,scalable computation)nStandard deviation s is the square root of variance s22024/6/2543 盒图分析盒图分析n五数概括五数概括:Minimum,Q1,M,Q3,Maximumn盒图盒图n数据用盒子的形式表现n盒子的两端分别是两个分位数,i.e.,the height of the box is IRQn中位数用一条线来表示。n延长线:从盒子延长到最大和最小值2024/6/2544A BoxplotA boxplot2024/6/2545数据分布的可视化:盒图分析数据分布的可视化:盒图分析2024/6/2546在大型数据库中挖掘统计信息在大型数据库中挖掘统计信息n方差方差n标准差标准差:方差的平方根n衡量分散程度n当且仅当所有值一样的时候为0。n方差和标准差都是代数的2024/6/2547直方图(频率直方图)直方图(频率直方图)n图形化表示类描述的基本统计信息n频率直方图2024/6/2548分位数图分位数图2024/6/2549分位数分位数-分位数分位数(Q-Q)(Q-Q)图图2024/6/2550散布图散布图2024/6/2551Loess Loess 曲线曲线2024/6/2552图形化的表示基本统计描述图形化的表示基本统计描述n直方图直方图:n盒图盒图:n分位数图分位数图:each value xi is paired with fi indicating that approximately 100 fi%of data are xi n分位数分位数-分位数图分位数图(q-q):graphs the quantiles of one univariant distribution against the corresponding quantiles of anothern散布图散布图:each pair of values is a pair of coordinates and plotted as points in the planenLoess(local regression)Loess(local regression)曲线曲线:add a smooth curve to a scatter plot to provide better perception of the pattern of dependence2024/6/2553特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论讨论n总结2024/6/2554面向属性的归纳 vs.示例学习方法n原理和基本假设的不同n机器学习:正负样本。n概念描述:只有正样本。n训练样本集的大小n机器学习:训练样本集小n概念描述:训练样本集大。n概化方法的不同n机器学习:按照元组概化n概念描述:按照属性概化2024/6/2555特征化和比较特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2024/6/2556 31、只有永远躺在泥坑里的人,才不会再掉进坑里。黑格尔32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。普列姆昌德33、希望是人生的乳母。科策布34、形成天才的决定因素应该是勤奋。郭沫若35、学到很多东西的诀窍,就是一下子不要学很多。洛克
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!