资源描述
,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,*,概念描述,2024/11/1,1,特征化和比较,什么是概念描述?,数据概化和基于汇总的特征化,解析特征化,:,分析属性之间的关联性,挖掘类比较,:,获取不同类之间的不同处,在大型数据库中挖掘描述统计度量,讨论,总结,2024/11/1,2,什么是概念描述?,描述性,vs.,预测性 数据挖掘,描述性数据挖掘:,预测性数据挖掘:,概念描述:,特征化,:,对所选择的数据集给出一个简单明了的描述,汇总,比较,:,提供对于两个或多个数据集进行比较的描述,2024/11/1,3,概念描述和,OLAP,区别,概念描述:,能够处理复杂的数据类型和各种汇总方法,更加自动化,OLAP:,只能限制于少量的维度和数据类型,用户控制的流程,2024/11/1,4,特征化和比较,什么是概念描述?,数据概化和基于汇总的特征化,分析特征化,:,分析属性之间的关联性,挖掘类比较,:,获取不同类之间的不同处,在大型数据库中挖掘描述统计度量,讨论,总结,2024/11/1,5,数据概化和基于汇总的特征化,数据概化,将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次,方法:,OLAP,方法:,面向属性的归纳,2024/11/1,6,OLAP,方法,在数据立方体上进行计算和存储结果,优点,效率高,能够计算多种汇总,如:,count,average,sum,min,max,还可以使用,roll-down,和,roll-up,操作,限制,只能处理非数值化数据和数值数据的简单汇总。,只能分析,不能自动的选择哪些字段和相应的概念层次,2024/11/1,7,面向属性的归纳,KDD Workshop(89),中提出,不限制于种类字段和特定的汇总方法,方法介绍:,使用,SQL,等收集相关数据,通过数据属性值删除和属性值概化来实现概化,聚集通过合并相等的广义元组,并累计他们对应的计数值进行,和使用者之间交互式的呈现方式.,2024/11/1,8,基本方法,数据聚焦,:,选择和当前分析相关的数据,包括维。,属性删除,:,如果某个属性包含大量不同值,但是,1)在该属性上没有概化操作,,或者2)它的较高层概念用其它属性表示。,属性概化,:,如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。,属性阈值控制,:,typical 2-8, specified/default.,概化关系阈值控制,:,控制最终关系的大小,2024/11/1,9,基本算法,InitialRel,:,得到相关数据,形成初始关系表,PreGen,:,通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。,PrimeGen,:,根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。,结果的表示,:,概化关系、交叉表、3,D,立方体,2024/11/1,10,示例,DMQL:,use,Big_University_DB,mine characteristics as,“Science_Students”,in relevance to,name, gender, major, birth_place, birth_date, residence, phone#,gpa,from,student,where,status in “graduate”,相应的,SQL:,Select,name, gender, major, birth_place, birth_date, residence, phone#,gpa,from,student,where,status in “,Msc,”, “MBA”, “PhD” ,2024/11/1,11,类特征化:示例,Prime Generalized Relation,Initial Relation,2024/11/1,12,概化结果的表示,概化关系,:,一个表格,其中有属性字段,后附汇总方法。,交叉表,:,二维交叉表,可视化方法,:,Pie charts, bar charts, curves, cubes, and other visual forms.,量化特征规则,:,(,上表与,136,页例,4.26,),2024/11/1,13,表达方式-概化关系,(,133,页例,4.22,),2024/11/1,14,表达方式交叉表,(,133,页例,4.23,),2024/11/1,15,使用,Cube,技术进行实现,对给定的数据动态创建数据立方体:,便于有效的下钻操作,可能增加响应时间,解决方法:实现存储一些较高层次的统计信息。,使用预定义的数据立方体:,预先构建数据立方体,Cube,计算的花费和额外的存储空间,2024/11/1,16,特征化和比较,什么是概念描述?,数据概化和基于汇总的特征化,分析特征化,:,分析属性之间的关联性,挖掘类比较,:,获取不同类之间的不同处,在大型数据库中挖掘描述统计度量,讨论,总结,2024/11/1,17,属性相关性分析,why?,哪些维需要包括?,需要概化到什么层次?,减少属性;从而容易理解模型结果,What?,使用统计的方法进行数据预处理,过滤掉一些不相关或者相关性比较弱的字段,保留并对相关属性进行排序,相关性和维度、层次有关,分析特征化,分析比较,2024/11/1,18,属性相关性分析,步骤:,数据收集,使用保守的,AOI,进行预相关分析,相关性分析,删除不相关和弱相关属性,使用,AOI,产生概念描述,2024/11/1,19,相关性度量标准,相关性度量标准决定了如何对属性进行判断的标准,方法,信息增益,information gain (ID3),增益比,gain ratio (C4.5),Gini,索引,gini,index,不确定性,相关系数,2024/11/1,20,Entropy,和,Information Gain,集合,S,中类别,C,i,的记录个数是,s,i,个,i = 1, , m,期望信息,属性,A,的熵是,信息增益,2024/11/1,21,一个例子,(,131,页例,5.9,),任务,使用分析特征化来了解研究生的一般特征,属性名称,gender, major,birth_place,birth_date, phone#, and,gpa,Gen(a,i,),= concept hierarchies on,a,i,U,i,= attribute analytical thresholds for,a,i,T,i,= attribute generalization thresholds for,a,i,R,= attribute relevance threshold,2024/11/1,22,例子:分析特征化(续),1. 数据收集,target class: graduate student,contrasting class: undergraduate student,2.,使用,U,i,分析概化,属性删除,remove,name,and,phone#,属性概化,generalize,major,birth_place,birth_date,and,gpa,accumulate counts,候选关系:,gender,major,birth_country,age_range,and,gpa,2024/11/1,23,例子:分析特征化 (2),Candidate relation for Target class: Graduate students (,=120),Candidate relation for Contrasting class: Undergraduate students (,=130),2024/11/1,24,例子:分析特征化 (3),3. 相关性分析,计算期望信息,计算每个属性的熵,Number of grad students in “Science”,Number of undergrad students in “Science”,2024/11/1,25,例子:分析特征化 (4),得出每个属性的熵,计算每个属性的,Information Gain,Information gain for all attributes,2024/11/1,26,例子:分析特征化 (5),4.,Initial working relation (W,0,) derivation,R = 0.1,删除不相关或者弱相关的属性,= drop,gender,birth_country,删除比较类的关系,5.,在,W,0,进行,AOI,分析,Initial target class working relation W,0,: Graduate students,2024/11/1,27,特征化和比较,什么是概念描述?,数据概化和基于汇总的特征化,分析特征化,:,分析属性之间的关联性,挖掘类比较,:,获取不同类之间的不同处,在大型数据库中挖掘描述统计度量,讨论,总结,2024/11/1,28,挖掘类比较,比较:,比较两个或者更多类,.,方法:,将相关的数据分成目标类和比较类。,将两个类别的数据概化到相同的层次。,用相同层次的描述对元组进行比较。,对于每个元组展现其描述和两个衡量标准:,support - distribution within single class,comparison - distribution between classes,将差异很大的元组特别显示出来,相关性分析:,发现最能体现类别之间差异的属性.,2024/11/1,29,例子:分析性比较,(,133,页例,5.10,),Task,使用区别规则来分析本科生和研究生,DMQL query,use,Big_University_DB,mine comparison as,“,grad_vs_undergrad_students,”,in relevance to,name, gender, major, birth_place, birth_date, residence, phone#,gpa,for,“graduate_students”,where,status in “graduate”,versus,“undergraduate_students”,where,status in “undergraduate”,analyze,count%,from,student,2024/11/1,30,例子:分析性比较 (2),条件:,attributes,name, gender, major,birth_place,birth_date, residence, phone#,and,gpa,Gen(a,i,),= concept hierarchies on attributes,a,i,U,i,= attribute analytical thresholds for attributes,a,i,T,i,= attribute generalization thresholds for attributes,a,i,R,= attribute relevance threshold,2024/11/1,31,例子:分析性比较(3),1. 数据收集,目标类和比较类,2.,属性相关性分析,remove attributes,name, gender, major, phone#,3.,同步概化,controlled by user-specified dimension thresholds,prime target and contrasting,class(es,) relations/cuboids,2024/11/1,32,例子:分析性比较 (4),Prime generalized relation for the target class: Graduate students,Prime generalized relation for the contrasting class: Undergraduate students,2024/11/1,33,例子:分析性比较 (5),4. 在目标和比较类别上,,Drill down, roll up and other OLAP operations,,确定概化层次.,5.,展现方式,generalized relations,crosstabs, bar charts, pie charts, or rules,比较性的度量,以体现目标类和比较类之间的差别,e.g. count%,2024/11/1,34,量化区分规则,Cj,=,目标类,q,a,=,概化元组,也覆盖比较类别的元组,d-weight,范围: 0, 1,量化区别规则,2024/11/1,35,例子: 量化区别规则,量化区别规则,(,135,页例,5.11,),where 90/(90+120) = 30%,Count distribution between graduate and undergraduate students for a generalized,tuple,2024/11/1,36,类别描述,量化特征规则,必要,量化区别规则,充分,量化描述规则,必要和充分,2024/11/1,37,例子: 量化描述规则,(,136,页例,5.13,),对于目标类,Europe,的量化描述规则,(,137,页例,5.14,),Crosstab,showing associated t-weight, d-weight values and total number (in thousands) of TVs and computers sold at,AllElectronics,in 1998,2024/11/1,38,特征化和比较,什么是概念描述?,数据概化和基于汇总的特征化,分析特征化,:,分析属性之间的关联性,挖掘类比较,:,获取不同类之间的不同处,在大型数据库中挖掘描述统计度量,讨论,总结,2024/11/1,39,挖掘数据散布特征,动机,更好的了解数据: 集中趋势, 差别 和 分布,数据散布特征,median, max, min,quantiles, outliers, variance,等.,2024/11/1,40,衡量中心趋势,平均值,带权平均,中位数,: 一个整体度量,如果是奇数,则为中间数,偶数则为中间两数的平均,用插值的方法进行估计,模,出现次数最多的值,Unimodal, bimodal,trimodal,Empirical formula:,2024/11/1,41,衡量离散趋势,四分位数, 异常 和 盒图,四分位数:,Q,1,(25,th,percentile), Q,3,(75,th,percentile),中间四分位区间:,IQR = Q,3,Q,1,五数概括:,min, Q,1, M,Q,3, max,盒图:,ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually,异常:,usually, a value higher/lower than 1.5 x IQR,方差和标准差,Variance,s,2,: (algebraic, scalable computation),Standard deviation,s,is the square root of variance,s,2,2024/11/1,42,盒图分析,五数概括,:,Minimum, Q1, M, Q3, Maximum,盒图,数据用盒子的形式表现,盒子的两端分别是两个分位数,,i.e., the height of the box is IRQ,中位数用一条线来表示。,延长线: 从盒子延长到最大和最小值,2024/11/1,43,A,Boxplot,A,boxplot,2024/11/1,44,数据分布的可视化:盒图分析,2024/11/1,45,在大型数据库中挖掘统计信息,方差,标准差:,方差的平方根,衡量分散程度,当且仅当所有值一样的时候为0。,方差和标准差都是代数的,2024/11/1,46,直方图(频率直方图),图形化表示类描述的基本统计信息,频率直方图,2024/11/1,47,分位数图,2024/11/1,48,分位数-分位数,(Q-Q),图,2024/11/1,49,散布图,2024/11/1,50,Loess,曲线,2024/11/1,51,图形化的表示基本统计描述,直方图:,盒图,:,分位数图,:,each value,x,i,is paired with,f,i,indicating that approximately 100,f,i,% of data are,x,i,分位数-分位数图,(,q-q,) : graphs the,quantiles,of one,univariant,distribution against the corresponding,quantiles,of another,散布图:,each pair of values is a pair of coordinates and plotted as points in the plane,Loess (local regression),曲线:,add a smooth curve to a scatter plot to provide better perception of the pattern of dependence,2024/11/1,52,特征化和比较,什么是概念描述?,数据概化和基于汇总的特征化,分析特征化,:,分析属性之间的关联性,挖掘类比较,:,获取不同类之间的不同处,在大型数据库中挖掘描述统计度量,讨论,总结,2024/11/1,53,面向属性的归纳,vs.,示例学习方法,原理和基本假设的不同,机器学习:正负样本。,概念描述:只有正样本。,训练样本集的大小,机器学习:训练样本集小,概念描述:训练样本集大。,概化方法的不同,机器学习:按照元组概化,概念描述:按照属性概化,2024/11/1,54,特征化和比较,什么是概念描述?,数据概化和基于汇总的特征化,分析特征化,:,分析属性之间的关联性,挖掘类比较,:,获取不同类之间的不同处,在大型数据库中挖掘描述统计度量,讨论,总结,2024/11/1,55,
展开阅读全文