数据挖掘第2章认识数据课件

上传人:风*** 文档编号:241597312 上传时间:2024-07-08 格式:PPT 页数:32 大小:496.81KB
返回 下载 相关 举报
数据挖掘第2章认识数据课件_第1页
第1页 / 共32页
数据挖掘第2章认识数据课件_第2页
第2页 / 共32页
数据挖掘第2章认识数据课件_第3页
第3页 / 共32页
点击查看更多>>
资源描述
数据挖掘与商务智能范勤勤物流研究中心.数据挖掘与商务智能范勤勤.第二章第二章认识数据数据1 1数据数据对象与属性象与属性类型型2 2数据的基本数据的基本统计描述描述3 3度量数据的相似性和相异性度量数据的相似性和相异性目录 第一章.第二章 认识数据1数据对象与属性类型2数据的基本统计描述3数据对象与属性类型.数据对象与属性类型.属性及标称属性什么是属性?什么是属性?属属性性是是一一个个数数据据字字段段,表表示示数数据据对象象的的一一个个特特征征。在在文文献献中中,属属性性、维数数、特特征征和和变量可以互量可以互换的使用,属性可以是的使用,属性可以是标称的、二元的、序数的称的、二元的、序数的或或数数值的的。标称属性称属性标称意味着与名称相关。称意味着与名称相关。标称属性的称属性的值是一些符号或事物的名称是一些符号或事物的名称如如:hair_color(头发颜色色)和和marital_status(婚婚姻姻状状况况)是是描描述述人人的的两两个个特特征征。hair_color的的可可能能值为黑黑色色、棕棕色色、淡淡黄黄色色等等,marital_status的的可可能能取取值是是单身、已婚、离异和身、已婚、离异和丧偶偶标称称属属性性值并并不不具具有有有有意意义的的序序,并并且且不不是是定定量量的的。给定定一一个个对象象集集,找找出出这种种属性的均属性的均值或中位数是没有意或中位数是没有意义的,但可以用众数来表示的,但可以用众数来表示4.属性及标称属性什么是属性?属性是一个数据字段,表示数据对象的二元属性二元属性二元属性二二元元属属性性是是一一种种标称称属属性性,只只有有两两个个类别或或状状态:0或或1,其其中中0通通常常表表示示该属属性性不不出出现,而而1表表示示出出现。如如果果两两种种状状态对应于于true和和false的的话,二二元元属属性性又又称称布布尔属性。属性。如如果果一一个个事事物物的的两两种种状状态具具有有同同等等价价值并并且且携携带相相同同的的权重重,则称称一一个个二二元元属属性性是是对称称的。如:属性的。如:属性gender中的男、女。中的男、女。如如果果其其状状态的的结果果不不是是同同等等重重要要的的,则称称一一个个二二元元属属性性是是非非对称称的的。如如:HIV化化验的阴性、阳性的阴性、阳性结果。果。5.二元属性二元属性二元属性是一种标称属性,只有两个类别或状态:序数属性及数值属性序数属性序数属性序序数数属属性性是是一一种种属属性性,其其可可能能的的值之之间具具有有有有意意义的的序序或或秩秩评定定,但但是是相相继值之之间的的差是未知的差是未知的,其中心,其中心趋势可以用可以用众数众数和和中位数中位数来表示。来表示。如如:professional_rank(职位位)可可以以按按顺序序枚枚举,如如对于于教教师有有助助教教、讲师、副副教授和教授教授和教授数数值属性属性数数值属属性性是是定定量量的的,即即它它是是可可度度量量的的量量,用用整整数数或或实数数值表表示示。数数值属属性性可可以以是是区区间标度的或比率度的或比率标度的,其中心度的,其中心趋势度量可以用均度量可以用均值、中位数或众数来表示、中位数或众数来表示区区间标度属性用度属性用相等的相等的单位尺度位尺度度量,比如温度度量,比如温度比率比率标度属性是具有度属性是具有固定零点固定零点的数的数值属性,比如重量、高度属性,比如重量、高度6.序数属性及数值属性序数属性序数属性是一种属性,其可能的值之间离散属性与连续属性离散属性与离散属性与连续属性属性离离散散属属性性具具有有有有限限或或无无限限可可能能个个值,可可以以用用或或不不用用整整数数表表示示。如如:属属性性hair_color、smoker、medical_test和和drink_size都都有有有有限限个个值,因因此此是是离散的离散的如如果果属属性性不不是是离离散散的的,则它它是是连续的的。在在文文献献中中,数数值属属性性与与连续属属性性可可以以互互换使用使用7.离散属性与连续属性离散属性与连续属性离散属性具有有限或无限可数据的基本统计描述.数据的基本统计描述.中心趋势度量中心中心趋势度量:均度量:均值、中位数和众数、均、中位数和众数、均值:加加权平均:平均:主要主要问题:对极端极端值很敏感很敏感9.中心趋势度量中心趋势度量:均值、中位数和众数、均值:加权平均中心趋势度量中位数中位数中列数中列数数据集的最大数据集的最大值和最小和最小值的平均的平均值众数众数集合中出集合中出现最最频繁的繁的值可能最高可能最高频率率对应多个不同多个不同值,导致多个众数致多个众数有序数据有序数据值的中的中间值适用于适用于倾斜数据斜数据10.中心趋势度量中位数中列数数据集的最大值和最小值的平均值众数集度量数据散布方差和方差和标准差准差度量数据散布:极差、四分位数、方差、度量数据散布:极差、四分位数、方差、标准差和四分位数极差准差和四分位数极差极差:极差(极差:极差(range)=max()-min()四分位数四分位数第一个四分位数第一个四分位数Q1第三个四分位数第三个四分位数Q3四分位数极差四分位数极差IQR=Q3-Q1标准差是方差的平方根准差是方差的平方根11.度量数据散布方差和标准差度量数据散布:极差、四分位数、方差、五数概括五数概括五数概括分分布布的的五五数数概概括括由由中中位位数数Q2、四四分分位位数数Q1和和Q3,最最小小和和最最大大观测值组成成,按按次序次序Minimum、Q1、Median、Q3、Maximum。12.五数概括五数概括分布的五数概括由中位数Q2、四分位数Q1和Q盒图盒盒图一种流行的分布的直一种流行的分布的直观表示。体表示。体现了五数概括:了五数概括:盒的端点一般在四分位数上,使得盒的盒的端点一般在四分位数上,使得盒的长度是四分位数极差度是四分位数极差IQR中位数用盒内的中位数用盒内的线标记盒外的两条盒外的两条线(称作胡(称作胡须)延伸到最小()延伸到最小(Minimum)和最大()和最大(Maximum)13.盒图盒图一种流行的分布的直观表示。体现了五数概括:13.盒图盒盒图示例示例如如图在在给定定的的时间段段ALLElectronics的的4个个销售售部部门的的商商品品单价价数数据据的的盒盒图。对于于部部门1,我我们看看到到销售售商商品品单价价的的中中位位数数是是80美美元元,Q1是是60美美元元,Q3是是100美美元元。注注意意,该部部门的的两两个个边远的的观测值被被个个别的的描描绘出出,因因为它它们的的值175和和202都超都超过IQR的的1.5倍,倍,这里里IQR=40.180160140120100806040200部部门1部部门2部部门3部部门420014.盒图盒图示例如图在给定的时间段ALLElectronics的分位数图分位数分位数图Q1中位数中位数Q315.分位数图分位数图Q1中位数Q315.分位数-分位数图分位数分位数-分位数分位数图Q1中位数中位数Q316.分位数-分位数图分位数-分位数图Q1中位数Q316.直方图直方直方图如果如果X是是标称称的,的,则对于于X的每个已知的每个已知值,画一个柱或,画一个柱或竖直条直条如果如果X是是数数值的,的,X的的值域被划分成域被划分成不相交不相交的的连续子域,通常来子域,通常来讲,诸桶是桶是等等宽的的对于比于比较单变量量观测组,它可能不如分位数,它可能不如分位数图、分位数、分位数图-分位数分位数图、盒、盒图方法有效方法有效17.直方图直方图17.散点图散点散点图确定两个数确定两个数值变量之量之间是否存在是否存在联系、模式或系、模式或趋势的最有效的的最有效的图形方法之一形方法之一18.散点图散点图18.散点图散点散点图还可以用来可以用来发现属性之属性之间的相关性的相关性a.正相关正相关b.负相关相关19.散点图散点图还可以用来发现属性之间的相关性a.正相关b.负相相关性三种情况,其中每个数据集中两个属性之三种情况,其中每个数据集中两个属性之间都不存在都不存在观察到的相关性察到的相关性20.相关性三种情况,其中每个数据集中两个属性之间都不存在观察到的数据统计数据描述和数据描述和图形形统计显示提供了数据示提供了数据总体情况的有价体情况的有价值的洞察。的洞察。这有助有助于于识别噪声噪声和和离群点离群点,因此,它,因此,它们对于于数据清理数据清理特特别有用有用21.数据统计数据描述和图形统计显示提供了数据总体情况的有价值的洞度量数据的相似性和相异性.度量数据的相似性和相异性.相似性和相异性都称相似性和相异性都称邻近性近性相似性及相异性相似性相似性量化两量化两组数据的相似性数据的相似性物体相似性越大物体相似性越大时,值越大越大取取值范范围是是0,1相异性相异性量化两量化两组数据的不同的程度数据的不同的程度物体相似性越大物体相似性越大时,值越小越小最小的差异最小的差异值取取0上限上限值根根绝实际不同而不同不同而不同23.相似性和相异性都称邻近性相似性及相异性相似性量化两组数据的相数据矩阵及相异性矩阵数据矩数据矩阵又称又称对象象-属性属性结构:存放构:存放n个个对象两两之象两两之间的的临近度。每行近度。每行对应一个一个对象象相异性矩相异性矩阵又称又称对象象-对象象结构:存放构:存放n个个对象象之之间的相的相邻度度24.数据矩阵及相异性矩阵数据矩阵又称对象-属性结构:存放n个对象邻近性度量标称属性的称属性的邻近性度量近性度量m:#ofmatches,p:total#ofvariables二元属性的二元属性的邻近性度量近性度量二元属性只有两种状二元属性只有两种状态:0或或1,0表示表示该属性不出属性不出现,1表示表示该属性出属性出现二元属性的列二元属性的列联表表25.邻近性度量标称属性的邻近性度量m:#of matches邻近性度量对称的二元属性相异性称的二元属性相异性对于于对称的二元属性,每个状称的二元属性,每个状态都同都同样重要。重要。对象象i和和j的相异性的相异性为:非非对称的二元属性相异性称的二元属性相异性对于非于非对称的二元属性,两个状称的二元属性,两个状态不是同等重要的。此不是同等重要的。此时,i与与j的相异性表示的相异性表示为:对象象i与与j之之间的非的非对称的二元相似性可以用下式称的二元相似性可以用下式计算:算:(式的系数(式的系数sim(i,j)被称作被称作Jaccard系数)系数)26.邻近性度量对称的二元属性相异性对于对称的二元属性,每个状态都相异性数数值属性的相异性属性的相异性闵可夫斯基距离可夫斯基距离是曼哈是曼哈顿距离和欧氏距离的推广距离和欧氏距离的推广上确界距离是上确界距离是h趋向无向无穷时闵科夫斯基距离的推广。科夫斯基距离的推广。27.相异性数值属性的相异性闵可夫斯基距离是曼哈顿距离和欧氏距离的邻近性度量序数属性的序数属性的邻近性度量近性度量假假设f是用于描述是用于描述n个个对象的一象的一组序数属性之一,关于序数属性之一,关于f的相异性的相异性计算涉及一下步算涉及一下步骤:1.第第i个个对象象的的f值为xif,属属性性f有有Mf个个有有序序的的状状态,表表示示排排位位1,.,Mf.用用对应的的排排位来取代位来取代xif。2.通通过zif代替第代替第i个个对象的象的rif来来实现数据数据规格化:格化:3.利用数利用数值属性的距离度量属性的距离度量计算,使用算,使用zif作作为第第i个个对象的象的f值。28.邻近性度量序数属性的邻近性度量假设f是用于描述n个对象的一组相异性混合混合类型属性的相异性型属性的相异性假假设数据集包含数据集包含p个混合个混合类型的属性,型的属性,对象象i与与j之之间的相异性的相异性d(i,j)定定义为:f是数是数值型的:用型的:用标准化的距离公式。准化的距离公式。f是是标称或二元的:如果称或二元的:如果xif=xjf,则dij(f)=0if;否否则,dij(f)=1f是序数的:是序数的:计算排位算排位rij和和并将并将zif作作为属性属性值对待待上述步上述步骤与前面的各种与前面的各种单一属性一属性类型的型的处理相同,唯一不同的是理相同,唯一不同的是对于于数数值属性属性的的处理理29.相异性混合类型属性的相异性假设数据集包含p个混合类型的属性,余弦相似性余弦相似性余弦相似性余弦相似性是一种度量,它可以用来比余弦相似性是一种度量,它可以用来比较文档,或文档,或针对给定的定的查询词向量向量对文档排文档排序。令序。令x和和y是两个待比是两个待比较的向量,使用余弦度量作的向量,使用余弦度量作为相似函数,有:相似函数,有:30.余弦相似性余弦相似性余弦相似性是一种度量,它可以用来比较文档作业假假设所分析的数据包括属性所分析的数据包括属性age,它在数据元,它在数据元组中的中的值(以(以递增序)增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70(1)该数据的均数据的均值是多少?中位数是什么?是多少?中位数是什么?(2)该数据的众数是什么?数据的众数是什么?(3)该数据的中列数是多少?数据的中列数是多少?给定两个元定两个元组(22,1,42,10)和()和(20,0,36,8)表示的)表示的对象象(1)计算算这两个两个对象之象之间的欧氏距离和曼哈的欧氏距离和曼哈顿距离距离(2)使用)使用q=3,计算算这两个两个对象之象之间的的闵科夫斯基距离科夫斯基距离(3)计算算这两个两个对象的上确界距离象的上确界距离31.作业假设所分析的数据包括属性age,它在数据元组中的值(以递谢谢关关注注欢迎迎指指导.谢谢关注欢迎指导.
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!