数据挖掘第三版第三章课后习题答案

上传人:tiangk****ingyu 文档编号:81666507 上传时间:2022-04-27 格式:DOCX 页数:5 大小:140.25KB
返回 下载 相关 举报
数据挖掘第三版第三章课后习题答案_第1页
第1页 / 共5页
数据挖掘第三版第三章课后习题答案_第2页
第2页 / 共5页
数据挖掘第三版第三章课后习题答案_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
-2.1再给三个用于数据散布的常用特征度量即未在本章讨论的,并讨论如何在大型数据库中有效的计算它们答:异众比率:又称离异比率或变差比。是非众数组的频数占总频数的比率应用:用于衡量众数的代表性。主要用于测度定类数据的离散程度,定序数据及数值型数据也可以计算。还可以对不同总体或样本的离散程度进展比拟计算:标准分数:标准分数standard score也叫z分数z-score,是一个分数与平均数的差再除以标准差的过程。用公式表示为:z=(x-)/。其中x为某一具体分数,为平均数,为标准差。Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z那么为负数,反之那么为正数。计算:Z=x-)/其中= E( X)为平均值、² = Var( X) X的概率分布之方差假设随机变量无法确定时,那么为算术平均数离散系数:离散系数,又称“变异系数,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。计算:CV=/极差全距系数:Vr=R/X;平均差系数:Va,d=A.D/X;方差系数:V方差=方差/X;标准差系数:V标准差=标准差/X;其中,X表示X的平均数。平均差:平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。平均差是反响各标志值与算术平均数之间的平均差异。平均差异大,说明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,说明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。计算:平均差=(|x-x|)n,其中为总计的符号,x为变量,x为算术平均数,n为变量值的个数。2.2假设所分析的的数据包括属性age,它在数据元组中的值以递增序为13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.a.平均值29.963中位数是25b.众数是25及35数据的模态是二模c.最大数和最小数的均值=(70+13)/2=41.5-d.第一个四分位数在(N+1)/4=27+1/4=7处:Q1=20。而第三个四分位数在3(N+1)/4=21处:Q3=35e.最小值、第一个四分位数、中位数、第三个四分位数、和最大值是:13、20、25、35、70。f.箱线图为g.分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值纵轴相对于它们的分位数横轴被描绘出来。但分位数分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线y=x可画到图中+以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点那么低。2.4C.Q-Q图为-散点图为2.5.简要概述如何计算被如下属性描述的相异性a.标称属性两个对象i和j之间的相异性可以根据不匹配率来计算:其中,m是匹配的数目即i和j取值一样状态的属性数,而p是刻画对象的属性总数。我们可以通过赋予m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。b.非对称的二元属性-给定两个非对称的二元属性,两个都取值1的情况正匹配被认为比两个都取值0的情况负匹配更有意义。因此,这样的二元属性经常被认为是“一元的只有一种状态。基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t被认为是不重要的,因此在计算时被忽略c.数值属性最流行的距离度量是欧几里得距离即,直线或“乌鸦飞行距离。令i=xi1,xi2,,,xip和j=xj1,xj2,,xjp是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为:另一个著名的度量方法是曼哈顿或城市块距离,之所以如此命名,是因为它是城市两点之间的街区距离如,向南2个街区,横过3个街区,共计5个街区。其定义如下:d.词频属性在一份给定的文件里,词频termfrequency,TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。对于在某一特定文件里的词语ti来说,它的重要性可表示为:以上式子中ni,j是该词在文件dj中的出现次数,而分母那么是在文件dj中所有字词的出现次数之和。2.6a.欧几里得距离为450.5b.哈曼吨距离为11c.闵可夫斯基距离为2331/3d.上确定界距离为62.8a.利用公式,得到以下的距离为x1x2x3x4x5欧几里得距离0.140.670.280.220.61余弦相似性距离0.99990.99570.99990.99900.9653基于欧几里得距离距离,排名顺序是x1,x4;x3,x5,x2。基于余弦相似度的点排位是x1,x3,x4,x2,x5。b.规那么化的数据为:xx1x2x3x4x5-0.65850.66160.72500.66440.62470.83210.75260.74980.68870.74740.78090.5547.x1x2x3x4x5欧几里得距离0.00410.09220.00780.04410.2632-
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!