数据挖掘考试题.doc

资源描述

数据挖掘考试题1 选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( ) A.分类 B.聚类 C.关联分析 D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较，以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇5.下列关于Wards Method说法错误的是：( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是：( )A. 具有全局优化目标函数B. Group Average擅长处理球状的簇C. 可以处理不同大小簇的能力D. Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中，说法错误的事：( )A.一旦两个簇合并，该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为D.具有全局优化目标函数8.规则牛奶，尿布啤酒的支持度和置信度分别为：( )TID 项集12345面包，牛奶面包，尿布，啤酒，鸡蛋牛奶，尿布，啤酒，可乐面包，牛奶，尿布，啤酒面包，牛奶，尿布，可乐A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.49.下列( )是属于分裂层次聚类的方法。A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：( )A.在3和l,2合并 B.3和4,5合并 C.2,3和4,5合并 D. 2,3和4,5形成簇和3合并2 填空题：1. 属性包括的四种类型：、、、。2. 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。4. 聚类中，定义簇间的相似度的方法有（写出四个）：、、、。5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：、。6. 组平均是一种界于和之间的折中方法。7. 相似度矩阵可以用相识度表示还可以用表示。8. 全链在处理大小不同的簇时，可能使破裂，并且偏好。9. 单链技术擅长于处理，但对和很敏感。10. 聚类分析可以看做是一种的分类。（有监督、无监督）三判断题1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（）2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（）3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（）4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（）5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（）6. 属性的性质不必与用来度量他的值的性质相同。（）7. 全链对噪声点和离群点很敏感。（）8. 对于非对称的属性，只有非零值才是重要的。（）9. K均值可以很好的处理不同密度的数据。（）10. 单链技术擅长处理椭圆形状的簇。（）四综合题1. 何为层次聚类？它用哪两种图表示？2. 两种层次聚类的基本方法？两种方法的定义？3. 分别写出Min、Max和组平均的优缺点？4. 写出基本凝聚层次聚类的算法？5. 由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？P1P2P3P4P5P6P10.000.240.220.370.340.23P20.240.000.140.200.130.25P30.220.140.000.150.280.11P40.370.200.150.000.290.22P50.340.130.280.290.000.39P60.230.250.110.220.390.00考试题+答案一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A.分类 B.聚类 C.关联分析 D.主成分分析2. （C）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较，以下说法不正确的是(A)A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇5.下列关于Wards Method说法错误的是：（C）A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似7. 下列关于层次聚类存在的问题说法正确的是：（B）A具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中，说法错误的事：（D）A.一旦两个簇合并，该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为D.具有全局优化目标函数8.规则牛奶，尿布啤酒的支持度和置信度分别为：(C)TID 项集12345面包，牛奶面包，尿布，啤酒，鸡蛋牛奶，尿布，啤酒，可乐面包，牛奶，尿布，啤酒面包，牛奶，尿布，可乐A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.49.下列( D)是属于分裂层次聚类的方法。A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：（B）A.在3和l,2合并 B.3和4,5合并 C.2,3和4,5合并 D. 2,3和4,5形成簇和3合并二填空题：1.属性包括的四种类型：标称、序数、区间、比率。2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。4. 聚类中，定义簇间的相似度的方法有（写出四个）：MIN（单链）、MAX（全链）、组平均、Ward方法。5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：凝聚层次聚类、分裂层次聚类。6.组平均是一种界于单链和全链之间的折中方法。7. 相似度矩阵可以用相识度表示还可以用距离表示。8. 全链在处理大小不同的簇时，可能使大的簇破裂，并且偏好球形。9. 单链技术擅长于处理非椭圆形状的簇，但对噪声点和离群点很敏感。10. 聚类分析可以看做是一种无监督的分类。（有监督、无监督）三判断题：1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（）2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（）3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（）4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（）5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（）6. 属性的性质不必与用来度量他的值的性质相同。（）7. 全链对噪声点和离群点很敏感。（）8. 对于非对称的属性，只有非零值才是重要的。（）9. K均值可以很好的处理不同密度的数据。（）10.单链技术擅长处理椭圆形状的簇。（）四综合题1. 何为层次聚类？它用哪两种图表示？层次聚类为嵌套簇的聚集，组成一棵层次数。两种主要图的表示：树状图和嵌套簇图。2. 两种层次聚类的基本方法？两种方法的定义？凝聚层次聚类和分裂层次聚类凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到仅剩下单点簇。3.分别写出Min、Max和组平均的优缺点？定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1. 当处理簇大小不同时，较大的簇容易破裂2. 偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4.写出基本凝聚层次聚类的算法？算法步骤：(1) 计算邻近度矩阵(2) Repeat(3) 合并最邻近的两个簇(4) 更新邻近度矩阵，以反映新的簇与原来的簇之间的邻近度(5) Until 仅剩下一个簇5.由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？P1P2P3P4P5P6P10.000.240.220.370.340.23P20.240.000.140.200.130.25P30.220.140.000.150.280.11P40.370.200.150.000.290.22P50.340.130.280.290.000.39P60.230.250.110.220.390.00这是告诉你的计算过程，现在不要写了。P3和P6最近所以36结合，P2和P5较近，所以25结合，现在是3,6、2,5、1和4，Dist(3,6,4) = max(dist(3,4),dist(6,4)= max(0.15,0.22)=0.22Dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5) =max(0.14,0.25,0.28,0.39)=0.39Dist(3,6,1)=max(dist(3,1),dist(6,1)=max(0.22,0.23)=0.23所以3,6和4结合。现在还剩3,6,4、2,5和1Dist(3,6,4,2,5)=max(dist(3,2),dist3,5,dist(6,2),dist(6,5),dist(4,2),dist(4,5) =max(0.14,0.28,0.25,0.39,0.20,0.29)=0.39Dist(3,6,4,1)=max(dist(3,1),dist(6,1),dist(4,1)=max(0.22,0.23,0.37)=0.37Dist(2,5,1)=max(dist(2,1),dist(5,1)=max(0.24,0.34)=0.34所以2,5和1结合Dist(3,6,4,2,5,1)=0.39

展开阅读全文