资源描述
XIAN TECHNOLOGICAL UNIVERSITY课程设计报告课程名称 数据挖掘 专 业: 信息管理与信息系统 班 级: 130513 姓 名: 贾丹丹 学 号: 130513117 指导教师: 李刚 成 绩: 2016 年 1 月 3 日前言数据挖掘就是从大量的数据中挖掘出有用的信息。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的510年内,数据挖掘将在中国形成一个新型的产业。数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备(2)数据挖掘(3)结果表达和解释。数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘中的分类反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。目录1 业务理解12 数据理解12.1英文版数据说明12.2数据的读入22.3浏览数据内容22.4指定各个变量的作用32.5观察各变量的数据分布特征43 数据准备43.1对数据进行重新分类43.2对数据进行平衡处理64 建立决策树模型64.1 C5.0,CART,CHAID算法介绍74.2模型建立84.3模型计算结果144.4模型结果分析175 模型评估186 总结20附录1:zoo.date21附录2:zoo.names241 业务理解动物园动物数量大,种类多,对动物园的动物根据它们的特征进行分类,以便于观察和分析动物的特征,进而更加合理的管理动物以及为未来查找动物信息提供参考。2 数据理解该数据集是从UCI网站上获得的一份关于动物园的动物的数据。该数据是收集的动物园中99种动物的特征,包括hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize 。现需利用数据挖掘将这些动物进行分类,分成7种类型。2.1英文版数据说明Source:Creator:Richard ForsythDonor:Richard S. Forsyth8 Grosvenor AvenueMapperley ParkNottingham NG3 5DX0602-621676Data Set Information:A simple database containing 17 Boolean-valued attributes. The type attribute appears to be the class attribute. Here is a breakdown of which animals are in which type: (I find it unusual that there are 2 instances of frog and one of girl!)Class# - Set of animals:1 - (41) aardvark, antelope, bear, boar, buffalo, calf, cavy, cheetah, deer, dolphin, elephant, fruitbat, giraffe, girl, goat, gorilla, hamster, hare, leopard, lion, lynx, mink, mole, mongoose, opossum, oryx, platypus, polecat, pony, porpoise, puma, pussycat, raccoon, reindeer, seal, sealion, squirrel, vampire, vole, wallaby,wolf2 - (20) chicken, crow, dove, duck, flamingo, gull, hawk, kiwi, lark, ostrich, parakeet, penguin, pheasant, rhea, skimmer, skua, sparrow, swan, vulture, wren3 - (5) pitviper, seasnake, slowworm, tortoise, tuatara4 - (13) bass, carp, catfish, chub, dogfish, haddock, herring, pike, piranha, seahorse, sole, stingray, tuna5 - (4) frog, frog, newt, toad6 - (8) flea, gnat, honeybee, housefly, ladybird, moth, termite, wasp7 - (10) clam, crab, crayfish, lobster, octopus, scorpion, seawasp, slug, starfish, wormAttribute Information:1. animal name: Unique for each instance2. hair: Boolean3. feathers: Boolean4. eggs: Boolean5. milk: Boolean6. airborne: Boolean7. aquatic: Boolean8. predator: Boolean9. toothed: Boolean10. backbone: Boolean11. breathes: Boolean12. venomous: Boolean13. fins: Boolean14. legs: Numeric (set of values: 0,2,4,5,6,8)15. tail: Boolean16. domestic: Boolean17. catsize: Boolean18. type: Numeric (integer values in range 1,7)Relevant Papers:Forsyths PC/BEAGLE Users Guide.2.2数据的读入 将数据读入Modeler中。在源选项卡中选择可变文件节点并设置节点参数。在文件选项卡中指定从文件zoo.txt中读入数据。2.3浏览数据内容 在输出选项卡中选择表节点,添加到数据流中。执行该节点生成数据表。在浏览数据时发现两个错误项,数据中有两个frog和一个gril,则删除一个frog和gril。【表】节点的输出结果2.4指定各个变量的作用 其中animal name,hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize为模型的输入变量, type为模型的目标变量。在字段选项选项卡中选择【类型】节点,添加到数据流中,设置参数指定变量角色。 【类型】节点的参数2.5观察各变量的数据分布特征 在输出选项卡中选择数据审核节点,添加到数据流中。执行节点生成数据表。【数据审核】节点的输出结果可以看出,该份数据有99个样本,除animal name以外均为数值型变量,除animal name、legs、type以外均是布尔值。Modeler对此计算,输出最小值、最大值、均值、标准差、偏态系数等基本描述统计量。数据显示,legs最大值与最小值差距较大。从数值型变量的柱形图可以看出属于type1的数量最多。数据质量理想。3 数据准备3.1对数据进行重新分类 针对该数据,hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,tail,domestic,catsize属性为是否有hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,tail,domestic,catsize,所以取值0和1不规范,应将取值0和1调整为No和Yes。 【重新分类】的【设置】选项卡 在输出选项卡中选择【表】节点,连接到【重新分类】节点,执行【表】节点生成重新分类后的数据表,如下: 【表】节点的输出结果3.2对数据进行平衡处理 观察数据发现,属于type1的数据较多,属于其他type的数据相对较少,所以进行样本平衡处理。 【平衡】的【设置】选项卡 在输出选项卡中选择【表】节点,连接到【平衡】节点,执行【表】节点生成平衡处理后的数据表,如下图:【表】节点的输出结果4 建立决策树模型 使用C5.0,CART,CHAID三种算法建立模型:4.1 C5.0,CART,CHAID算法介绍 (1)C5.0:C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。C5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类变量,使用C5.0算法可以生成决策树或者规则集。C5.0模型根据能偶带来的最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行指导样本子集不能在被拆分为止。最后,重新缉拿眼最低层次的拆分,哪些对模型值没有显著贡献的样本子集被提出或者修剪。优点:C5.0模型在面对数据遗漏和输入字段很多的问题时非常稳健; C5.0模型比一些其他类型的模型易于理解,模型退出的规则有非常直观的解释; C5.0也提供强大技术以提高分类的精度。C5.0算法选择分支变量的依据:以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。 (2)CART:CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。CART算法检查每个变量和该变量所有可能的划分值来发现最好的划分,对离散值如x,y,x,则在该属性上的划分有三种情(x,y,z,x,z,y,y,z,x),空集和全集的划分除外;对于连续值处理引进“分裂点”的思想,假设样本集中某个属性共n个连续值,则有n-1个分裂点,每个“分裂点”为相邻两个连续值的均值 (ai + ai+1) / 2。将每个属性的所有划分按照他们能减少的杂质(合成物中的异质,不同成分)量来进行排序。CART算法经常采用事后剪枝方法:该方法是通过在完全生长的树上剪去分枝实现的,通过删除节点的分支来剪去树节点。最下面未被剪枝的节点成为树叶。 (3)CHAID:CHAID(Chi-SquareAutomaticInteractionDetection)提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。CHAID分析可以生成非二进制树,即有些分割有两个以上的分支。CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方法。CHAID算法以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,计算分类的卡方值(Chi-Square-Test)。如果几个变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类法作为子节点。CHIAD可以自动归并自变量中类别,使之显著性达到最大。最后的每个叶结点就是一个细分市场。4.2模型建立 (1)在【建模】选项卡中选择【C5.0】、【C&R树R】、【CHAID(C)】节点,添加到数据流中。设置各算法的主要参数。 【C5.0】的【模型】选项卡【C5.0】的【分析】选项卡 【C&R树】的【构建选项】选项卡(一) 【C&R树】的【构建选项】选项卡(二) 【C&R树】的【构建选项】选项卡(三) 【C&R树】的【构建选项】选项卡(四) 【C&R树】的【构建选项】选项卡(六) 【CHAID】的【构建选项】选项卡(一) 【CHAID】的【构建选项】选项卡(二) 【CHAID】的【构建选项】选项卡(三) 【CHAID】的【构建选项】选项卡(四) 【CHAID】的【构建选项】选项卡(五) (2)建立的数据流如图所示: 动物分类的数据流 4.3模型计算结果 C5.0算法分析结果的文字形式如下图:C5.0算法分析结果的图形形式如下图:CART算法分析结果的文字形式如下图:CART算法分析结果的图形形式如下图:CHAID算法分析结果的文字形式如下图:CHAID算法分析结果的图形形式如下图:4.4模型结果分析 (1)C5.0算法模型结果分析 该模型找出了10个影响因素:feathers,tail,backbone,milk,fins,legs,predator,airborne其中feathers是最重要的属性,其中legs,predator,fins是不重要的属性。因此,对一个动物进行归类时,首先看它是否有feathers。 当feathers为有时,则直接属于type2,不用考虑其他因素,如果没有feathers,再看它是否有backbone,如果有backbone,再看它是否有milk,如果有milk,则属于type1,如果没有milk,再看它是否有fins,如果有fins,则直接属于type4,如果没有fins,再看它是否有tail,如果有tail,则属于type3,如果没有tail,则直接属于type5,如果没有backbone,再看它是否有airborne,如果有airborne,则直接属于type6,如果没有airborne,再看它是否有predator,如果有predator,则属于type7,如果没有predator,再看它的legs是否为0,如果它的legs为0,则属于type7,如果它的legs为2,4,5,6,8,则属于type,6。 (2)CART算法模型结果分析 该模型找出了3个影响因素:feathers,legs,airborne,其中feathers是最重要的属性,与feathers比较,其他属性远远不如feathers重要。 当feathers为有时,则直接属于type2,不用考虑其他因素,如果无feathers,则直接属于type1。 (3)CHAID算法模型结果分析 该模型找出了10个影响因素:legs,hair,aquatic,fins,toothed,其中legs最重要,其中fins和toothed是最不重要的属性。当当腿的数量等于0时,再看它是否有hair,如果有,则直接属于type1,不用考虑其他因素,如果没有hair,则看它收否有toothed,如果没有则直接属于type7,如果有toothed,再看它是否有fins,如果没有,则属于type3,如果有,则属于type4。当腿的数量等于2时,再看它是否有hair,如果没有,则直接属于type2,不用考虑其他因素,如果有hair,则直接属于type1。当腿的数量等于4时,再看它是否有hair,如果有,则直接属于type1,不用考虑其他因素,如果没有hair,则看它收否有aquatic,如果没有则直接属于type3,如果有aquatic,再看它是否有toothed,如果没有,则属于type7,如果有,则属于type5。当腿的数量等于5或者8时,则直接属于type7,不再考虑其他因素。当腿的数量等于6时,再看它是否有aquatic,如果没有,则直接属于type6,如果有aquatic,则直接属于type7。5 模型评估 在节点工具箱的【输出】选项卡中选择【分析】节点,与模型结果节点相连。执行分析节点,得到分析结果。 C5.0的分析结果如下图: CART的分析结果如下图: CHAID的分析结果如下图: 可以看出,C5.0和CHAID算法建立的模型正确预测精度分别达到了98.75%和100%,模型比较理想。CART算法建立的模型正确预测精度为51.25%,模型不理想。6 总结用数据挖掘技术对审计数据加以分析,总结出一些正常模式,用来进行异常检测,将有助于提高入侵检测系统的检测准确性和完备性。在本课设中用到了决策树分类分析方法,使用了决策树算法中的C5.0、CART、CHAID三种算法,结果各不相同,预测的准确性也不同,由此可见每种数据挖掘的方法都有其侧重点,对于现实的数据挖掘处理,不大可能使用单一的数据挖掘方法就能得到满意的结果,而要综合应用多种方法取各种方法之长补其之短,对数据进行挖掘才能得到满意的结果。通过这次的课程设计,使我对数据挖掘技术有了一个整体的认识。同样在建立模型的时候也遇到了这样或那样的问题。但在自己认真的思考和查找资料,艰难的完成了这次课设。这让我对数据挖掘技术以后的深入学习打下了良好的基础。附录1:zoo.dateaardvark,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1antelope,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1bass,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1boar,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1buffalo,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1calf,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1carp,0,0,1,0,0,1,0,1,1,0,0,1,0,1,1,0,4catfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4cavy,1,0,0,1,0,0,0,1,1,1,0,0,4,0,1,0,1cheetah,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1chicken,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2chub,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4clam,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,7crab,0,0,1,0,0,1,1,0,0,0,0,0,4,0,0,0,7crayfish,0,0,1,0,0,1,1,0,0,0,0,0,6,0,0,0,7crow,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,0,2deer,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1dogfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4dolphin,0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1dove,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2duck,0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,0,2elephant,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1flamingo,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,1,2flea,0,0,1,0,0,0,0,0,0,1,0,0,6,0,0,0,6frog,0,0,1,0,0,1,1,1,1,1,0,0,4,0,0,0,5frog,0,0,1,0,0,1,1,1,1,1,1,0,4,0,0,0,5fruitbat,1,0,0,1,1,0,0,1,1,1,0,0,2,1,0,0,1giraffe,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1girl,1,0,0,1,0,0,1,1,1,1,0,0,2,0,1,1,1gnat,0,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6goat,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1gorilla,1,0,0,1,0,0,0,1,1,1,0,0,2,0,0,1,1gull,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2haddock,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4hamster,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,0,1hare,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,0,1hawk,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,0,2herring,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4honeybee,1,0,1,0,1,0,0,0,0,1,1,0,6,0,1,0,6housefly,1,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6kiwi,0,1,1,0,0,0,1,0,1,1,0,0,2,1,0,0,2ladybird,0,0,1,0,1,0,1,0,0,1,0,0,6,0,0,0,6lark,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2leopard,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1lion,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1lobster,0,0,1,0,0,1,1,0,0,0,0,0,6,0,0,0,7lynx,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1mink,1,0,0,1,0,1,1,1,1,1,0,0,4,1,0,1,1mole,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,0,1mongoose,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1moth,1,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6newt,0,0,1,0,0,1,1,1,1,1,0,0,4,1,0,0,5octopus,0,0,1,0,0,1,1,0,0,0,0,0,8,0,0,1,7opossum,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,0,1oryx,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1ostrich,0,1,1,0,0,0,0,0,1,1,0,0,2,1,0,1,2parakeet,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2penguin,0,1,1,0,0,1,1,0,1,1,0,0,2,1,0,1,2pheasant,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2pike,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4piranha,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4pitviper,0,0,1,0,0,0,1,1,1,1,1,0,0,1,0,0,3platypus,1,0,1,1,0,1,1,0,1,1,0,0,4,1,0,1,1polecat,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1pony,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1porpoise,0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1puma,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1pussycat,1,0,0,1,0,0,1,1,1,1,0,0,4,1,1,1,1raccoon,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1reindeer,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1rhea,0,1,1,0,0,0,1,0,1,1,0,0,2,1,0,1,2scorpion,0,0,0,0,0,0,1,0,0,1,1,0,8,1,0,0,7seahorse,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4seal,1,0,0,1,0,1,1,1,1,1,0,1,0,0,0,1,1sealion,1,0,0,1,0,1,1,1,1,1,0,1,2,1,0,1,1seasnake,0,0,0,0,0,1,1,1,1,0,1,0,0,1,0,0,3seawasp,0,0,1,0,0,1,1,0,0,0,1,0,0,0,0,0,7skimmer,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2skua,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2slowworm,0,0,1,0,0,0,1,1,1,1,0,0,0,1,0,0,3slug,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,7sole,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4sparrow,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2squirrel,1,0,0,1,0,0,0,1,1,1,0,0,2,1,0,0,1starfish,0,0,1,0,0,1,1,0,0,0,0,0,5,0,0,0,7stingray,0,0,1,0,0,1,1,1,1,0,1,1,0,1,0,1,4swan,0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,1,2termite,0,0,1,0,0,0,0,0,0,1,0,0,6,0,0,0,6toad,0,0,1,0,0,1,0,1,1,1,0,0,4,0,0,0,5tortoise,0,0,1,0,0,0,0,0,1,1,0,0,4,1,0,1,3tuatara,0,0,1,0,0,0,1,1,1,1,0,0,4,1,0,0,3tuna,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4vampire,1,0,0,1,1,0,0,1,1,1,0,0,2,1,0,0,1vole,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,0,1vulture,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,1,2wallaby,1,0,0,1,0,0,0,1,1,1,0,0,2,1,0,1,1wasp,1,0,1,0,1,0,0,0,0,1,1,0,6,0,0,0,6wolf,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1worm,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,7wren,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2附录2:zoo.names1. Title: Zoo database2. Source Information - Creator: Richard Forsyth - Donor: Richard S. Forsyth 8 Grosvenor Avenue Mapperley Park Nottingham NG3 5DX 0602-621676 - Date: 5/15/19903. Past Usage: - None known other than what is shown in Forsyths PC/BEAGLE Users Guide.4. Relevant Information: - A simple database containing 17 Boolean-valued attributes. The type attribute appears to be the class attribute. Here is a breakdown of which animals are in which type: (I find it unusual that there are 2 instances of frog and one of girl!) Class# Set of animals: 1 (41) aardvark, antelope, bear, boar, buffalo, calf, cavy, cheetah, deer, dolphin, elephant, fruitbat, giraffe, girl, goat, gorilla, hamster, hare, leopard, lion, lynx, mink, mole, mongoose, opossum, oryx, platypus, polecat, pony, porpoise, puma, pussycat, raccoon, reindeer, seal, sealion, squirrel, vampire, vole, wallaby,wolf 2 (20) chicken, crow, dove, duck, flamingo, gull, hawk, kiwi, lark, ostrich, parakeet, penguin, pheasant, rhea, skimmer, skua, sparrow, swan, vulture, wren 3 (5) pitviper, seasnake, slowworm, tortoise, tuatara 4 (13) bass, carp, catfish, chub, dogfish, haddock, herring, pike, piranha, seahorse, sole, stingray, tuna 5 (4) frog, frog, newt, toad 6 (8) flea, gnat, honeybee, housefly, ladybird, moth, termite, wasp 7 (10) clam, crab, crayfish, lobster, octopus, scorpion, seawasp, slug, starfish, worm5. Number of Instances: 1016. Number of Attributes: 18 (animal name, 15 Boolean attributes, 2 numerics)7. Attribute Information: (name of attribute and type of value domain) 1. animal name: Unique for each instance 2. hairBoolean 3. feathersBoolean 4. eggsBoolean 5. milkBoolean 6. airborneBoolean 7. aquaticBoolean 8. predatorBoolean 9. toothedBoolean 10. backboneBoolean 11. breathesBoolean 12. venomousBoolean 13. finsBoolean 14. legsNumeric (set of values: 0,2,4,5,6,8) 15. tailBoolean 16. domesticBoolean 17. catsizeBoolean 18. typeNumeric (integer values in range 1,7)8. Missing Attribute Values: None9. Class Distribution: Given above
展开阅读全文