资源描述
,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,*,*,数据挖掘实验指南,本,ppt,主要为,08,届信科,胡旭灵,根据实验课内容制作,,10,届统计旷英兰参与部分修改,特表感谢!,2024/11/28,1,数据挖掘实验指南,本ppt使用说明,标为,红色,字体为课程涉及的主要操作,此,ppt,主要为方便大家熟悉,weka,的基本使用,如果要深入学习,可参考其他书籍,欢迎和大家一起共同学习进步。,软件中提到的软件,自带数据,,是指在软件安装文件夹中有个,data,的文件夹里面的数据。,2024/11/28,2,数据挖掘实验指南,总体框架,2024/11/28,3,数据挖掘实验指南,Weka软件,Weka,软件是著名的免费数据挖掘软件,各位同学可到官方网站下载,共有两种类型,一种以,jre,结尾,表示软件自带,java,虚拟机,另一种不带(适合,pc,上已安装,java,虚拟机)。,2024/11/28,4,数据挖掘实验指南,安装运行weka,下载安装包后,解压安装。,注:安装后若发现运行软件出现一闪而过,则说明,java,环境变量没设置好(鉴于大家都学过,java,,设环境变量的步骤是大家应该会的)。,2024/11/28,5,数据挖掘实验指南,设置java环境变量后运行,2024/11/28,6,数据挖掘实验指南,Weka功能简介,Weka,介绍,菜单栏里,program,里有个重要的,logwindow,日志窗口选项卡,用来显示包括出错信息等。,Visualization,是进行,数据可视化操作,Tools,是与查看文件,有关的功能,2024/11/28,7,数据挖掘实验指南,四大主要应用程序,Explorer,是探索数据的环境,在本课程中将,主要介绍,。,Experimenter,是用来运行算法试验,算法检验等的环境。,Knowledgefolw,这个环境与,explorer,相似,但支持拖放。,simpleCLI,是,命令行,界面,可以直接执行,weka,命令,其实在,cmd,命令窗里也可直接运行,weka,的命令,前提是设好环境变量等。,2024/11/28,8,数据挖掘实验指南,读取数据,举例:,Exploreropenfile,(,选择本机,安装文件夹,里自带的数据,),选择,weather.arff,2024/11/28,9,数据挖掘实验指南,(注:,.arff,文件是,weka,识别的主要类型,,weka,还识别,spss,的,.cvs,类型,的数据,故数据转换,为,普通数据,-spss.csv-.arff,也可以用写字板和记事本打开,arff,文件以观察数据),2024/11/28,10,数据挖掘实验指南,Explorer的process界面简介,点击,edit,可,修改数据,选择属性后点击,remove,可删除属性,可进行数据的变换,如离散化的数据预处理,数据预处理,的主要选项,2024/11/28,11,数据挖掘实验指南,数据预处理,数据预处理,作为数据挖掘的前奏,起着奠基石的作用,希望引起各位同学的重视。,2024/11/28,数据挖掘实验指南,12,数据预处理举例:离散化,打开,C:Program FilesWeka-3-6dataweather.arff,后点击,choose,点击,2024/11/28,13,数据挖掘实验指南,选择,choose,后选择,过滤规则,:,离散化,Choose-filters-unsupervised-attribute-discretize,discretize,2024/11/28,14,数据挖掘实验指南,选择规则后,应用规则进行离散化,1,、双击所选规则可进行规则的参数设置,见右框,2,、此框可调整参数,4,、点击,apply,则应用规则,3,、进行选择要离散化的属性,2024/11/28,15,数据挖掘实验指南,离散化后的结果,2,、应用规则后,离散化分为,10,类,如下图所示,1,、应用规则后再点击该属性,可视化,2024/11/28,16,数据挖掘实验指南,数据预处理总结,数据预处理的方式非常多,但基本流程跟离散化差不多,请各位同学自行尝试,多实践。,2024/11/28,17,数据挖掘实验指南,
展开阅读全文