资源描述
数据仓库与数据挖掘实验报告册20 - 20 学年 第 学期班 级: 学 号: 姓 名: 目录实验一 Microsoft SQL Server Analysis Services的使用3实验二 使用WEKA进行分类与预测5实验三 使用WEKA进行关联规则与聚类分析6实验四 数据挖掘算法的程序实现7实验一 Microsoft SQL Server Analysis Services的使用实验类型:验证性 实验学时:4实验目的:学习并掌握Analysis Services的操作,加深理解数据仓库中涉及的一些概念,如多维数据集,事实表,维表,星型模型,雪花模型,联机分析处理等。实验内容:在实验之前,先通读自学SQL SERVER自带的Analysis Manager概念与教程。按照自学教程的步骤,完成对FoodMart数据源的联机分析。建立、编辑多维数据集,进行OLAP操作,看懂OLAP的分析数据。实验步骤:1、 启动联机分析管理器:2、 建立系统数据源连接。3、 建立数据库和数据源,多维数据集编辑多维数据集 4、 设计存储和处理多维数据集5、 浏览多维数据集中的数据按时间筛选数据实验小结:实验二 使用WEKA进行分类与预测实验类型:综合性 实验学时:4实验目的:掌握数据挖掘平台WEKA的使用。综合运用数据预处理、分类与预测的挖掘算法、结果的解释等知识进行数据挖掘。从而加深理解课程中的相关知识点。实验内容:阅读并理解WEKA的相关中英文资料,熟悉数据挖掘平台WEKA,针对实际数据,能够使用WEKA进行数据的预处理,能选择合适的分类与预测算法对数据进行分析,并能解释分析结果。实验步骤:1、在开始-程序-启动WEKA,进入Explorer界面,熟悉WEKA的界面功能。2、选择数据集(实验中的数据可以从网络获取),如泰坦尼克号数据集,将要处理的数据集转换成WEKA能处理的格式,如 .ARFF格式。思考:如何将其它格式的数据文件(如.XLS)转换为.ARFF格式?3、根据选择的数据挖掘算法,如果有必要,在Weka Explorer界面,Preprocess选项中,进行相应的数据预处理。要求:熟悉Preprocess界面中各个功能选项的含义,理解数据的特征。思考:在filter中,supervised和unsupervised的区别?4、在Weka Explorer界面,单击Visualize选项,进入WEKA 的可视化页面,可以对当前的关系作二维散点图式的可视化浏览。要求: 熟悉Visualize界面中各个功能选项的含义,理解可视化图形的意义。5、选择相应的分类与预测挖掘算法对数据集进行分析,进行算法参数的具体设置。如利用WEKA-Classifier-trees-J48 决策树算法,对泰坦尼克号数据集进行分析;如利用回归模型对连续数值进行预测。要求:对你选择的分类和预测算法思想分别进行介绍,熟悉classify界面的内容,对classifier中的参数含义分别进行介绍。思考:classifier-trees-J48算法与classifier-trees-id3算法的区别与联系。6、对分析所获得的结果进行解释。如,根据决策树和分类规则尝试讨论泰坦尼克号幸存者的特征。理解评估分类和预测优劣的一些准则。实验小结:实验中遇到的问题及解决办法、心得、体会等等.思考题给出数据挖掘中分类与预测成功应用的案例,并简要介绍。实验三 使用WEKA进行关联规则与聚类分析实验类型:综合性 实验学时:4实验目的:掌握数据挖掘平台WEKA的使用。综合运用数据预处理、关联规则与聚类的挖掘算法、结果的解释等知识进行数据挖掘。从而加深理解课程中的相关知识点。实验内容:阅读并理解WEKA的相关中英文资料,熟悉数据挖掘平台WEKA,针对实际数据,能够使用WEKA进行数据的预处理,了解属性选择,能选择合适的关联规则与聚类算法对数据进行分析,并能解释分析结果。实验步骤:1、在开始-程序-启动WEKA,进入Explorer界面,熟悉WEKA的界面功能。2、选择数据集(实验中的数据可以从网络获取),将要处理的数据集转换成WEKA能处理的格式,如 .ARFF格式。根据选择的数据挖掘算法,如果有必要,在Weka Explorer界面,Preprocess选项中,进行相应的数据预处理。3、在Weka Explorer界面,单击Select attributes选项,进入WEKA 的属性选择页面。要求: 了解该界面中主要功能选项的含义,理解该界面的功能。5、在Weka Explorer界面,单击Associate选项,进入WEKA 的关联规则页面。选择一个关联规则算法对数据集进行分析,进行算法参数的具体设置。要求:对你选择的关联规则算法思想进行介绍,熟悉Associate界面的内容,对Associate中的参数含义分别进行介绍。理解用来衡量规则的关联程度的几个度量指标。理解并解释分析所获得的结果。6、在Weka Explorer界面,单击Cluster选项,进入WEKA 的聚类页面。选择一个聚类算法(如K均值)对数据集进行分析,进行算法参数的具体设置。要求:对你选择的聚类算法思想进行介绍,熟悉Cluster界面的内容,对Cluster中的参数含义进行介绍。理解并解释分析所获得的结果。实验小结:实验中遇到的问题及解决办法、心得、体会等等.思考题给出数据挖掘中关联规则与聚类成功应用的一些案例,并简要介绍。实验四 数据挖掘算法的程序实现实验类型:设计性 实验学时:4实验目的:运用数据挖掘、程序设计等相关知识,选择一个数据挖掘的常用算法进行程序设计实现。加深对数据挖掘算法基本原理、详细执行过程和具体应用情况的理解。实验内容:采用任何一种自己熟悉的编程语言,完成算法的程序设计,并在每个程序设计语句后面进行详细的注释。能够运用实现的算法来解决某个具体的问题,得到并解释程序运行的结果。推荐的算法: 1 关联规则:Apriori算法2 分类与预测:ID3, C4.5, KNN, BP,3 聚类:k-means实验步骤:1. 提前预习,选择算法,理解原理。2. 针对具体问题,选择熟悉的编程平台,进行算法的程序实现,尽量在每个程序语句后面进行详细注释。3. 自己选择某个数据集,应用实现的算法得到结果并解释。实验小结:实验中遇到的问题及解决办法、心得、体会等等.
展开阅读全文