WEKA中文详细教程ppt课件

资源描述

数据挖掘工具-WEKA教程oWEKAWEKA简介简介.2.2o数据集数据集.11.11o数据准备数据准备.24.24o数据预处理数据预处理3636o分类分类6363o聚类聚类.184.184o关联规则关联规则225225o选择属性选择属性244244o数据可视化数据可视化253253o知识流界面知识流界面2752752024/5/81数据挖掘工具-WEKA教程WEKA简介.22023/81、WEKA简介简介oWEKA的全名是怀卡托智能分析环境的全名是怀卡托智能分析环境n（WaikatoEnvironmentforKnowledgeAnalysis）nweka也是新西兰的一种鸟名也是新西兰的一种鸟名o是新西兰怀卡托大学是新西兰怀卡托大学WEKA小组用小组用Java开发的机器学习开发的机器学习/数据挖掘开源软件。其源代码获取数据挖掘开源软件。其源代码获取nhttp:/www.cs.waikato.ac.nz/ml/weka/nhttp:/ HH:mm:ss”n数据信息部分表达日期的字符串必须符合声明中规定的数据信息部分表达日期的字符串必须符合声明中规定的格式要求，例如：格式要求，例如：ATTRIBUTE timestamp DATE yyyy-MM-dd HH:mm:ss DATA 2011-05-03 12:59:552024/5/821日期和时间属性2023/8/121数据信息数据信息o数据信息中数据信息中“data”标记独占一行，剩下的是各个实例标记独占一行，剩下的是各个实例的数据。的数据。o每个实例占一行，实例的各属性值用逗号每个实例占一行，实例的各属性值用逗号“,”隔开。隔开。o如果某个属性的值是缺失值（如果某个属性的值是缺失值（missingvalue），），用用问号问号“?”表示，且这个问号不能省略。表示，且这个问号不能省略。n例如：例如：datasunny,85,85,FALSE,no?,78,90,?,yes2024/5/822数据信息数据信息中“data”标记独占一行，剩下的是各个实稀疏数据稀疏数据o有的时候数据集中含有大量的有的时候数据集中含有大量的0值，这个时候用稀疏格式的值，这个时候用稀疏格式的数据存储更加省空间。数据存储更加省空间。o稀疏格式是针对数据信息中某个对象的表示而言，不需要稀疏格式是针对数据信息中某个对象的表示而言，不需要修改修改ARFF文件的其它部分。例如数据：文件的其它部分。例如数据：ndata0,X,0,Y,classA0,0,W,0,classBn用稀疏格式表达的话就是用稀疏格式表达的话就是data1X,3Y,4classA2W,4classBo注意：注意：ARFF数据集最左端的属性列为第数据集最左端的属性列为第0列，因此，列，因此，1X表示表示X为第为第1列属性值。列属性值。2024/5/823稀疏数据有的时候数据集中含有大量的0值，这个时候用稀疏格式的3、数据准备、数据准备o数据获取数据获取n直接使用直接使用ARFF文件数据。文件数据。n从从CSV，C4.5，binary等多种格式文件中导入。等多种格式文件中导入。n通过通过JDBC从从SQL数据库中读取数据。数据库中读取数据。n从从URL（UniformResourceLocator）获取网络资源的获取网络资源的数据。数据。o数据格式转换数据格式转换nARFF格式是格式是WEKA支持得最好的文件格式。支持得最好的文件格式。n使用使用WEKA作数据挖掘，面临的第一个问题往往是数据不是作数据挖掘，面临的第一个问题往往是数据不是ARFF格式的。格式的。nWEKA还提供了对还提供了对CSV文件的支持，而这种格式是被很多其他文件的支持，而这种格式是被很多其他软件（比如软件（比如Excel）所支持。所支持。n可以利用可以利用WEKA将将CSV文件格式转化成文件格式转化成ARFF文件格式。文件格式。2024/5/8243、数据准备数据获取2023/8/124数据资源数据资源oWEKA自带的数据集自带的数据集C:ProgramFilesWeka-3-6datao网络数据资源网络数据资源http:/archive.ics.uci.edu/ml/datasets.html2024/5/825数据资源WEKA自带的数据集2023/8/125.XLS.CSV.ARFFoExcel的的XLS文件可以让多个二维表格放文件可以让多个二维表格放到不同的工作表（到不同的工作表（Sheet）中，只能把中，只能把每个工作表存成不同的每个工作表存成不同的CSV文件。文件。o打开一个打开一个XLS文件并切换到需要转换的工文件并切换到需要转换的工作表，另存为作表，另存为CSV类型，点类型，点“确定确定”、“是是”忽略提示即可完成操作。忽略提示即可完成操作。o在在WEKA中打开一个中打开一个CSV类型文件，再类型文件，再另存为另存为ARFF类型文件即可。类型文件即可。2024/5/826.XLS.CSV.ARFFExcel的XLS文件可以打开打开Excel的的Iris.xls文件文件2024/5/827打开Excel的Iris.xls文件2023/8/1272024/5/8282023/8/128将将iris.xls另存为另存为iris.csv文件文件2024/5/829将iris.xls另存为iris.csv文件2023/8/12024/5/8302023/8/1302024/5/8312023/8/131在weka的Explorer中打开Iris.csv文件2024/5/832在weka的Explorer中打开Iris.csv文件2022024/5/8332023/8/133将将iris.csv另存为另存为iris.arff文件文件2024/5/834将iris.csv另存为iris.arff文件20232024/5/8352023/8/1354、数据预处理、数据预处理preprocesso在在WEKA中数据预处理工具称作筛选器中数据预处理工具称作筛选器（filters）o可以定义筛选器来以各种方式对数据进行变换。可以定义筛选器来以各种方式对数据进行变换。oFilter一栏用于对各种筛选器进行必要的设置。一栏用于对各种筛选器进行必要的设置。oChoose按钮：点击这个按钮就可选择按钮：点击这个按钮就可选择WEKA中的某中的某个筛选器。个筛选器。o选定一个筛选器后，它的名字和选项会显示在选定一个筛选器后，它的名字和选项会显示在Choose按钮旁边的文本框中。按钮旁边的文本框中。2024/5/8364、数据预处理preprocess在WEKA中数据预处理工载入数据oExplorer的预处理（的预处理（preprocess）页区域）页区域2的前的前4个按钮用来把数据载入个按钮用来把数据载入WEKA：nOpenfile.打开一个对话框，允许你浏览本地文打开一个对话框，允许你浏览本地文件系统上的数据文件。件系统上的数据文件。nOpenURL.请求一个存有数据的请求一个存有数据的URL地址。地址。nOpenDB.从数据库中读取数据从数据库中读取数据。nGenerate.从一些数据生成器从一些数据生成器（DataGenerators）中生成人造数据。）中生成人造数据。2024/5/837载入数据Explorer的预处理（preprocess）去除无用属性去除无用属性o通常对于数据挖掘任务来说，像通常对于数据挖掘任务来说，像ID这样的信息是无用这样的信息是无用的，可以将之删除。的，可以将之删除。n在区域在区域5勾选属性勾选属性“id”，并点击并点击“Remove”。n将新的数据集保存将新的数据集保存，并重新打开。并重新打开。2024/5/838去除无用属性通常对于数据挖掘任务来说，像ID这样的信息是无用数据离散化o有些算法有些算法(如关联分析如关联分析)，只能处理标称型属性，这时候就需要对数，只能处理标称型属性，这时候就需要对数值型的属性进行离散化。值型的属性进行离散化。o对取值有限的数值型属性可通过修改对取值有限的数值型属性可通过修改.arff文件中该属性数据类型实文件中该属性数据类型实现离散化。现离散化。n例如，在某数据集中的例如，在某数据集中的“children”属性只有属性只有4个数值型取值：个数值型取值：0，1，2，3。n我们直接修改我们直接修改ARFF文件，把文件，把attributechildrennumeric改为改为attributechildren0,1,2,3就可以了。就可以了。n在在“Explorer”中重新打开中重新打开“bank-data.arff”，看看选中看看选中“children”属性后，区域属性后，区域6那里显示的那里显示的“Type”变成变成“Nominal”了。了。2024/5/839数据离散化有些算法(如关联分析)，只能处理标称型属性，这时候o对取值较多的数值型属性，离散化可借助对取值较多的数值型属性，离散化可借助WEKA中名为中名为“Discretize”的的Filter来完成。来完成。n在区域在区域2中点中点“Choose”，出现一棵出现一棵“Filter树树”，逐级找到逐级找到“weka.filters.unsupervised.attribute.Discretize”，点击。点击。n现在现在“Choose”旁边的文本框应该显示旁边的文本框应该显示“Discretize-B10-M-0.1-Rfirst-last”。n点击这个文本框会弹出新窗口以修改离散化的参数。点击这个文本框会弹出新窗口以修改离散化的参数。2024/5/840对取值较多的数值型属性，离散化可借助WEKA中名为“Disc在weka的Explorer中打开Iris.arff文件2024/5/841在weka的Explorer中打开Iris.arff文件202024/5/8422023/8/1422024/5/8432023/8/143查看Iris数据集2024/5/844查看Iris数据集2023/8/1442024/5/8452023/8/145查看Iris数据属性分布图，选择属性2024/5/846查看Iris数据属性分布图，选择属性2023/8/1462024/5/8472023/8/1472024/5/8482023/8/148通过观察发现petallength最能区分各类2024/5/849通过观察发现petallength最能区分各类2023/8/将属性petallength离散化2024/5/850将属性petallength离散化2023/8/1502024/5/8512023/8/1512024/5/8522023/8/1522024/5/8532023/8/1532024/5/8542023/8/1542024/5/8552023/8/155离散化成离散化成10段数据段数据等频离散化等频离散化离散化成离散化成10段数据段数据2024/5/856离散化成10段数据等频离散化离散化成10段数据2023/8/2024/5/8572023/8/1572024/5/8582023/8/1582024/5/8592023/8/1592024/5/8602023/8/160查看离散化后的Iris数据集2024/5/861查看离散化后的Iris数据集2023/8/1612024/5/8622023/8/1625、分类、分类ClassifyoWEKA把分类把分类(Classification)和回归和回归(Regression)都放在都放在“Classify”选项卡中。选项卡中。o在这两个数据挖掘任务中，都有一个目标属性（类别属性，输出变在这两个数据挖掘任务中，都有一个目标属性（类别属性，输出变量）。量）。o我们希望根据一个我们希望根据一个WEKA实例的一组特征属性实例的一组特征属性（输入变量），对（输入变量），对目标属性进行分类预测。目标属性进行分类预测。o为了实现这一目的，我们需要有一个训练数据集，这个数据集中每为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的分类起预测的分类/回归模型。回归模型。o有了这个模型，就可以对新的未知实例进行分类预测。有了这个模型，就可以对新的未知实例进行分类预测。o衡量模型的好坏主要在于预测的准确程度。衡量模型的好坏主要在于预测的准确程度。2024/5/8635、分类ClassifyWEKA把分类(ClassificWEKA中的典型分类算法oBayes:贝叶斯分类器贝叶斯分类器nBayesNet:贝叶斯信念网络贝叶斯信念网络nNaveBayes:朴素贝叶斯网络朴素贝叶斯网络oFunctions:人工神经网络和支持向量机人工神经网络和支持向量机nMultilayerPerceptron:多层前馈人工神经网络多层前馈人工神经网络nSMO:支持向量机（采用顺序最优化学习方法）支持向量机（采用顺序最优化学习方法）oLazy:基于实例的分类器基于实例的分类器nIB1:1-最近邻分类器最近邻分类器nIBk:k-最近邻分类器最近邻分类器2024/5/864WEKA中的典型分类算法Bayes:贝叶斯分类器2023/选择分类算法选择分类算法nMeta:组合方法组合方法oAdaBoostM1:AdaBoostM1方法方法oBagging:袋装方法袋装方法nRules:基于规则的分类器基于规则的分类器oJRip:直接方法直接方法Ripper算法算法oPart:间接方法从间接方法从J48产生的决策树抽取规则产生的决策树抽取规则nTrees:决策树分类器决策树分类器oId3:ID3决策树学习算法（决策树学习算法（不支持连续属性不支持连续属性）oJ48:C4.5决策树学习算法（第决策树学习算法（第8版本）版本）oREPTree:使用降低错误剪枝的决策树学习算法使用降低错误剪枝的决策树学习算法ooRandomTreeRandomTree:基于决策树的组合方法基于决策树的组合方法2024/5/865选择分类算法Meta:组合方法2023/8/165选择分类算法选择分类算法2024/5/866选择分类算法2023/8/1662024/5/8672023/8/167选择模型评估方法选择模型评估方法o四种方法四种方法nUsingtrainingset使用训练集评估使用训练集评估nSuppliedtestset使用测试集评估使用测试集评估nCross-validation交叉验证交叉验证o设置折数设置折数FoldsnPercentagesplit保持方法。使用一定比保持方法。使用一定比例的训练实例作评估例的训练实例作评估o设置训练实例的百分比设置训练实例的百分比2024/5/868选择模型评估方法四种方法2023/8/168选择模型评估方法选择模型评估方法2024/5/869选择模型评估方法2023/8/169oOutput model.输出基于整个训练集的分类模型，从而模型可以被输出基于整个训练集的分类模型，从而模型可以被查看，可视化等。该选项默认选中。查看，可视化等。该选项默认选中。oOutput per-class stats.输出每个输出每个class的准确度的准确度/反馈率反馈率（precision/recall）和正确和正确/错误（错误（true/false）的统计量。该选项的统计量。该选项默认选中。默认选中。oOutput evaluation measures.输出熵估计度量。该选项默认没有输出熵估计度量。该选项默认没有选中。选中。oOutput confusion matrix.输出分类器预测结果的混淆矩阵。该选输出分类器预测结果的混淆矩阵。该选项默认选中。项默认选中。oStore predictions for visualization.记录分类器的预测结果使得记录分类器的预测结果使得它们能被可视化表示。它们能被可视化表示。oOutput predictions.输出测试数据的预测结果。注意在交叉验证时，输出测试数据的预测结果。注意在交叉验证时，实例的编号不代表它在数据集中的位置。实例的编号不代表它在数据集中的位置。oCost-sensitive evaluation.误差将根据一个价值矩阵来估计。误差将根据一个价值矩阵来估计。Set 按钮用来指定价值矩阵。按钮用来指定价值矩阵。oRandom seed for xval/%Split.指定一个随即种子，当出于评价指定一个随即种子，当出于评价的目的需要分割数据时，它用来随机化数据。的目的需要分割数据时，它用来随机化数据。点击点击More options 按钮可以设置更多的测试选项：按钮可以设置更多的测试选项：2024/5/870Outputmodel.输出基于整个训练集的分类模型，从文字结果分析文字结果分析o单击单击start按钮，按钮，Classifieroutput窗口显示的文字结窗口显示的文字结果信息：果信息：nRun information 运行信息运行信息nClassifier model(full training set)使用全部训练数据使用全部训练数据构造的分类模型构造的分类模型nSummary 针对训练针对训练/检验集的预测效果汇总。检验集的预测效果汇总。nDetailed Accuracy By Class 对每个类的预测准确度的详对每个类的预测准确度的详细描述。细描述。nConfusion Matrix 混淆矩阵，混淆矩阵，其中矩阵的行是实际的类，其中矩阵的行是实际的类，矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个数。数。2024/5/871文字结果分析单击start按钮，Classifierout文字结果文字结果2024/5/872文字结果2023/8/172主要指标主要指标oCorrectly Classified Instances 正确分类率正确分类率oIncorrectly Classified Instances 错误分类率错误分类率oKappa statistic Kappa Kappa 统计数据统计数据oMean absolute error 平均绝对误差平均绝对误差oRoot mean squared error 根均方差根均方差oRelative absolute error 相对绝对误差相对绝对误差oRoot relative squared error 相对平方根误差相对平方根误差oTP Rate(bad/good)正确肯定率正确肯定率oFP Rate(bad/good)错误肯定率错误肯定率oPrecision(bad/good)精确率精确率oRecall(bad/good)反馈率反馈率oF-Measure(bad/good)F F测量测量oTime taken to build model 建模花费的时间建模花费的时间2024/5/873主要指标CorrectlyClassifiedInsta输出图形结果输出图形结果鼠标右键鼠标右键2024/5/874输出图形结果鼠标右键2023/8/174oView in main window(View in main window(查看主窗口查看主窗口)。在主窗口中查看输出结果。在主窗口中查看输出结果。oView in separate window(View in separate window(查看不同的窗口查看不同的窗口)。打开一个独立的新窗。打开一个独立的新窗口来查看结果。口来查看结果。oSave result buffer(Save result buffer(保存结果的缓冲区保存结果的缓冲区)。弹出对话框来保存输出结。弹出对话框来保存输出结果的文本文件。果的文本文件。oLoad model(Load model(下载模式下载模式)。从二进制文件中载入一个预训练模式对象。从二进制文件中载入一个预训练模式对象。oSave model(Save model(保存模式保存模式)。将一个模式对象保存到二进制文件中，也。将一个模式对象保存到二进制文件中，也就是保存在就是保存在JAVA JAVA 的串行对象格式中。的串行对象格式中。oRe-evaluate model on current test set(Re-evaluate model on current test set(对当前测试集进行重新评对当前测试集进行重新评估估)。通过已建立的模式，并利用。通过已建立的模式，并利用Supplied test set(Supplied test set(提供的测试集提供的测试集)选项下的选项下的Set.Set.按钮来测试指定的数据集。按钮来测试指定的数据集。2024/5/875Viewinmainwindow(查看主窗口)。在主窗oVisualize classifier errors(Visualize classifier errors(可视化分类器错误可视化分类器错误)。弹出一个可视化。弹出一个可视化窗口来显示分类器的结果图。其中，正确分类的实例用叉表示，然而不窗口来显示分类器的结果图。其中，正确分类的实例用叉表示，然而不正确分类的实例则是以小正方形来表示的。正确分类的实例则是以小正方形来表示的。oVisualize tree(Visualize tree(树的可视化树的可视化)。如果可能的话，则弹出一个图形化的界。如果可能的话，则弹出一个图形化的界面来描述分类器模型的结构面来描述分类器模型的结构(这只有一部分分类器才有的这只有一部分分类器才有的)。右键单击空。右键单击空白区域弹出一个菜单，在面板中拖动鼠标并单击，就可以看见每个节点白区域弹出一个菜单，在面板中拖动鼠标并单击，就可以看见每个节点对应的训练实例。对应的训练实例。oVisualize margin curve(Visualize margin curve(边际曲线的可视化边际曲线的可视化)。产生一个散点图来描述。产生一个散点图来描述预测边际的情况。边际被定义为预测为真实值的概率和预测为真实值之预测边际的情况。边际被定义为预测为真实值的概率和预测为真实值之外的其它某类的最高概率之差。例如加速算法通过增加训练数据集的边外的其它某类的最高概率之差。例如加速算法通过增加训练数据集的边际来更好地完成测试数据集的任务。际来更好地完成测试数据集的任务。2024/5/876Visualizeclassifiererrors(可视oVisualize threshold curve(Visualize threshold curve(阈曲线的可视化阈曲线的可视化)。产生一个散点。产生一个散点图来描述预测中的权衡问题，其中权衡是通过改变类之间阈值图来描述预测中的权衡问题，其中权衡是通过改变类之间阈值来获取的。例如，缺省阈值为来获取的。例如，缺省阈值为0.50.5，一个实例预测为，一个实例预测为positivepositive的的概率必须要大于概率必须要大于0.50.5，因为，因为0.50.5时实例正好预测为时实例正好预测为positivepositive。而而且图表可以用来对精确率且图表可以用来对精确率/反馈率权衡进行可视化，如反馈率权衡进行可视化，如ROC ROC 曲线曲线分析分析(正确的正比率和错误的正比率正确的正比率和错误的正比率)和其它的曲线。和其它的曲线。oVisualize cost curve(Visualize cost curve(成本曲线的可视化成本曲线的可视化)。产生一个散点图，。产生一个散点图，来确切描述期望成本，正如来确切描述期望成本，正如Drummond Drummond 和和Holte Holte 所描述的一所描述的一样。2024/5/877Visualizethresholdcurve(阈曲线的oVisualize classifier errors.可视化分类错误可视化分类错误n实际类与预测类的散布图实际类与预测类的散布图。其中正确分类的结果用叉表示，其中正确分类的结果用叉表示，分错的结果用方框表示。分错的结果用方框表示。2024/5/878Visualizeclassifiererrors.可Visualize tree可视化树可视化树2024/5/879Visualizetree可视化树2023/8/1792024/5/8802023/8/1802024/5/8812023/8/181可视化边际曲线（Visualize margin curve）o创建一个散点图来显示预测边际值。创建一个散点图来显示预测边际值。n四个变量四个变量oMargin:预测边际值预测边际值oInstance_number:检验实例的序号检验实例的序号oCurrent:具有当前预测边际值的实例个数具有当前预测边际值的实例个数oCumulative:小于或等于预测边际值的实例个小于或等于预测边际值的实例个数数（与（与Instance_number一致）一致）2024/5/882可视化边际曲线（Visualizemargincurv2024/5/8832023/8/183o单击单击8号检验实例，显示该点的边际值为号检验实例，显示该点的边际值为0.5，有，有7个实例的边际值个实例的边际值小于小于0.5。2024/5/884单击8号检验实例，显示该点的边际值为0.5，有7个实例的边际可视化阈值曲线（基于类）o阈值是将检验实例归为当前类的最小概率，使用阈值是将检验实例归为当前类的最小概率，使用点的颜色表示阈值点的颜色表示阈值n曲线上的每个点通过改变阈值的大小生成曲线上的每个点通过改变阈值的大小生成n可以进行可以进行ROC分析分析oX轴选假正率轴选假正率oY轴选真正率轴选真正率2024/5/885可视化阈值曲线（基于类）阈值是将检验实例归为当前类的最小概率2024/5/8862023/8/1862024/5/8872023/8/187ROC曲线oROC曲线（曲线（Receiver Operating Characteeristic Curve）是显示是显示Classification模型真正率和假正率之间折中的一种图形化方法。模型真正率和假正率之间折中的一种图形化方法。o假设样本可分为正负两类，解读假设样本可分为正负两类，解读ROC图的一些概念定义图的一些概念定义:n真正（真正（True Positive,TP），），被模型预测为正的正样本被模型预测为正的正样本 n假负（假负（False Negative,FN）被模型预测为负的正样本被模型预测为负的正样本n假正（假正（False Positive,FP）被模型预测为正的负样本被模型预测为正的负样本 n真负（真负（True Negative,TN）被模型预测为负的负样本被模型预测为负的负样本n真正率（真正率（True Positive Rate,TPR）或灵敏度（或灵敏度（sensitivity）TPR=TP/（TP+FN）正样本预测结果数正样本预测结果数/正样本实际数正样本实际数n假正率（假正率（False Positive Rate,FPR）FPR=FP/（FP+TN）被预测为正的负样本结果数被预测为正的负样本结果数/负样本实际数负样本实际数 o(TPR=1,FPR=0)TPR=1,FPR=0)是理想模型是理想模型 o一个好的分类模型应该尽可能靠近图形的左上角。一个好的分类模型应该尽可能靠近图形的左上角。2024/5/888ROC曲线ROC曲线（ReceiverOperatingIRIS分类示例分类示例2024/5/889IRIS分类示例2023/8/189在weka的Explorer中打开Iris.arff文件2024/5/890在weka的Explorer中打开Iris.arff文件20在weka的Explorer中打开Iris.arff文件2024/5/891在weka的Explorer中打开Iris.arff文件202024/5/8922023/8/192选择分类（Classify）数据挖掘任务2024/5/893选择分类（Classify）数据挖掘任务2023/8/193选择分类算法2024/5/894选择分类算法2023/8/194选择决策树算法Trees-J482024/5/895选择决策树算法Trees-J482023/8/195设置相关参数2024/5/896设置相关参数2023/8/1962024/5/8972023/8/1972024/5/8982023/8/198选择检验方法2024/5/899选择检验方法2023/8/1992024/5/81002023/8/11002024/5/81012023/8/11012024/5/81022023/8/11022024/5/81032023/8/11032024/5/81042023/8/1104执行分类算法，建立决策树模型2024/5/8105执行分类算法，建立决策树模型2023/8/1105查看算法执行的输出信息2024/5/8106查看算法执行的输出信息2023/8/11062024/5/81072023/8/1107查看决策树分类模型2024/5/8108查看决策树分类模型2023/8/11082024/5/81092023/8/11092024/5/81102023/8/1110查看分类错误散点图查看分类错误散点图2024/5/8111查看分类错误散点图2023/8/11112024/5/81122023/8/1112选择其他的分类算法选择其他的分类算法2024/5/8113选择其他的分类算法2023/8/11132024/5/81142023/8/1114选择贝叶斯分类算法选择贝叶斯分类算法bayes-Naivebayes2024/5/8115选择贝叶斯分类算法bayes-Naivebayes202选择检验方法2024/5/8116选择检验方法2023/8/1116执行分类算法，建立贝叶斯模型2024/5/8117执行分类算法，建立贝叶斯模型2023/8/1117进行进行ROC分析分析2024/5/8118进行ROC分析2023/8/11182024/5/81192023/8/11192024/5/81202023/8/1120选择其他的分类算法选择其他的分类算法2024/5/8121选择其他的分类算法2023/8/1121选择决策树用户自分类法选择决策树用户自分类法trees-UserClssifier2024/5/8122选择决策树用户自分类法trees-UserClssifie选择检验方法2024/5/8123选择检验方法2023/8/1123执行算法2024/5/8124执行算法2023/8/11242024/5/81252023/8/1125数据散点图2024/5/8126数据散点图2023/8/1126但击鼠标，确定分类边界2024/5/8127但击鼠标，确定分类边界2023/8/1127查看相应的分类树 2024/5/8128查看相应的分类树2023/8/1128预测指定属性值 2024/5/8129预测指定属性值2023/8/1129选择预测属性2024/5/8130选择预测属性2023/8/11302024/5/81312023/8/1131选择算法2024/5/8132选择算法2023/8/11322024/5/81332023/8/1133执行算法2024/5/8134执行算法2023/8/1134观察输出信息2024/5/8135观察输出信息2023/8/11352024/5/81362023/8/1136查看分类错误散点图查看分类错误散点图2024/5/8137查看分类错误散点图2023/8/11372024/5/81382023/8/1138点击实例，察看详细信息点击实例，察看详细信息2024/5/8139点击实例，察看详细信息2023/8/1139该实例该实例petallength的实际值为的实际值为5.1，预测值为，预测值为5.892024/5/8140该实例petallength的实际值为5.1，预测值为5.8训练训练BANK-DATA分类模型示例分类模型示例obank-data数据各属性的含义如下：id:a unique identification number age:age of customer in years(numeric)sex:MALE/FEMALE region:inner_city/rural/suburban/town income:income of customer(numeric)married:is the customer married(YES/NO)children:number of children(numeric)car:does the customer own a car(YES/NO)save_act:does the customer have a saving account(YES/NO)current_act:does the customer have a current account(YES/NO)mortgage:does the customer have a mortgage(YES/NO)pep（目标变量）:did the customer buy a PEP(Personal Equity Plan，个人参股计划)after the last mailing(YES/NO)2024/5/8141训练BANK-DATA分类模型示例bank-data数据各属浏览浏览bank-data.xls数据数据2024/5/8142浏览bank-data.xls数据2023/8/1142数据准备数据准备将数据另存为将数据另存为.csv格式格式2024/5/8143数据准备将数据另存为.csv格式2023/8/11432024/5/81442023/8/1144数据准备数据准备在在WEKA中打开中打开bank-data.csv2024/5/8145数据准备在WEKA中打开bank-data.csv2022024/5/81462023/8/11462024/5/81472023/8/11472024/5/81482023/8/1148数据准备数据准备在在WEKA中浏览数据中浏览数据2024/5/8149数据准备在WEKA中浏览数据2023/8/11492024/5/81502023/8/1150数据准备数据准备将数据另存为将数据另存为.arff格式格式2024/5/8151数据准备将数据另存为.arff格式2023/8/1151在写字板中浏览在写字板中浏览bank-data.arff文件文件2024/5/8152在写字板中浏览bank-data.arff文件2023/8/2024/5/81532023/8/1153数据预处理数据预处理o去除无用属性去除无用属性通常对于数据挖掘任务来说，通常对于数据挖掘任务来说，ID这样的信息是无用的，我们将之删除。这样的信息是无用的，我们将之删除。勾选属性勾选属性“id”，并点击并点击“Remove”。将新的数据集保存为将新的数据集保存为“bank-data.arff”，重新打开。重新打开。o离散化离散化在这个数据集中有在这个数据集中有3个变量是数值型的，分别是个变量是数值型的，分别是“age”，“income”和和“children”。其中其中“children”只有只有4个取值：个取值：0，1，2，3。这时我们直接修改。这时我们直接修改ARFF文件，把文件，把attributechildrennumeric改为改为attributechildren0,1,2,3就可以了。就可以了。在在“Explorer”中重新打开中重新打开“bank-data.arff”，看看选中看看选中“children”属性后，显示的属性后，显示的“Type”变成变成“Nominal”了。了。2024/5/8154数据预处理去除无用属性2023/8/1154数据预处理数据预处理u“age”和和“income”的离散化可借助的离散化可借助WEKA中名为中名为“Discretize”的的Filter来完成。来完成。点点“Choose”，出现一棵出现一棵“Filter树树”，逐级找到，逐级找到“weka.filters.unsupervised.attribute.Discretize”，点点击。击。现在现在“Choose”旁边的文本框应该显示旁边的文本框应该显示“Discretize-B10-M-0.1-Rfirst-last”。点击这个文本框会弹出新窗口以修点击这个文本框会弹出新窗口以修改离散化的参数。改离散化的参数。我们不打算对所有的属性离散化，只是针对对第我们不打算对所有的属性离散化，只是针对对第1个和第个和第4个属个属性（见属性名左边的数字），故把性（见属性名左边的数字），故把attributeIndices右边改右边改成成“1,4”。计划把这两个属性都分成。计划把这两个属性都分成3段，于是把段，于是把“bins”改改成成“3”。其它框里不用更改。其它框里不用更改。点点“OK”回到回到“Explorer”，可以看到可以看到“age”和和“income”已已经被离散化成分类型的属性。若想放弃离散化可以点经被离散化成分类型的属性。若想放弃离散化可以点“Undo”。u经过上述操作得到的数据集我们保存为经过上述操作得到的数据集我们保存为bank-data-final.arff。2024/5/8155数据预处理“age”和“income”的离散化可借助WEKA数据预处理数据预处理-去除无用属性去除无用属性2024/5/8156数据预处理-去除无用属性2023/8/11562024/5/81572023/8/1157数据预处理数据预处理children数据离散化数据离散化2024/5/8158数据预处理children数据离散化2023/8/1158数据预处理数据预处理children数据离散化数据离散化o用写字板打开用写字板打开bank-data.arff文件文件2024/5/8159数据预处理children数据离散化用写字板打开bank-2024/5/81602023/8/1160在在WEKA中重新打开中重新打开bank-data.arff文件。文件。2024/5/8161在WEKA中重新打开bank-data.arff文件。2022024/5/81622023/8/1162o观察观察children属性。属性。2024/5/8163观察children属性。2023/8/1163数据预处理数据预处理离散化离散化“age”和和“income”2024/5/8164数据预处理离散化“age”和“income”2023/8数据预处理数据预处理数据离散化数据离散化2024/5/8165数据预处理数据离散化2023/8/11652024/5/81662023/8/11662024/5/81672023/8/11672024/5/81682023/8/11682024/5/81692023/8/11692024/5/81702023/8/11702024/5/81712023/8/1171在写字板中重新观察在写字板中重新观察bank-data.arff数据数据2024/5/8172在写字板中重新观察bank-data.arff数据2023/训练分类模型训练分类模型2024/5/8173训练分类模型2023/8/11732024/5/81742023/8/11742024/5/81752023/8/1175评估分类模型评估分类模型2024/5/8176评估分类模型2023/8/1176选择不同的分类算法或参数选择不同的分类算法或参数2024/5/8177选择不同的分类算法或参数2023/8/11772024/5/81782023/8/1178选择模型选择模型2024/5/8179选择模型2023/8/11792024/5/81802023/8/11802024/5/81812023/8/11812024/5/81822023/8/11822024/5/81832023/8/11836、聚类聚类clustero聚类分析是把对象分配给各个簇，使同簇中的对象相似，而不同簇间聚类分析是把对象分配给各个簇，使同簇中的对象相似，而不同簇间的对象相异。的对象相异。oWEKA在在“Explorer”界面的界面的“Cluster”提供聚类分析工具提供聚类分析工具选择聚类算法选择聚类算法2024/5/81846、聚类cluster聚类分析是把对象分配给各个簇，使同WEKA中的聚类算法中的聚类算法2024/5/8185WEKA中的聚类算法2023/8/1185o主要算法包括：主要算法包括：nSimpleKMeans支持分类属性的支持分类属性的K均值算法均值算法nDBScan支持分类属性的基于密度的算法支持分类属性的基于密度的算法nEM基于混合模型的聚类算法基于混合模型的聚类算法nFathestFirstK中心点算法中心点算法nOPTICS基于密度的另一个算法基于密度的另一个算法nCobweb概念聚类算法概念聚类算法nsIB基于信息论的聚类算法，不支持分类属性基于信息论的聚类算法，不支持分类属性nXMeans能自动确定簇个数的扩展能自动确定簇个数的扩展K均值算法，均值算法，不支持分类属性不支持分类属性2024/5/8186主要算法包括：2023/8/1186参数设置参数设置oSimpleKMeans重要参数重要参数nN簇个数簇个数oDBScan重要参数重要参数nEEps半径半径nMMinPts，Eps半径内点个数半径内点个数2024/5/8187参数设置SimpleKMeans重要参数2023/8/118SimpleKMeans重要参数重要参数2024/5/8188SimpleKMeans重要参数2023/8/1188odisplayStdDevsdisplayStdDevs：是否显示数值属性标准差和是否显示数值属性标准差和分类分类属性属性个数个数odistanceFunctiondistanceFunction：选择比较实例的距离函数选择比较实例的距离函数n(默认默认:weka.core.EuclideanDistance)weka.core.EuclideanDistance)odontReplaceMissingValuesdontReplaceMissingValues：是否不使用均值是否不使用均值/众数众数（mean/modemean/mode）替换缺失值。替换缺失值。omaxIterationsmaxIterations：最大迭代次数最大迭代次数onumClustersnumClusters：聚类的簇数聚类的簇数opreserveInstancesOrderpreserveInstancesOrder：是否预先排列实例的顺序是否预先排列实例的顺序oSeedSeed：设定的随机种子值设定的随机种子值2024/5/8189displayStdDevs：是否显示数值属性标准差和分类属聚类模式聚类模式ClusterMode2024/5/8190聚类模式ClusterMode2023/8/1190o使用训练集使用训练集(Usetrainingset)报告训练对象的聚类报告训练对象的聚类结果和分组结果结果和分组结果o使用附加的检验集使用附加的检验集(Suppliedtestset)报告训练对象报告训练对象的聚类结果和附加的检验对象的分组结果的聚类结果和附加的检验对象的分组结果o百分比划分百分比划分(Percentagesplit)报告全部对象的聚类报告全部对象的聚类结果、训练对象的聚类结果，以及检验对象的分组结果结果、训练对象的聚类结果，以及检验对象的分组结果o监督评估监督评估(Classestoclustersevaluation)报告报告训练对象的聚类结果和分组结果、类训练对象的聚类结果和分组结果、类/簇混淆矩阵和错误分簇混淆矩阵和错误分组信息组信息2024/5/8191使用训练集(Usetrainingset)报告训执行聚类算法o点击点击“Start”按钮，执行聚类算法按钮，执行聚类算法2024/5/8192执行聚类算法点击“Start”按钮，执行聚类算法2023/8观察聚类结果o观察右边“Clustereroutput”给出的聚类结果。也可以在左下角“Resultlist”中这次产生的结果上点右键，“Viewinseparatewindow”在新窗口中浏览结果。2024/5/8193观察聚类结果观察右边“Clustereroutput”给出=Runinformation=%运行信息运行信息Scheme:weka.clusterers.SimpleKMeans-N3-A“weka.core.EuclideanDistance-Rfirst-last”-I500-S10%算法的参数设置：算法的参数设置：-N3-A“weka.core.EuclideanDistance-Rfirst-last”-I500-S10;%各参数依次表示：各参数依次表示：%-N3聚类簇数为聚类簇数为3；%-A“weka.core.EuclideanDistance中心距离为欧氏距离；中心距离为欧氏距离；%-I500-最多迭代次数为最多迭代次数为500；%-S10-随机种子值为随机种子值为10。Relation:iris%数据集名称数据集名称Instances:150%数据集中的实例个数数据集中的实例个数2024/5/8194=Runinformation=%运Attributes:5%数据集中的属性个数及属性名称数据集中的属性个数及属性名称sepallengthsepalwidthpetallengthpetalwidthIgnored:%忽略的属性忽略的属性classTestmode:Classestoclustersevaluationontrainingdata%测试模式测试模式=Modelandevaluationontainingset=%基于训练数据集的模型与评价基于训练数据集的模型与评价kMeans%使用使用kMeans算法算法=Numberofiterations:6kMeans%迭代次数迭代次数Winthinclustersumofsquarederrors:6.998114004826762%SSE(%SSE(误差的平方和误差的平方和)Missingvaluesgloballyreplacedwithmean/mode%用均值用均值/众数替代缺失值众数替代缺失值2024/5/8195Attributes:5%数据集中的属性Clustercentroids:%各个簇的质心各个簇的质心Cluster#AttributeFullData012(150)(61)(60)(39)=sepallength5.84335.88855.0066.8462sepalwidth3.0642.73773,4183.0821petallength3.75874,39671,4645.7026petalwidth1.19871.4180.2442.0795Timetakentobuildmodel(fulltrainingdata):0.03seconds%建模用的时间建模用的时间=Modalandevaluationontrainingset=ClusteredInstances%各个簇中的实例个数及百分比。各个簇中的实例个数及百分比。061(41%)150(33%)239(26%)2024/5/8196Clustercentroids:%各个簇的质心202注意：采用有监督聚类（即已知建模数据集的类标号），才会出现以下执行信息。Classattribute:class%类标号属性名称类标号属性名称ClassestoClusters:%类簇混淆矩阵类簇混淆矩阵012-assignedtocluster0500|Ir

展开阅读全文

WEKA中文详细教程ppt课件

最新文档