资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2017/3/13,#,第五章,modeler,操作入门,第五,章,modeler,操作入门,5.1 modeler,概述,5.2 modeler,相关操作,5.3 modeler,功能,5.4,案例分析,5.5,进一步学习,5.1Modeler,概述,Modeler,界面,架构与产品,5.1.1Modeler,界面,简介:一般认为,数据,挖掘是持续性,的项目过程,,在,这个过程中,,数据,挖掘的各种算法是数据挖掘过程的核心步骤,,但并不是,整个项目的全部决定性因素,。,为了数据,挖掘过程,更标准化,,IBM,SPSS Modeler,使用的就是,CRISP-DM(CRoss Industry Standard,Process-for Data,Mining),,,跨行业数据挖掘标准流程),其中一共分为,6,个步骤:商业理解,数据理解,数据准备,建模,评估,发布。,商业,理解(,business understanding,),从,商业的角度了解项目的要求和最终目的,确定数据挖掘的目标,制定项目计划,。,数据,理解(,data understanding,),收集,原始数据、探索数据,特征、,检验,数据质量,(,完整性、正确性,),和缺失值的填补等,。,数据,准备(,data preparation,),涵盖,了从原始粗糙数据到构建最终数据集(将作为建模工具的分析对象)的全部工作,为适应建模工具而进行的数据清理,(,数据变量的选择和转换,),等等。,建模(,modeling,),多种,建模方法被加以选择和使用,通过优化模型将其参数将被校准为最为理想的值。,评估(,evaluation,),一,个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。,发布(,deployment,),将,其发现的结果以及过程组织成为可读文本形式,1,.,数据流,构建区,一个完整的数据流至少应该包括一个起始节点和一个终端节点。,数据流,构建区,是主要,工作区域,,我们,通过,构建和连接一个个节点帮助,我们完成数据探索,数据,清洗及,数据建模等工作,。,数据流,在,Modeler,中称之为,stream,,,因此,modeler,保存,的文件也是以,.str,结尾的,。,2,.,数据流、结果和模型管理区,(,1,)流:流管理区,,同时构建,/,编辑多个模型流,,这个选项可以帮助分析员在对,多个流进行切换;,(,2,)结果:将输出,/,图形的结果保存并进行,编辑命名,,供,下次查看;,(,3,)模型:在该选项卡下,,modeler,所建立的所有模型都将出现在这里,我们可以通过该选项卡随时查看生产的模型,甚至把模型结果单独保存。,3,.,数据挖掘项目管理,区,数据,挖掘会是一个持续性的项目过程,尤其是在商业数据挖掘当中,。可以,看到,这里面的阶段设置就是按照,CRISP-DM,方法论进行划分的,,通过,这个项目管理区,我们就可以很方便把相应的内容(无论是,str,文件,结果,模型乃至于,word,文档都可以归纳进来)对号入座,在每次开展或者继续项目的时候就可以很容易进行查看操作,非常,方便分析,人员进行管理。,4,节点区,(,1,)起始节点,这类节点是整个数据流的起点,这类节点之前不能再连接其他节点;,(,2,)中间节点,这类节点往往是数据挖掘过程的一个步骤,可以在它之前和之后都可以且必须接其他节点;,(,3,)终端节点:这类节点代表了,数据流,(,或,数据流的,分支,),结束,,这类节点后面不能再接其他节点。,节点类型:,节点区,起始节点,源,中间节点,记录,字段,终端节点,图形,建模,输出,导出,IBM SPSS,(,1,)起始节点,源节点:包含各数据源类型,通过该节点,可以读取不同类型的数据,(spss,excel,text),(,2,)中间节点,记录节点:包含对记录进行处理的各种方法,(,选择、排序,),。,字段选择:包含对字段进行处理的各种方法,(,定义类型,),。,(,3,)终端节点,图形节点:提供了多种的图形功能,,通过,图形展示的方式进行数据探索或者对模型效果评估;,建模节点:提供各种数据挖掘模型,当该节点运行后会,生成“模型节点”,,而该节点就属于中间节点。,输出节点:提供数据表,交叉表,报告等,可以帮助我借助统计分析来进行适当的数据探索以及结果评估;,导出节点:把数据结果导出到各种格式的文件进行保存,导出为,excel,文件;,Statistics,节点:调用,statistics,的功能。,数据量小时,单机版,SPSS modeler,数据量大时,,C/S,架构运行,5.1.2,架构与产品,5.2modeler,相关操作,基本操作,表达式,技巧,5.2.1 modeler,基本操作,左键:用于节点选择,按住此键可以将节点进行随时拖动;,右键:用于挑出菜单,菜单中包含一系列诸如连接,编辑,复制,删除等功能;,滚轮:按住此键移动鼠标可以用于节点间进行,连接,。,5.2.2 modeler,的表达式,相当于,SPSS,转换,字段节点的导出节点,5.2.3modeler,的操作技巧,1.,超节点,若干个相关节点,封装成一个超节点,(,打包,),。,(1),创建:,选中需要封装的若干节点,右击并选择创建,”,创建超节点,”,选中需要封装的若干,节点,,工具栏中单击,(2),查看超节点,右击超节点并选择“扩展”,工具栏中选择“放大”,数据流管理区单击相关超节点,2.,缓冲,若包含大量数据的数据流,每次从头执行会耗费大量的时间。缓冲,使数据流的执行不必每次都从头开始。,在选定节点上右击选择“缓冲”,“启用”命令,会在节点的右上角出现一个标记,当第一次执行数据流时,数据流在完成该节点相应计算后,该标记会变绿,表示数据结果已存在内存中,以后再执行数据流,将从该节点执行。,当关闭数据流,缓冲数据也会消失,如果希望以后使用缓冲,数据,应该选择“缓冲”“保存缓冲”,使缓冲数据保存到硬盘上。,下次使用时选择,“缓冲”,“下载缓冲”即可。,3.,数据流注解,4.,参数设置,会话,参数,:可用,于当前会话中使用的所有,流。菜单,栏,【,工具,】-【,设置会话参数,】,流,参数:在流脚本中或在流属性对话框中设置,可用于流中的所有节点,。,菜单栏,【,工具,】-【,流属性,】-【,参数,】,超节点参数:适用于超节点的封装节点。,【,超节点,】-【,定义参数,】,5.3 modeler,功能,数据整理案例,探索性数据分析案例,建立模型、模型检验与模型应用案例,5.3.1,数据整理,案例,数据挖掘的,目标:找出前,10,个购买金额最多的客户。,想法:要知道客户的订单总额,降序排序后,输出前,10,名客户的信息。,拥有的,数据库,画圈圈的三张表是,我们所需要的,从数据库中把客户,、,订单和订单明细导入,modeler,中。,先建立与数据库,ODBC,连接,,【,控制面板,】-【,管理工具,】-【,数据源,】,里设置用户,DSN,,添加,Northwind,节点,文件指向,northwind.mdb,从,modeler,的源中选入,数据库节点,,导入,3,张表。,5.3.2,探索性数据分析案例,商业目的:设计产品套餐进行营销策划,数据,挖掘的目标,:找出产品之间的关系,想法:网络节点节点位于,“图形”节点下,通过,绘制,网络图展示,变量属性之间的强弱程度,一般用于关联分析以及分类变量之间的关系,呈现。,网络节点显示具有互动性,,且,可以改变阈值,设置,(,关联程度,低,高,),、,隐藏无关字段、修改布局和生成节点,。,存在两种类型的网络图:,在“网络:中,,显示所有选择的分类字段间的,关系,;,在,”导向网络“图中,仅显示涉及,具体目标字段的,关系,且需要,设定,结束字段,且仅,显示,true,标记,在,网络图中只显示标记字段,(,T/F,)。这,项功能在显示多个产品(购买产品或非购买产品)间的关系时非常实用,。如果勾选了“仅显示真值标志”则只看多个购买产品间的关系,线值为可以选择以下定义:,绝对值,将,根据带有成对值的记录数设置阈值。,总体百分比,该,成,对值的,记录占网络,图形,全部对值,的记录的,比例。,较小,字段,/,值的百分比,和,较大字段,/,值的百分比,说明要,使用较小或较大字段,/,值来估计百分,比,。,5.3.3,建立模型、模型检验与模型应用案例,商业目的:客户是否对直邮响应,数据挖掘的目标:预测客户对直邮的态度,想法,:决策树,,通过训练数据构建决策树,可以高效的对未知的数据进行,分类,。,输出类型:在此指定模型输出为决策树或规则集。,组符号:选中则组合属性值输出,使用分区数据:如果定义了分区字段,则此选项可确保仅训练分区的数据用于构建模型。,为每个分割构建模型:给指定为,分割字段的,输入字段的每个可能值构建一个单独模型,。,5.4,案例分析,5.4.1,项目背景,数据挖掘的目地:建立一套有效的药物选择决策支持系统。,5.4.2,数据说明,5.4.3,商业理解,从,商业的角度了解项目的要求和最终目的,确定数据挖掘的目标,制定项目计划,。,这个案例中:我们需要根据病人的个人情况和身体生化指标来确定何种药物对他更合适。,收集,原始数据、探索数据特征、检验数据质量,(,完整性、正确性,),和缺失值的填补,等,5.4.4,数据理解,初步观察病人情况和身体特征是否与所选药物关系,明显,5.4.5,数据准备,5.4.6,模型建立和评估,1.,建立最简单的模型并进行初步分析和尝试,神经网络,字段要求。,必须至少有一个目标字段和一个输入字段,。,不,容易对神经网络进行解释,二项:二分类变量。,多项:多分类变量,可以指定主效应、全析因或定制。,进入法:将所有项直接输入方程中。,向前步进法:一边进入一边删减,最终模型便已生成。,向后步进法:与向前步进法是相反的。,Logistic,2.,引入医生的业务经验改进模型,5.4.7,模型发布,3.,开发软件应用,5.5,进一步学习,谢谢大家,谢谢大家,
展开阅读全文