商务智能实验8报告材料

上传人:仙*** 文档编号:86545988 上传时间:2022-05-07 格式:DOC 页数:9 大小:1.15MB
返回 下载 相关 举报
商务智能实验8报告材料_第1页
第1页 / 共9页
商务智能实验8报告材料_第2页
第2页 / 共9页
商务智能实验8报告材料_第3页
第3页 / 共9页
点击查看更多>>
资源描述
word数据挖掘与商务智能实验实 验 报 告实验题目:关联分析:关联规如此某某:王俊学号:201430850164指导教师: X大斌 实验时间:2016年 11 月 12 日实验8 关联分析:关联规如此一、 实验目的(1) 了解和熟悉SPSS Modeler与其相关知识;(2) 掌握SPSS Modeler工具建立Apriori关联规如此的方法;(3) 学会运用SPSS Modeler关联规如此进展相关的内容分析。二、 实验内容本实验分析的是超市顾客个人信息和他们的一次购置商品数据,采用的是关联分析中的Apriori算法。本实验的数据来自文件名为BASKETS.txt的文件。数据的主要内容包括两个局部,第一局部是顾客的个人信息,主要变量有会员卡号cardid、消费金额value、支付方式pmethod、性别sex、是否业主homeown、年龄age、收入ine;第二局部是顾客的一次购置商品的信息,主要变量有果蔬fruitveg、鲜肉freshmeat、奶制品dairy、罐头蔬菜cannedveg、罐头肉cannedmeat、冷冻食品frozenmeal、啤酒beer、葡萄酒wine、软饮料softdrink、鱼fish、糖果confectionery,均为二分类型变量,取值T表示购置,F表示未购置,是一种事实表的数据组织格式。本次试验分析的是的哪些商品最有可能购置。具体实验步骤如下:三、 实验步骤与结果步骤1 创建Apriori算法数据流 1通过“可变文件节点读入数据BASKETS.txt。 2选择建模卡片中的“Apriori节点并将其简洁到数据中的恰当位置,点击鼠标,选择菜单中的编辑选项进展参数设置。步骤2 设置具体参数 1在“字段下,选择“使用定制设置选项。在“后项和“前项框中选择关联规如此的后项和前项的变量,本例中分析连带销售商品,因此所有商品均被选入后项和前项。如图8-1a所示。图8-1a 2在“类型下,制定当前前项最低条件支持度,默认值10%;最小规如此置信度,默认值为80%;最大前项数,默认为5;勾选“仅包含标志变量的真值,表示只显示项目出现的规如此,而不显示项目不出现时的规如此,这里关心的是商品的连带购置。如图8-1b所示。图8-1b 3在“专家的选项下,选择模式“专家选项,并选择评价关联规如此的度量指标,这里选择默认选项“规如此置信度。如图8-2所示。 图8-2 步骤3 结果运行 实验结果如图8-3所示。 结果说明,如按第2条关联规如此,购置啤酒和冷冻食品如此会同时购置罐头蔬菜,样本中购置啤酒喝冷冻食品的样本为170;同样也说明购置啤和冷冻食品的顾客有85.882%的可能购置罐头蔬菜,该规如此的支持度为14.6%。本例中产生了三条关联规如此:啤酒和罐头蔬菜冷冻食品S=14.6%,C=87.452%;啤酒和冷冻食品罐头蔬菜S=14.6%,C=85.882%;冷冻食品和罐头蔬菜啤酒S=14.6%,C=84.393%。同时三条关联规如此的提升度2.895,2.834,2.88都可以承受。因此,啤酒、罐头蔬菜、冷冻食品是最可能连带销售的商品。 可以利用关联规如此考察哪类和顾客符合哪条关联规律。如果顾客满足某条关联规如此,如此可以推断其有一定可能性同时购置某种商品,反之,如此无法预测。步骤4 考察关联规律 1将Apriori节点中的模型计算的结果添加到数据流编辑区域的恰当位置。 2点击鼠标右键选择“编辑选项,进展“选项的设置。 3“最大预测数中输入数值,默认为3. 4勾选“忽略不匹配篮项目,表示样本应用规如此时不能按照顺序完全匹配前项的所有项目时,允许采用非精度匹配。勾选“检查预测不在篮中,表示样本应用关联规如此时,给出的后项结果不应出现在前项。如图8-4所示。图8-4通过“表节点课观察具体的结果。$A、$AC、$A-Rule表示每个样本应用关联规如此的推测结果、置信度和规如此编号。例如在表中向编号16的顾客运用关联规如此1,可以推测其有85.9%的可能性同时购置罐头蔬菜。当然,如果样本不符合任何关联规如此,也就是没有一条关联规如此中出现的商品出现在顾客的购物清单中,如此推断结果为系统缺失值$null$。实验结果如图8-5所示。图8-5实验最终图示如下:四、 实验分析与扩展练习1. 实验分析:请总结分析下面的问题:(1) 如果需要关注的关联规如此比拟多,或者读者只是想关注特定情况下的规如此,如何使用该软件工具进展相关的过滤。答:先在导入文件时候选择筛选过滤选项,根据自己的需要选取需要的字段;然后在字段中进展相关的筛选和过滤也可以达到要求,如下列图:(2) 在相关的分析中,如何合理的使用GRI算法得到相应的结果。五、结论与讨论(重点) Apriori算法的根本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规如此,这些规如此必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规如此,产生只包含集合的项的所有规如此,其中每一条规如此的右部只有一项,这里采用的是中规如此的定义。一旦这些规如此被生成,那么只有那些大于用户给定的最小可信度的规如此才被留下来。为了生成所有频集,使用了递推的方法。关联规如此的优缺点:1优点: 它可以产生清晰有用的结果;它支持间接数据挖掘;可以处理变长的数据;它的计算的消耗量是可以预见的。2缺点:当问题变大时,计算量增长得厉害;难以决定正确的数据;容易忽略稀有的数据。整个Apriori算法的伪代码如下:当集合中项的个数大于0时: 构建一个由k个项组成的候选项集的列表k从1开始 计算候选项集的支持度,删除非频繁项集 构建由k+1项组成的候选项集的列表程序代码如下:(格式按华南农业大学论文格式)
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!