统计与数据挖掘实验报告

资源描述

21-21-1/102 :回4目:呂羔:牙聊磚亦于：亦仝宙型3匸IWUqUBUJBQ壬青吕粥卿WE解般、实验目的：1、理解对大型的、复杂的和信息丰富的数据集进行分析的必要性；2、了解数据挖掘软件 Spss-clementine 的基本功能。3、通过案例了解决策树和人工神经网络技术的实际应用。二、实验环境：1、实验设备：华硕A40J计算机2、软件系统：Windows-7、SPSS Clemen tine Client 11.1软件简介：作为一个数据挖掘平台，Clementine结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clemen tine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比，Clemen tine其功能强大的数据挖掘算法，使数据挖掘贯穿业务流程的始终，在缩短投资回报周期的同时极大提高了投资回报率。三、研究问题：这次实验内容来源于一个药物应用问题，以往有大批患有同种疾病的不同病人，在服用五种药物中的一种（Drug，分为Drug A、Drug B、Drug C、Drug X、 DrugY ）之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据，包括血压（BP,分为高血压High、正常Normal、低血压Low）、胆固醇（Cholesterol，分为正常Normal和高胆固醇High）、唾液中钠元素（Na）和钾元素（K）含量，以及病人年龄（Age）、性别（Sex，包括男 M和女F）等。现在需要通过数据分析发现以往处方适用的规律，给不同临床特征病人更适合服用哪种药物的建议，为未来医生填写处方提供参考。四、数据来源及变量说明本案例的数据是Clemen tine软件自带的一份关于药物研究的数据DRUG4n，一共有1000条数据，包含7个字段分别是Age （年龄）、Sex （性别）、BP （血压）、Cholesterol （类胆固醇含量）、Na （Na含量）、K （K含量）、Drug （药品种类）。数据描述：变量名称变量含义备注Age年龄Sex性别BP血压分为高(high)、低(low)和正常(normal)三种Cholesterol胆固醇含量分为高(high)、低(low)和正常(normal)三种Na钠含量K钾含量Drug最适合药物以下五种之一：drugA、drugB、drugC、drugX、drugY五、实验步骤与分析过程：本次实验，首先对 DRUG4n 中的数据进行了一个简单的分析和解释，比如说 Drug的分布情况、Na和K的含量等的分析，接着决策树分析的方法和人工神经网络方法对数据进行分类和分析。1.读数据到Clemen tine中。打开Clemen tinell.l,新建一个流命名为Drug 分析”。从数据源中选择“可变文件”，双击使之出现在工作框中，右击选择“编辑”，添加Demos里面的DRUG4n。如图1琴町權mm明逼：I跑故土Z2图1di5:50 :层不百 C fl rt：RS.i.r.日AW二血 nE|rW+：|g* Tsr2.浏览数据内容。在“输出”选项卡中选择“表”节点加到数据流中，执行该节点，所生成的数据表名将列在流管理窗口的输出选项卡中，结果如图2字段.1. 0如奚记录】亡1Drug 分析挣-Clen-ientine 11.1m交件e堀谊釣生戚血AgesexBPc no le sterolNaK rug14BFHIGHNORMAL0.6930.055drugA213l/lNlhMLHICjHU.ML丄4drjcY337MHIGHNORMAL0.5330.070drugA4姑FHIGHHIGHnfrrdruoA总321/1NORMftLNORMAL0.6900.056drugK641FHIGHNO MAIn 口 i桁druaY71 jFNORMftLHIGH0.E14C.COdrugX871FHIGHNORMALD.GS10.040drugY954MHIGHNOF?MAL0.0500.045drugs1021FNORMALHIGH0.9530.041drugY1171FNORMALHIGH0.6270.051dr juX123-1FLOAHIGH0.7330.068drugC1302FHIGHHIGHU.5840.D76drugs1461MHIGHNORMAL0.9830.029drugY15bJ卜NlhMLHICJH0.8130.023drjcY1639FLCWHIGH0.6000.025drugYh1727FHIGHNORMALO.E5jC.C75drjcAM04DMNORMALNORMAL0.6290.065drugK191nFNORMftlHIGHn F?i孙flrJCY2040FLCWHIGH0.6400.031drugY2123blHIGHHIGHojoa0.062drugA222?blHIGHN0=?b1L0.0030.00 +drugA22IBblHIGHNORMAL0.9610.039drugY24431/1HIGHNORMALo.：or0.038drjuAX砒MMnphrfaikimunn仃drii nV图23. 观察各个变量的数据分布特征。在“输出”选项卡中选择“数据审核”节点加到数据流中，执行该节点，所生成的数据表名列在流管理窗口的输出选项卡中，如图3交库E 潮（Ej ISA fflSiD 14 騎曰戲囲口也朝助Ui图3可以看到，该数据有1000个样本，对Age、Na、K这三个数值型变量，计算且输出最小值、最大值、均值、标准差、偏态系数等基本描述统计量。数据显示，病人的年龄差距比较大。同时，输出了各个变量的直方图或柱状图。图形表明，病人中的 Age、BP、Cholesterol水平的分布都比较均匀，差异不大，但服用药物DrugY的病人数明显高于服用其他药物的人数。4. 观察服用不同药物的病人唾液中钠钾的含量情况。这里，希望通过散点图反映。在“图形”卡中选择“散点图”节点加到数据流中，设置节点参数，指定 Na为X轴，K为Y轴，服用不同Drug的病人数据采用不同颜色的点，如图4-1，执行该节点，所生成的图形文件名列在流管理窗口的输出选项卡中，如图 4-2.鬲鬲LRUG4n颜色Ad曲状DrugH面板注解福叙coK: NaNav.K4动画逶明度国埶T Naj. K交蔭宇尿觀：P无光戢应用重羞圆歆点图按行(B31消忙图 4-1UU-虽0.080.070.030.04B0 Na v. K的散点圏12文件(E) 编辑回芒生成)护视圏(Y)0. 06M0. 050. 8u. 9注解确定Q)DrugO drugA drugB drugCO drugSO drugY0. u2_ ru. 5录迭顷(R) 卜丰段选I页Q)l圏形2)*連檯) I舔出(O)I导出(E)w0.60. 7Nil图 4-2图形显示，服用 DrugY 的病人，其唾液中的钾含量明显低于其他类病人，但钠含量有的较低有的较高。单纯的钾含量较低的病人选用DrugY应该比较理想。5. 观察服用不同药物病人唾液中的钠钾的浓度比例情况。为更准确地评价药物状况，单纯观察钾含量是不全面的，应观测钠与钾的浓度比值指标，它能够更准确反映病人肾上腺皮质的功能状态。该指标是原始数据中没有的，应首先计算生成，然后观察其分布特征。在“字段选项”选择卡中选择“导出”节点加到数据流中，设置节点参数指定生成的新变量名为Na/K,计算公式为Na/K,如图5-1。在“图形”选项卡中选择“直方图”节点，设置节点参数指定绘制Na/K的直方图，且服用不同药物的病人数据采用不同的颜色，如图 5-2。执行“直方图”节点，所生成的图形文件名列在流管理窗口的“输出”选项卡中，如图 5-3團HUG4n注粉应用週重盂回17 .0懈喪鱷號（Li丨记瞬项（硏|劇口 |取消dNay.K模式：刁甲个审年导岀殽导出为2式俎图 5-1H去Ihi.-1箱岀注幫鉅./ Drug lAfi心 KN3JK图 5-2回Na/K的直方圏13文件(E)编辑岂生咸) b视囹150LOO70-ro圉形注斛I确走Q) I图5-3图形显示，针对Na/K值处在高水平的病人，DrugY应该是理想的选择。6. 不同血压特征病人的药物选择，在“图形”选项卡中选择“网络”节点加到数据流中，设置节点参数指定绘制关于 Drug 与 BP 的网状网络图，如图 6-1。执行“网络”节点，所生成的图形文件名列在流管理窗口的“输出”选项卡中，如图 6-2很显示飾志图 6-180園EF x Drug :矩对值的网緡IT0EHAL1UU1旳100确走Q）irugOBP O Drug園立件i 编揖（：生咸（：*视圉i蠱网络（:=i田團画阳刁叵|叵|区图 6-2网状图通过线条粗细反映病人BP与Drug的取值情况。可以看到，无论血压状况如何，都可以服用DrugY，其三条线的粗细程度差别不大。因此，DrugY对病人的血压没有特殊限定，更具有普遍服用性。在不考虑选择DrugY时，血压高的病人可服用DrugA或DrugB，血压低的病人则应该在DrugX和DrugC中选择。7. 全面分析决定药物选择的其他影响因素。通过前面的分析，似乎对选择 DrugY的依据有了一定的结论，但没有考虑Age、Sex、和Cholesterol等方面, 分析仍是不全面的。同时，应怎样选择其他药物，也没有给出明确且全面的标准。这里，希望进一步利用数据，通过建立模型，从 Age、Sex、BP、Cholesterol、 Na/K 的综合角度分析选择不同药物的依据。首先，在建模中不再直接采用K和Na变量，而是采用Na/K，因此先将变量K 和 Na 筛掉。在“字段”选项卡中选择“过滤”节点加到数据流中，设置参数在K和Na变量上打叉筛掉，如图7-1Drug 方申F - Clementine 11.1交阵握菇旧插人讪理节巨御口地當助也3 制旦国务狂B怙*乜气NaiV；忖詡KBP r Drug圭凰L迥猱AQ9fr5 exfrsex日尸frBPCholesterol*Chclesler：lNa-x-*NaK-DrugfrDrugN5UKfrNaiK7 *1-宇段:e牛己編九2牛巨述Q牛巨静茗g辛酗.图 7-1然后，指定建立模型过程中各个变量的作用，这里Age、Sex、BP、Cholesterol、 Na/K为解释变量，称为模型的输入变量，Drug为被解释变量，称为模型的输出变量。在“字段”选项卡中选择“类型”节点加到数据流中，设置参数指定不同变量的作用角色。如图 7-2； - :-i hH ir -.-. 二文件迟筛旧販“ 19E3凹工具舒臣简两口独帮朋凹Sex壬|阿可叵融曲诅吋凶RPE Chtieslerol Al Orug我翹IA图 7-2最后，在“建模”选项卡中选择“C5.0”节点加到数据流中。选择C5.0模型，执行 C5.0 节点，生成的模型名列在流管理窗口的模型选项卡中。选择流管理窗口中的模型选项卡，右击鼠标，选择弹出菜单中的“浏览”选项，浏览模型结果，如图 7-3.闵 DruaIII文件CD 0生换PE.F6T舸rOH?全印丨祝画g- NaiK 19：:：5 |ft:drugx|& 0P=HIGH?i：.：W.Age = sa : drugl p druAfijQB = 50 drugBl drugE：S- BP=LOTJ drugC|-criniE5i&rni=NijRMAL drugK寺 dmgx ChDlBsiErQl= HIGH ifcft: drugC 4 drugC BP= NORM.AL |朮救:寺 drugK 忖a4：=-14.935 l：向系统走义值添加标签将标菱用作直回设置髄机埶种子沖子：1234567 :生成设盖Druo图 9-1模型窑称:白劲:走制回使用分区數摒方法.快逸十口预菇过度训苏口设畫龍机數种子50.0*.0谆止杀件：五默认此化:淮确性C%）周期时间分訓）速虞CQ内存拿胆樓型选I页专京主解图 9-3厂吹廈方式专家堆蚊厂学习谏率确走Q)血行隹)模式:简甲国国I隐藏层:一1 0亠T1 ua亠TEta衰减:300.01低 Eta:图 9-4然后选择神经网络模型，执行“神经网络”节点，生成的模型名列在流管理窗口的模型选项卡中。选择流管理窗口中的模型选项卡，右击鼠标，选择弹出菜单中的“浏览”选项，浏览模型结果，如图 9-5Drug运文件(E) O生成i画両拓全部折叠J?全部展幵迟3耳屮斤i r-住卄旳谨硝阻1K r k元隐喘层1：10吓神经元丨卜喲出层:5个艇元-“貯输A.抽順博寺弊DrugNa：0.9996DQtl-10.23747CholesterolLiJ：i?4442Aqe0.0725001SexD.00205922GF? ISP-DM类-D (未保存的工程)3商业理解汁吕数摒理朋石 M/f#吕騒J评估“耳结果部署勻耳字段-9的I局Diul3 & 输?、$夕上少；.按BPOS Cholesterol j-.翳 hlAfkos aenr】吕确定口图 9-5由上图可以看出，Na/K对选择哪种药物来说相对最为重要，BP其次。最后，对模型的预测精度进行评价。选择流管理窗口中的“模型”选项卡，右击鼠标，选择弹出菜单中的“添加到流”选项，将模型计算结果加到数据流中；然后，在“输出”选项卡中选择“分析”节点并与模型结果节点相连，执行“分析”节点，所生成的结果列在流管理窗口的输出选项卡中，如图 9-6：可 lLig&全部折霆（-输出李啟Dru的结果-JN-D-u j D u沁1 UI 练正确A8T100%504o|0%931513图 9-6由图看出，模型预测精度良好，模型较为理想。10.本次实验最终所建立的数据流如图 10.EtuipmCRtSFMZW #|了二住廣tmb “哥社嘶矗LDH嶄 &-KLEE& is-III 曰畤MS 311書北事口I V ifJ：LSIfi|H| *|林尿口 1 KflJlGl 对IBM 的I 祖El画匾囤画I關圈画叵風H： -If *!S#* 3T*n| t*lW衽 SP*ilfc*六、实验心得在本次实验中，从新建工作流一直到获得最终结果，整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解，特别是C5.0模型和神经网络模型应用的理解，同时，也学会了如何使用 Clementine 通过建模和直观化发现数据库中的关系以及利用这些链接与数据中的案例组相对应关系可以通过建模可详细研究这些组并描绘其特征，增强了运用Clementinell.l的能力。通过这次学习让我意识到，对于数据我们不仅要能会用spss统计来分析它的规律，也要能会通过数据挖掘软件来挖掘数据当中的潜在信息，成为更好的数据使用者。

展开阅读全文

统计与数据挖掘实验报告

最新文档