第六章数据分析梅长林习题答案.docx

上传人:s****u 文档编号:12757613 上传时间:2020-05-22 格式:DOCX 页数:15 大小:58.94KB
返回 下载 相关 举报
第六章数据分析梅长林习题答案.docx_第1页
第1页 / 共15页
第六章数据分析梅长林习题答案.docx_第2页
第2页 / 共15页
第六章数据分析梅长林习题答案.docx_第3页
第3页 / 共15页
点击查看更多>>
资源描述
第六章习题习题6.3解:用SAS的proc fastclus将各个国家聚为三类,即如果如下:聚类散点图如下:(2)聚为四类结果散点图如下:习题6.4解:通过proc fastclus聚为三类结果如下:Cluster ListingObsyearsClusterDistance from Seed119781474.3219791433.2319801362.1419811288.9519821260.0619831218.3719841141.781985160.4851919861169.31019871350.21119881730.51219891890.31319902985.01419912723.81519922249.21619932484.617199421475.118199531086.41919963394.5201997396.19752119983471.92219993958.6聚类结果散点图:习题6.6解:(1)在proc cluster过程中取选项“method=single”,用最短距离法得到的聚类结果如下所示:Cluster HistoryNCLClusters JoinedFREQMinDistTie10NDa21T9FrI21T8CL9S317ECL10326CL8P435CL7G444CL5Du55T3CL4CL6952CL3H108T1CL2Fi118上述聚类过程为:首先在最短距离为1的时候,将挪威语和丹麦语聚为一类,得新类CL10=丹麦语,挪威语,其中包含2个样本,这是全部类被分为10类;其次,将法语和意大利语聚为一类,CL9=法语,意大利语;其中包含两个样本,这是全部样本被分为9类,接着在最短距离为2的时候,波兰语被分到CL9当中,也即CL8=CL9,波兰语,然后英语被分到CL10中,的新类CL7=CL10,英语=丹麦语,挪威语,英语,如此等等,最后在最短距离为8的时候,所有类并入CL2中,这样全部样品归为一类,系统聚类结束。由谱系聚类法能够细致的看出由小到大的聚类过程,由合并时的距离水平可以看出样本之间的亲疏程度。然后利用proc tree 过程可以画出最短距离谱系图如下所示:其中以E、N、Da、Du、G、Fr、S、I、P、H、Fi分别代表英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语、芬兰语等11中语言。(2)最长距离法。在proc cluster过程中选取”method=conplete”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQMaxDistTie10NDa21T9FrI21T8ECL1032T7CL9S326DuG25T5CL7P454CL8CL657T3HFi282CL4CL3791CL2CL51110与最短距离法聚类过程相比,倒数第六步两种方法合并次序和合并距离水平有所不同。(3)类平均距离法。在proc cluster过程中选取”method=average”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQAverDistTie10NDa21T9FrI21T8CL9S31.57ECL10326CL8P445CL7G45T4CL5Du55.753CL4CL696.92HFi281CL3CL2119.0556与最短距离法聚类过程相比,倒数第二步两种方法合并次序不同,在最长距离聚类中时将匈牙利语和芬兰语先合并为一类在和CL3聚为一类。最长距离聚类法谱系图如下所示:(4)重心法。在proc cluster过程中选取”method=centroid”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQSquaredCentDistTie10NDa21T9FrI21T8CL9S31.257ECL1031.756CL8P43.55565CL7G44.4444T4CL5CL684.06253CL4Du95.35942CL3Fi106.56791CL2H116.22重心法与前述几种方法在类的合并以及距离水平都有所差异。其谱系聚类结果如下所示:2.习题6.7解:(1)最长距离法。在proc cluster过程中选取”method=complete”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQMaxDist1519891990213.91419992000217.061319851986218.831219911992229.0221119961997231.48910CL131987347.6069CL15CL12453.2448CL111998368.771995CL8481.2536CL1019884118.565CL919935123.184CL7CL146144.0931994CL47199.952CL6CL59306.91CL2CL316672.8然后得到聚为三类的结果:第一类:1989、1990、1992、1991、1993第二类:1999、2000、1996、1997、1998、1995、1994第三类:1985、1992、1988ObsyearsCLUSTERCLUSNAME119891CL5219901CL5319992CL3420002CL3519853CL6619863CL6719911CL5819921CL5919962CL31019972CL31119873CL61219982CL31319952CL31419883CL61519931CL51619942CL3谱系聚类结果图:(2)类平均距离法。在proc cluster过程中选取”method=average”,得到最长距离法聚类过程见下表:、Cluster HistoryNCLClusters JoinedFREQAverDistTie1519891990213.91419992000217.061319851986218.8312CL151991323.5081119961997231.48910CL131987338.3389CL121992442.1598CL111998356.31771995CL8473.32761988CL9589.9895CL7CL146110.94CL619936122.2631994CL57171.242CL10CL49185.581CL2CL316466.34谱系聚类结果图如下所示:然后得到聚为三类的结果:第一类:1989、1990、1992、1988、1991、1993第二类:1999、2000、1996、1997、1998、1995、1994第三类:1986、1987、1985ObsyearsCLUSTERCLUSNAME119891CL4219901CL4319992CL3420002CL3519853CL10619863CL10719911CL4819962CL3919972CL31019873CL101119921CL41219982CL31319952CL31419881CL41519931CL41619942CL3(3)对数据进行标准化之后,得到聚为三类的结果分别为:最长距离法:聚为三类的结果为:第一类:1999、2000、1996、1997、1998、1994第二类结果:1989、1990、1991、1992、1993第三类结果为:1895、1986、1987、1988ObsyearsCLUSTERCLUSNAME119991CL3220001CL3319892CL4419902CL4519853CL6619863CL6719961CL3819971CL3919912CL41019922CL41119873CL61219981CL31319951CL31419883CL61519932CL41619941CL3类平均距离法聚聚为三类的结果:第一类:1999、2000、1996、1997、1994、1995、1998、第二类:1989、1990、1991、1992、1993第三类:1985、1986、1987、1988ObsyearsCLUSTERCLUSNAME119991CL3220001CL3319892CL4419902CL4519853CL5619863CL5719912CL4819961CL3919971CL31019873CL51119922CL41219981CL31319951CL31419883CL51519932CL41619941CL3观察聚类结果发现,在数据标准化之前不同聚类方法得到的结果不仅尽相同,而且在标准化前后聚类结果也是不要一样的,但是在数据标准化之后,两种不同的聚类方法聚类结果完全相同。3.习题6.8解:首先从相关系数矩阵出发,通过变换得到距离矩阵。令,从出发,得到变换之后的距离矩阵:(1)最短距离聚类法。在proc cluster过程中取选项“method=single”,用最短距离法得到的聚类结果如下所示:Cluster HistoryNCLClusters JoinedFREQMinDistTie4x2x320.58253x1CL430.62092x4x520.7081CL3CL250.8394谱系聚类结果图:(2)最长距离法。在proc cluster过程中选取”method=conplete”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQMaxDistTie4x2x320.58253x1CL430.69742x4x520.7081CL3CL251.0369谱系聚类结果图:(3)类平均距离法。在proc cluster过程中选取”method=average”,得到最长距离法聚类过程见下表:Cluster HistoryNCLClusters JoinedFREQRMSDistTie4x2x320.58253x1CL430.66032x4x520.7081CL3CL250.9257谱系聚类结果图:
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!