新版数据挖掘中有序资料间距差异的量化与聚类分析汇编

上传人:陈** 文档编号:26248442 上传时间:2021-08-07 格式:DOCX 页数:5 大小:21.94KB
返回 下载 相关 举报
新版数据挖掘中有序资料间距差异的量化与聚类分析汇编_第1页
第1页 / 共5页
新版数据挖掘中有序资料间距差异的量化与聚类分析汇编_第2页
第2页 / 共5页
新版数据挖掘中有序资料间距差异的量化与聚类分析汇编_第3页
第3页 / 共5页
点击查看更多>>
资源描述
新版数据挖掘中有序资料间距差异的量化与聚类分析汇编 摘要:本文针对数据挖掘中的多分类有序资料,提出了用秩分析的方法对其间距差异作出界定。在秩分析的基础上,将有序定性资料定量化,并用于聚类分析。最后,利用该方法对大学生隐性教育调查资料进行了剖析。 关键词:数据挖掘;多分类有序资料;秩分析;聚类分析 中图分类号:*文献标识码:*文章编号:*-*-*-* 一、引言 多分类有序变量是指分类数大于等于,且类别之间存在序次关系的响应变量。此类资料在诸多领域都是常见的,特别是在社会学、心理学和医学研究领域。在传统的统计分析方法中,可以通过对有序变量各水平的赋值而将其连续化,并运用ANOVA模型进行分析。但是,由于多分类有序变量各水平存在间距差异,这样的分析方法并不十分恰当。因为对各水平赋值大小的不同很可能会导致方差分析结果的差异4。正如文献4中所例举的,在一个牙齿诊断实验中,假设有序因变量牙齿磨损程度(没有磨损严重磨损)的首尾水平的间距小于中间水平,分别赋值为,而另一方面,假设首尾水平的间距大于中间相邻水平的间距,分别赋值为,则两者得出的方差分析的结果与等距赋值情况下的结果是有差别的。三者之间的具体比较可参见表1。 表1不同赋值情况下的ANOVA模型的p值 从表1我们可以看出,如何有效的对数据挖掘中多分类有序变量各水平的间距差异作出衡量是有着现实意义的。本文正是以此为着眼点,提出了用秩分析的方法对间距差异作出了界定。在此基础上,对有序资料进行量化,并用于聚类分析。最后,利用该方法对大学生隐性教育调查资料进行了剖析,并与前人的分析结果相对照,得出了一些有意义的结论。 二、秩分析 秩区间 界定各水平的取值区间和代表值 三、大学生隐性教育调查分析 有序定性资料在调查数据中最为常见,本文引用的数据来自某高校为了了解大学生成长过程中校内外各种因素的影响状况而作的问卷调查资料。问卷中设定因素Y有25个水平需要表态,按对自己成长和发展过程影响程度给予评分(以9分制),影响最大的给予9分,没有影响的给予1分。以年级采用分层抽样调查了178名大学生,有效问卷170份。我们对整理后得到的列联资料(具体可参见文献3表1)作秩分析,得到了有序变量X各个水平的取值区间、代表值和间距差异值(见表2)。从中我们知道,各个水平的取值并不能用简单的数字1,2,9来表示,而是分处于一个特定的取值区间内,且水平之间的“距离”并不相等。从间距差异j,j+1来看,中间相邻水平的间距明显大于其他水平。 表2有序变量的秩分析结果 我们将表1中因素各水平的观测频数aij都除以ni.=170,得到因素各水平在因素各水平上的条件概率fij,并以此为权向量,计算因素各水平的总体影响程度i,即 并据此对因素各水平的影响程度作出排序,见表2。为了突出用代表值j取代一般自然数序列1,2,9作为因素各水平的取值的优势,我们同时计算了icj=1fijj,并依其对因素各水平的影响程度也作了排序。结果我们发现,根据i排序的结果与文献1中根据秩效应所作出的排序结果相一致,而据i所作的排序则与其有点出入(具体见表3)。 表3因素各水平的排序结果 从表2中可以发现,第3和第7个水平,在i和i的排序下发生了错位,通过秩分析得出代表值后计算得到的影响力对校风学风状况这个水平作出了调整,使其更接近实际情况。 根据公式(3)计算得到的i反映了因素各水平在学生的成长过程中所表现出的不同影响,我们可以在此基础对其作聚类分析,以对因素各水平的影响状况作个分类。采用系统聚类方法中的离差平方和法(又称Ward法)对这25个数据作聚类分析,得到树形图1。 图1聚类树形图 根据图1聚类结果和表2的排序结果,我们可以对各影响因素大致分成三类: 第一类 强效影响因素,包括家庭环境与家庭教育、个人向上发展心理动机、父母言传身教、对未来的憧憬和社会目标与前进方向。这说明大学生个人的心理状态与志向以及家庭环境对其成长和发展的影响最大,最应受到老师和家长的重视。 第二类 普通影响因素,包括兄弟姐妹言行、校风学风状况、各种英雄人物的事迹、报刊杂志的内容及老师的人格魅力等等方面的内容。这些方面都是与学生的日常生活紧密相连,对学生的成长有着潜移默化的影响,且长效持久。 第三类 弱效影响因素,包括同班同学言行举止、一般性的学术讲座、学校政治思想工作等方面。这些方面对大学生的成长都缺乏影响力,其中,老乡的各种行为的影响力最差。 以上聚类分析得出的分类结果与文献中运用有向聚类分析得出的分类结果大致相同,但是比较粗糙。第一类是相同的,这里的第二类是文献3中第二、三、四类的并集,这里的第三类是文献3中第五、六类的并集。细看我们可以发现,如果将文献3中的六类按照平均秩效应的三个区间 :460-473. 2朱建平. 数据挖掘的统计方法及实践M. 北京:中国统计出版社,202x:92-116. 3朱建平,杨贵军,张润楚. 列联资料的有向聚类分析及其应用J. 数理统计与管理,202x(4):28-33. 4张保生. 数据挖掘技术聚类分析算法EB/OL.202x-09-15. 注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 工作总结


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!