资源描述
不完整测量数据的概念建构 王寿宏,王海 摘要 : 对资料挖掘来说,未经加工的调查数据通常是不完整的。资料挖掘中缺失数据的问题在知识发现过程中常被忽略。这篇文章介绍了在不完整调查数据中资料挖掘的基础概念,以及计划知识发现中的咨询过程,和在调查资料挖掘咨询功能在概念解释上的发展趋势。这篇文章通过一个事例,论证了通过使用人工智力工具譬如自组织映射,不完整数据的概念解释可以完成。 数据挖掘就是分析数据以图从中找出有用模型的过程。而数据挖掘与传统的 统计分析有所不同,因为数据挖掘的目的是找出对数据所有 者或数据挖掘员有价 值而又确定的关系。鉴于数据的维数和数据量本身的巨大,传统的的统计分析方 法在数据挖掘时有其局限性。为满足数据挖掘的最新需要,在数据挖掘领域里面 已经广泛采用基于人 数据挖掘时有很多非统计技术。基于 经网络的自组织映射 (是其中一种比较有前途的方法。基于集群技术的 对其他方法来说有优势。通常数据挖掘技术处理一些十分高维的数据,也就是说做数据挖掘的数据库通常是由很多变量决定的。“维数灾难”使得对数据关系的统计分析变得毫无意义,这也使得 统计方法变得无能为力了。然而 而被认为是处理多维数据的有效方法。更为重要的是 种特色是其他任何数据分析方法都不具备的。它允许数据挖掘者分析该问题域中的集群。 测量只是数据采集中的一种普通数据获取方法。在数据挖掘的中,我们得到的调研数据集通常很难满足每个变量都有填写完全的观测结果。一般地,被调查者只部分地完成调研和问卷调查的内容。当事实上我们无法再次面向被调查者完成调研和问卷调查的全部内容时,我们并不知道缺失数据的严重性 ,但这是数据掘中有待发现的最重要部分之一。事实上,在知识工程领域缺失数据是一个重要而具有争议的问题。 通过集群分析在挖掘由不完整数据构成的调查数据库过程中,缺失数据的类 型及缺失数据对数据挖掘的潜在影响是一门学问。例如,数据挖掘者通常希望能 知道集群分析的可信程度;一些有价值的类型通常是什么时候和怎样丢失的;以 及丢失有价值数据的时候哪些变量与之有关系。这些有价值东西在缺失数据集部 分被充分发掘之后才能发现。 这篇文章讨论了知识发现中在发掘调研数据库过程中数据缺失的问题,并介 绍了概念解释的概 念基础,以及建议设立基于 下部分是这样安排的:第二部分讨论数据缺失与数据挖掘的关系问题;第三部分介绍数据挖掘中 四部分说明了挖掘不完整数据的 4个概念的知识发现;并提供了应用 五部分建立用于操控 六部分介绍一个例子,该例子应用咨询工具对一个学生判断测量的数据集进行熟练操作 后,第七部分作了结束语。 2 数据缺失问题 不完整数据集普遍存在于数据挖掘中。数据缺失的解决办法有许多 种 ,其中对付不完整数据的一种方便办法是将那些已记录没有价值的数据集排除掉。然而这忽略了这些记录中潜在的有用信息。万一缺失数据的比重较大,从筛选过的数据中得出的结论就会有偏颇或引起误导。 另一种处理丢失数据的简单方法是用一类通用的“未知”来代替所有丢失数 据项。数据挖掘中,不确定的“未知”通常在丢失数据项中引起混乱和误解。 对付缺失数据的第三种办法是排除数据域中没有价值的数据。对于时序数列,可观察到的相邻数据点可以插补。一般情况下,数据域中预期值可用于统计测量。然而,数据挖掘中,调研数据类型通 常是队、类,有多项选择的,二进制的。这些例子中,插补及特殊缺失数据变量的使用通常是不够的。更为重要的是, 研究表明,解决缺失数据的有效办法应该总是独立于问题之外去研究。 新近,发现损缺失数据集的合计概念方向有了精确的方法。这些方法与传统 逼近法处理缺失数据截然不同,它着眼于缺失数据的整体,而不是个别缺失的价 值。这些方法的这个高级特征使不完整数据的数据挖掘得以加强。然而这些统计 方法有其局限性。首先,得假定缺失价值存在于随机方式或者新遵循一定的分配 仪式。这些关于数据分配严格假定通常是无效的,特别对不完 善数据的测定。第 二,这些数学模型通常是数据驱动,而不是“问题领域驱动”。实际上,由于数 据挖掘的目标常常与具体问题域有关联,一个单独普通概念建构算法不足以应付 数据挖掘的多样目标。 数据库的知识发现是鉴别有效的、新奇的、有潜在作用并最终可以理解的数 据模式的有实际意义的过程。根据这个定义,这项研究强调利用不完整数据进行 数据挖掘概念构建的两个方面。首先,利用不完整数据进行数据挖掘中,有效、 新奇、有用的标准随问题而定。那就是,一个数据模式不单独依赖于该模式估计 的统计力,也依赖于数据挖掘者。第二, 通过对建立于计算机和人类认识理论的 组合空间的启发式研究,可以完成基于不完整数据的概念建构。人机协作进行概 念建构就是在数据挖掘者和计算机之间发掘出新奇、似是而非、有用的、相关的 和有趣味性与缺失数据相关的知识的人机交互式过程。 照我们看来,数据挖掘与传统统计在处理缺失数据方面有很多不同。 (1)数据挖掘试图从数据中去发掘出无疑的、潜在的有用模式,是由于数据挖掘者的新奇目标在于缺失数据而不在于估计个别缺失数据的价值。 (2)数据挖掘是人类知识发现环道中心环节工具 ,该过程是通过人机交互 而认 识到由集合水平上缺失数据引起的冲击,更甚于仅用基于未经证实的假设的数学 方法得出的结论。 映射组织( 假如有一个很大多维集调研的例子,通常就会有很大一部分观察资料丢失 价值,然而并非所有的缺失数据都引起数据挖掘者的兴趣。因此,对于一个有巨 大数据来说,任何简单的强力搜索缺失数据的方法都是不可行,而且,当数据挖 掘者通过数据挖掘仅为了找出问题或者发展概念时该方法是没有用的。为明确问 题或创建概念,数据挖掘者需要一种工具来观察可利用数据与缺失数据的确定模 式。 由于自映射组织( 流行的 此在群集分组中广泛应用。更为重要的是, 数据挖掘者提供数据的可视化,用来观察多维数据。研究表明, 别是, 用在多变量测量数据的集群分析。这个研究更进一步,把完整数据的概念建构是为了研究缺失数据的模式,如同这些缺失数据对基于完整数据的挖掘结果的潜在冲击。下面例子说明, 通过无人监督(竞争的)学习过程 ,学会一定有用的特征, 以及把多维数据绘制到低维图片,这样数据挖掘者可观测到集群图片。图 1描述了研究中应用二层 层节点(输入节点)通过采样数据点接收输入数值。高层节点(输出节点)在无人监督学习后回馈输入的组织映象。每个低层节点都经过一个可变联接权量,联结到每个高层节点。 始时联结承载较小随机数学。输入节点接收由采样数据点引入的输入代表向量。输入向量经过联接传送到输出节点。激活的输出节点依赖于输入。 在胜者通吃的竞争制度中,与输入向量有最相似的权量的输出节点被激活。在学习阶段,权量依照 权量更新仅存在于激活的输出节点以及拓扑邻点(如图 1)。在这种一维空间输出事例中,我们假定了一个线性邻域。该邻域开始很大,尺寸随时间慢慢减小。因为学习速度将趋于零,学习进程也将最终集于一点。 引入足够的输入向量后,权量将指定群集以便本地群集密度函数趋于接近输 入向量的密度函数。由于共享相似拓扑的节点对相似输入敏感,所以权量得组织。因而 时,在预先并不了解 聚类中心的情况下,也体现真实自映射组织聚类。读者可到 12章中看更详细内容。 4、不完整数据的概念建构 这篇文章中,不完整数据的概念建构通过两个阶段来完成的。首先, 示了引入聚类的数据的不同寻常的模式。基于这些聚类,数据挖掘者能鉴别出明确的数据模式,并清晰说清楚问题。其次,与正被讨论的聚类有关联的缺失价值的不完整数据,构造出新概念。这一段中,数据挖掘者估计了缺失数据对问题鉴别以及发展与缺失数据相关的知识的冲击。第一阶段的任务跟大部分 篇文章 集中目标于第二阶段,并计划了不完整数据数据挖掘的概念建构的方法。下一步,我们建造四个概念作为不完整数据数据挖掘的知识发现。如同本文后面所讲的,通过人协作和基于些概念能够建造出来。 靠性 依照正被调查的问题,可靠性概念显示了缺失数据的范围。有两个指数应用 于该概念。 S/ 使用的聚类鉴定的完整价值的数据采样的数量。显然,值越高,聚类的观测可靠性越低。 i)/CV(i) i)是变量 V(i)是使用的聚类鉴定的采样变量 i 的数值。再则,根据变量 i, i)/CV(i)的值越大,聚类的观测可靠性越低。 匿 隐匿的概念揭示一次观测结果的值在一定范围内变化意味着将在另一个变量中丢失价值。 i)|x(j)=(a,b) i)是变量 x(j)是变量 ( a,b)是 x(j)的值的范围。 索引揭示了测量疑问的不确定答案的程度,例如“未知”和 “中立的”,或者组织缺失数据的意图,例如“不想告诉”。 求运算 反求运算的概念揭示了变量同时更可能缺失值。 i,j)/ i) i,j)是变量 i 和 j 的漏测值 , i)是变量 个概念揭示两个变量的漏测值的相互关系。 i,j)/ i)的值越大,漏测值之间的相互关系越紧密。 件效应 条件效应这个概念揭示了聚类鉴别的潜在变化,若缺失价值已完成。 P | )(=k P 是数据挖掘者感觉到的聚类的变化量, )(代表变量 i 的所有漏测值,而 k 是测量中可能出现 的可能值。特别地,k=p, 刻度的最大值, 刻度的最小值,而 漏测值来说,赋予 据挖掘者可能观测到聚类的变化,然后重新限定问题。 简言之,不完整数据的概念建构是一门学问的发展过程。不完整数据中建造一个新概念,需要数据挖掘者去明确建构中的特别问题。漏测值的四个概念是可靠性、隐匿性、求反运算及条件效应。下一步我们逐步展开不完整数据概念建构中的质疑。我们质疑的目的是使数据挖掘者能够通过使用 而建造 出新的与问题相关的概念。 5、概念建构的询问处理 结构化查询语言( 种查询工具具有特征,这种标准查询语言常用于相关数据库管理系统。对于数据挖掘,由于数据库信息检索的最终目标是通过应用多变技术的明确表达的知识,创造一种单纯的标准查询语言能满足数据挖掘的各个目的是不太可能的。然而,为了维持人机协作高效运转,数据挖掘中可视化询问处理很必要。这个研究通过基于 展一套查询函数来帮助数据挖掘者建造与缺失数据相关的概念。 基于 这使资料库、 序与询问处理有可能整合为一个单纯环境。应用微软的 靠电子表格,数据得以储存;通过宏指令( 序得以执行;图形函数支持数据可视化;宏指令也使得查询处理函数能够运行。图 2描述了系统结构的技术细节。解决了基于 软件问题,系统结构变得简单而易于执行。然而,从实际应用的观点来看,软件系统限制了数据挖掘中数据库的规模。 七组查询函数已发展起来,对应于上一节所描述数据挖掘中的四个概念以及一般操作函数。通过图形用户界面,数据挖掘者使用询问处理系统。 得完整数据的聚类 数据挖掘者使用查询函数来观测聚类及鉴定不用怀疑的完整价值数据集模式。基于那些聚类,数据挖掘者明确问题所在。数据挖掘者能够选择适合 设置拓扑和 类的数量非常依赖于自然数据和 数间的复杂关系。然而,通过减少 据挖掘者通常能够减少聚类的数量;反之亦然。 应用这个查询函数,数据挖掘者能够描绘所查询的 于一个聚类的边界线在图中通常是模糊不清的,对聚类的描绘只能基于他或她对聚类的感知。在内部, 对应观测采样,轮廓与聚类的 使电脑程序追溯聚类到数据成为可能。查询函数返回该聚类的变量的值的范围。 查询是为了保存和更正的 一般操作,如同设置数据样值的参数、变量。数据挖掘者能够把一系列的 明 据挖掘者想知道的是观测到的聚类的可靠性如何。这个查询允许数据挖掘者去查明 训所用变量。如果 据挖掘者能够发现个别变量的可靠性,如下面所述的。 明 (i)/CV(i) 数据挖掘者可能对某一变量感兴趣。应用这个查询,他能够根据这个别的变量来核查聚类的观测是否可靠。 查明 (i)/x(j)=(a,b) 该查询函数能够让数据挖掘者查明一个变量的缺失值与别一变量的值的范围之间的相互关系。这种关系提供如数值什么时候会丢失之类的信息。应用该查询,数据挖掘者详细查明两个变量如缺失值之间可能的相互关系、已一个变量知值的范围及在其他变量中发现有缺失值的观测的数量。 查明 (I,j)/ i) 该查询函数能够让数据挖掘者找出两个变量间缺失值的 相互联系。应用该查询,数据挖掘者首先选择两个与问题相关的变量进行调查,然后查明这两个变量可能总共多久一次丢失值。 查明 )(| =k 该查询函数允许数据挖掘者用假定值代替缺失值,及观察聚类的变化。假定值可能是最大与最小值中间的任何数。与返回详细数据不同,查询函数返回多样的映射以便数据挖掘者用不同的 于假定分析试验,数据挖掘者能够在感知缺失值在确定问题中的冲击。 6、用一个例子来学习概念建构 这一节中我们用一个例子来阐明不完整测量数据 的概念建构中基于 查询系统的应用。学生的教师调查法在大学中广泛应用于估评教授的教学质量。研究中沿用的数据来自加拿大大学一个学生对教师调查法(附件 A)。在这个例子中二十一个问题描述了一个教师的表现特征。每个问题都有五个等级的答案让学生回答。一个问题得高分表明问题的答案是积极的。这些问题的加权平均数由联系于评价教学效果的多种数据组成。学校教学中心的一个任务是了解教学中的问题,以便采取相应方法(例如,教学研究会及研究所)去攻克这些问题。 由于二十个问题与一个班级学期教学效果评估相关,二十个变量组成 后一个问题与教师分级相关。研究中,该变量用于与低效教学相关的选择,而这些教学基于该问题全部测量数据的中间值。 表 1 概念建构的例子 聚类 (采样 %) 问题相关变量 基于完整数据的问题鉴别 不完整数据的概念建构 1 (生测试结果需要更 多令人信服的解释 测试和分配不能够对 学生提供反馈作用 对即时分级不满意的学生, 通常对他们能否得到对 工作有益注解漠不关心 2 (该更好规划测试和分配 对课程学习经验忽略看法 的学生通常对适当测试或 者布置规划漠不关心 3 (V1,能很好描述困难概念;特 别是,课本没有给出太多帮 助时 虽然 缺失值率最高, 缺失值对问题鉴定不具 严重冲击 收集 3823 个无效教学质量观测采样数据后可确认这个学校的教学问题。这些数据中, 2788个是完整的。 用 300 个 200个初始化领域节点后,初始学习率是 2000个学习叠代后, 个聚类表明有一组存在低值,该值在进一步分析后排除几乎所有变量后得出的。三个聚类有蕴含意义。 根据聚类分析,发现接收到低值的变量 v1, 较特别,与无效教学有关,如表 1中前三行所述。 然后不完整数据用于建造该问题的新概念。 1: 虽然观测资料的不完整率达对整个测量来说高达 37%,根据关系密切的变量( v1, 这说明最初识别的问题通常有效的。 2: i)/ )(失值率最高是 这说明这变量(例如,无用的课本和教学材料)指示的无效教学的可靠性可能不如其他相关变量可靠。 3: )(|)( (a,b) 然而, 缺失值来 自观测函数 x(1,3。这说明不满意即时分级通常对他们能否收到对他们工作有益意见漠不关心。 4: )(|),( M 然而 14(|)19,14( M =密相联在一块。这说明忽略课程学习经验的看法的学生,通常对测试或分配要适当计划漠不关心。 )(| =k 这个例子中, 失值最高 (达 。数据挖掘者可能 想了解缺失数据的潜在冲击。在完整数据中, 最小值是 1,最大值是 5, 概率分布是, , , , 。设置好的试验数据用来为 完整数据中应用相同的 扑,假定分析试验是引导。 如图 3 所示,这个例子的全部的结论是, 这个例子中,缺失值新的概念建构在表 1的第四栏中总结出来了。 这个例子阐述了被提议的概念 建构方法的使用,并提供一个提议方案的实验试验。容易看出,这个例子研究的数据挖掘的数值范围相当小。一般来说,比起这个例子来,数据挖掘应用于在规模和维数大得多的数据集。 7. 结论 在数据挖掘领域,不完整数据通常受到不公正对待。这篇文章提议不完整数据的概念建构,并提及了四个种类的缺失值概念。对于问题鉴别、数据隐藏意图、两个变量的缺失值求反运算以及缺失数据的条件效应,这些是可靠的。由于 被选作概念建构的工具。基于 类分析,这篇文章接着建议七类查询函数来建构不完整 数据概念。使用这些查询函数,数据挖掘者能够建构与数据挖掘问题鉴别相关的新的概念。虽然与真实事例不同,但它已被证明,概念建构的模式能更好用在知识发现方面。 知识发现在数据库是个正在成长的领域。一般来说,知识发现开始于原始的问题鉴别。然而问题鉴别典型地证实为数据库和一般统计算法力所不及的。在知识发现过程中,必须建造新的概念使数据不那么神秘。总之,不完整数据的概念建构为知识发展提供有效的技术,因而,基于数据细节问题领域和挖掘者的对缺失数据的感知,他能够说明数据挖掘的结果。以后的工作包括在数据库系统主机上执 行软件系统,并进一步评估被提议在更大范围的数据集的方法。
展开阅读全文