不完备信息系统中一种拓展粗糙集模型资料

资源描述

细心整理不完备信息系统中一种拓展粗糙集模型doi:10.3969/j.issn.1001-3695.2009.06.030 Extension of rough set model in incomplete information system SHEN Jin-biao (School of Mathematics & Information Science, Guangxi University, Nanning 530004, China) :This paper investigated the incomplete information system in which lost and absent unknown values were coexisting deeply.In such information systems,proposed a reflective relation which was based on the controlling of one parameterpared the rough set model based on this reflective relation with some other existing rough set models which had been used to deal with incomplete information system.Analyzed an illustrative example to indicate the validity of the new-defined binary relation. 0 引言粗糙集理论(rough set theory，RST)是由波兰科学家Pawlak1于20世纪80年头初提出的一种处理敷衍和不精确性问题的新型数学工具。近年来，为了适应实际工程应用的需求，已有许多学者提出了各种各样的粗糙集模型2，如可变精度粗糙集、概率粗糙集、模糊粗糙集等。其中不完备信息系统(IIS)中各种拓展粗糙集模型的应用已成为粗糙集理论开展的一个重要方面3,4。一般来说，IIS中的未知属性值具有两种说明：a)全部的未知属性值仅仅是被遗漏的，但又是的确存在的；b)全部的未知属性值是被认为是丢失的，是不允许被比拟的。依据第一种说明，Kryszkiewicz5提出了IIS中的容差关系，进而进展了学问约简的方法探究；依据其次种说明，Stefanowski等人6构建了其中的相像关系并建立了近似集的概念。可以看出，无论Kryszkiewicz还是Stefanowski所做的工作都认为IIS中的未知属性值仅仅具有一种可能的说明，即遗漏型或丢失型。然而现实世界中IIS的状况可能更为困难，如Grzymala-Busse7就考虑了一种广义的IIS。其中的未知属性值有的是属于遗漏型，而有的那么属于丢失型。为了运用RST处理这种同时具有遗漏和丢失型未知属性IIS，Grzymala-Busse提出了特征关系，特征关系是结合了容差和相像关系的一种推广形式。随着对特征关系的深化探究，发觉由特征关系所得到的特征类存在两种不尽合理的状况：a)可能会将两个没有任何明确一样属性值的对象误判在同一类中；b)在信息系统中属性数目特殊多时两对象仅具有极少数一样的属性值就被归为一类。因此，笔者在深化探究现有广义的IIS模型的根底上提出了一种新的二元关系，较好地解决了上述问题。 1 根本概念 1.1 不完备信息系统一个IIS为一个四元组:S=U,AT,V,f。其中：U是一个被称为论域的非空有限的对象集合;AT是非空有限的属性集合;对于aAT,有a:UVa,Va是属性a的值域(可包丢失型、遗漏型空值，文中分别用“?”和“*”表示) ,全体属性值域集合V=aATVa；定义f为信息函数,对于aAT,xU，有f(x,a)Va。 1.2 容差关系在Kryszkiewicz提出的容差关系中，最主要的一个概念是赐予信息表中没有值的元素一个“*”值，“*”值是一种任何值都有可能的值。这个说明和这样的值仅仅是被遗漏但又的确存在的说明相对应。换句话说就是由于不精确的学问迫使人们去处理只有局部信息的不完备信息表。各个体对象具有潜在的完备信息，而当前只是遗漏了这些值。定义1 在不完备信息系统S中,假设全部未知属性值均被认为是遗漏型(“*”) ,那么对于AAT,由A确定的容差关系记为T(A)且 T(A)=(x,y)U2:aA,f(x,a)=f(y,a)f(x,a)=*f(y,a)=* 1.3 相像关系在Stefanowski等人提出的基于相像关系对rough集理论进展扩大的方法中，认为对象可能被不完全描述的缘由不仅可能是由于学问不精确，还可能是由于干脆就不行能用全部的属性来描述它们。不认为未知值是不确定的，而是当前不存在的，不允许比拟未知值。基于这种观点，各对象可能有或多或少的完全描述，这取决于可能接受多少属性。从这种观点看，只要两个对象的确定属性值一样，就可以认为一个个体对象x和另一个对象y相像。定义2 在不完备信息系统S中，假设全部未知属性值均被认为是缺席型(“?”)，那么对于aAT，由A确定的相像关系记为S(A)且 S(A)=(x,y)U2:aA：f(x,a)=?f(x,a)=f(y,a) 明显，相像关系是不对称的，但是传递的、自反的。相像关系是对象集合上的偏序。事实上，非对称相像关系可以认为是包含关系的一个代表，因为只要x的描述包含于y的描述就认为x和y相像。 1.4 特征关系很明显，对于如表1所示的IIS，无论是容差关系还是相像关系均无法对论域进展分类，因为容差关系仅考虑IIS中的全部未知属性值都是遗漏型的，而相像关系那么考虑IIS中的全部未知属性值都是丢失型的。因此，对于同时具有遗漏型和丢失型未知属性值的IIS，Grzymala-Busse构建了其中的特征关系如下定义所示。定义3 设S为一IIS，对于AAT，那么由A确定的特征关系表示为K(A)且 K(A)=(x,y)U2:aAf(x,a)?， f(x,a)=f(y,a)f(x,a)=*f(y,a)=* 定义4 设S为一IIS，有AAT，那么对于XU，X基于特征关系K(A)的下、上近似集分别记为AK(X)，K(X)且 AK(X)=xU:KA(x)X K(X)=xU:KA(x)X 其中:KA(x)=yU:(x,y)K(A)。假如在IIS中，全部未知属性值均被认为是遗漏型的，那么特征关系R(A)就退化为容差关系；从另一角度来看，假设IIS中全部未知属性值均被看做是丢失型的，那么特征关系 (A)就退化为非对相像关系。因此，可以将特征关系R(A)看做是容差关系和非对称相像关系的一种混合表现形式。其中既保存了容差关系的相关性质，也保存了非对称相像关系的相关性质。特征关系既可以处理具有遗漏型, 也可以处理具有缺席型未知属性值的不完备信息系统。它虽然是继承了容差关系和非对称相像关系的优点，具有更为合理的分类实力, 但也存在一些问题。首先, 特征关系将两个没有任何确定属性值的不同的对象归为一类, 如x=0,*,1,2,*,y=*,1,*,*,1；其次, 在数据库中的属性数目特殊多时, 两对象仅仅具有很少的确定一样属性值就可以被划分在同一类中。在这两种情形下,两对象仅仅是具有不行辨别的可能性, 并且由于未知属性值的大量存在, 这种可能性特殊小。例如x=0,*,1,2,1,y=*,1,*,*,1,此时在全部五个属性上x和y仅有一个一样的确定属性值, 然而特征关系却把它们归为一类,这很牵强。笔者在深化探究现有广义的IIS模型的根底上提出了一种新的特征关系，较好地解决了上述问题。 2 新的二元关系 2.1 一种新的二元关系设MATx,y=aAT:f(x,a)=*f(y,a)=*表示对象x或y取值为*的属性集合，NAT(x,y)=aAT:f(x,a)=？f(y,a)=？表示对象x或y取值为?的属性集合。令NATx=aAT:f(x,a)?,D=aAT:NAT(x)MAT(x,y),E=aAT:NAT(x)MAT(x,y)。定义5 设S为一IIS，对于AAT，那么由A确定的新二元关系表示为R(A)且 R(A)=(x,y)U2:(aD,(f(x,a)=f(y,a)f(x,a)=*f(y,a)=*)(|MAT(x,y)|/(|AT|-|NAT(x)|)(aNAT(x,y),f(x,a)=f(y,a)=?)(aE,f(x,a)=f(y,a) 其中：01。假如对象x和y有所给的二元关系，那么表示对象x和y在属性上的取值，除有缺席(?)数据外，要么取值全相等或取值大局部相等。定义6 设S为一IIS，有AAT，那么对于XU，X基于二元关系R(A)的下、上近似集分别记为AR(X)、R(X)且 AR(X)=xU:RA(x)X R(X)=xU:RA(x)X 其中:RA(x)=yU:(x,y)R(A)。定理1 设S为一IIS，对于AAT，由A确定的新二元关系表示为R(A)，假设01，那么RA(x)RA(x)。证明由定义易证。定理2 设S为一IIS，对于AAT，由A确定的新二元关系表示为R(A)，特征关系为K(A)，那么RA(x)KA(x)。证明由定义易证。 2.2 有关性质定理3 设S为一IIS，对于AAT，由A确定的新二元关系表示为R(A),对于随意XU，有 AR(X)X?联?R(X)(1) AR(X)=U-R(U-X)(2) 证明式1对随意xAR(X)，RA(x)X，而xRA(x)，xX，故 AR(X)X。对随意xX，xRA(x)，有RA(x)X?粒?故X?联?R(X)。综上有T(X)X(X)。式2对随意xAR(X)，RA(x)XRA(x)(U-X)=?联?xR(U-X)xU-R(U-X)。 3 特殊情形分析 3.1 “?”值不完备信息系统在定义5所建立新的二元关系的根底上,假如再将IIS系统特殊化,可以得到它的几种不同表现形式。首先,在一个IIS中,假设全部的未知属性值均为缺席型“?”时,此时取值定为1, 所以定义5中的二元关系就退化成为相像关系。 3.2 “*”值不完备信息系统另一方面, 在一个IIS中, 假设全部的未知属性值均为丢失型“*”时,此时的取值1, 因此分类的结果不受的影响,从而定义5中的二元关系退化成为容差关系。假设0 5 完毕语粗糙集理论由于其坚实的数学根底,近年来在学问获得、人工智能等众多科研领域得到了广泛的应用。传统的粗糙集只能处理具有完备属性值的信息系统,然而在现实世界中由于各种缘由,需处理的信息系统往往是不完备的。建立IIS中的拓展粗糙集模型进展数据分析已成为粗糙集理论探究的一个热点问题。以往许多学者所探讨的IIS中的未知属性值仅具有一种可能的说明,而本文所处理的IIS同时具有缺席型和遗漏型未知属性值,并且为了使得这种IIS中的分类结果更加符合客观实际和人在数据处理过程中的直观感觉,提出了一种新的带有参数的二元关系。从文中的分析可以看出,只要合理地设置阈值, 新建立的粗糙集模型优于以往的各种拓展粗糙集模型。在本文工作的根底上,下一步的工作就是在IIS中依据新的二元关系探讨学问约简等相关问题。

展开阅读全文

不完备信息系统中一种拓展粗糙集模型资料

最新文档