资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,粗糙集的简单应用,作 者,专 业,主要内容,1,、粗糙集理论基本概念,2,、粗糙集的应用,工作成绩,粗糙集的相关基本概念,粗糙集理论由波兰科学家Z.Pawlak于1982年提出,它是一种新的处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。,粗糙集的相关基本概念,1.信息系统,2.知识约简,粗糙集,1.信息系统,定义1.1 信息系统是一个四元组 ,其中:,(1)是对象的非空有限集合,即 ,称为论域,中的每个 称为一个对象;,(2)是属性的非空有限集合,即 ,中的每个 称为一个属性;,(3),是属性的值域;,(4)称为信息函数,它为每个对象关于每个属性赋予了一个信息值,且对于任意 ,有 。,在不引起混淆的前提下,信息系统通常可简写为 。,粗糙集,1.信息系统,定义1.2 若 ,且 ,则 中全部等价关系的交集称为 上的,不可分辨关系,,记为:且有,设 是 上的一个等价关系,表示 的所有等价类,或 上的划分构成的集合,表示包含元素 的 等价类。,粗糙集,1.信息系统,定义1.3 设 为一知识表达系统,,称为条件属性集,称为决策属性集。具有条件属性和决策属性的知识表达系统称为,决策表,。,条件属性,决策属性,患者,头痛,肌肉痛,体温,流感,a,是,是,正常,否,b,是,是,高,是,c,否,否,高,是,d,否,是,很高,否,一个信息系统的例子,粗糙集,1.信息系统,定义1.5 若 则 为,粗糙集,。否则称 为,精确集,。,定义1.4 设 为一知识表达系统,,一个等价关系 。称 为 关于 的,下近似,。称 为 关于 的,上近似,。,粗糙集,2.知识约简,定义2.1 设 为一个信息系统,如果,,则称 在 中是,不必要的,,否则称是,必要的,。,定义2.2 设 为一个信息系统,如果 在 中都是必要的,则称属性集 是,独立的,,否则称是,相关的,。,定理1 如果 是独立的,则 也是独立的。,粗糙集,2.知识约简,定义2.3 设 为一个信息系统,如果 是独立的,且 ,则称 是 的一个,约简,。,定义2.4 设 为一个信息系统,中所有必要属性组成的集合称为属性集 的,核,,记为 。,定理2 ,其中 表示 的所有约简。,粗糙集,2.知识约简,定义2.5 设 为一个信息系统,是非空属性集,为决策属性 相对于 的,相对正域,。,定义2.6 设 和 都是等价关系族,如果,则称 是 上,可约去的,;否则 是 上,不可约去的,。,粗糙集,2.知识约简,定义2.7 如果 上的每一个等价关系 都是 不可约去的,则 是 独立的或者 关于 是独立的。,定义2.8 所有 中 不可约去的等价关系的集合称为 的 核,记为 。,粗糙集,2.知识约简,定义2.9 设有信息系统 ,是记录 在属性 上的值,,表示,分辨矩阵,中第 行,第 列的元素,被定义为:,其中,定义2.10,区分函数,是从分辨矩阵中构造的。约简算法的方法是先求 的每个属性的析取,然后再求所有 的合取。分辨矩阵是一个对称 矩阵。,在实际运用中,一般只列出它的下三角阵。,工作成绩,粗糙集的应用,基于粗糙集的小型电子商务挖掘模型,粗糙集,建立模型,数据挖掘的一般过程包括:数据采集、数据清洗、挖掘算法确定、数据挖掘、模式解释及知识评价。从理论研究到应用实现,设计的技术主要有分类技术、聚类技术、粗糙集技术、统计技术和关联技术等。这里,结合粗糙集建立如图所示的挖掘模型。,数据采集,粗糙集数据清洗(预处理),粗糙集数据挖掘,粗糙集规则提取,解释模型得出结论,粗糙集,数据清洗,下表是某电子商店的购物记录,P、Q、R、S代表四种商品;Customer No.为客户号;“Y”表示购买了某商品;“N”表示没有购买某商品,粗糙集,数据清洗,条件属性,决策属性,Customer No.,P,Q,R,S,Y,Y,N,N,Y,Y,Y,Y,Y,Y,Y,Y,N,Y,N,N,N,N,Y,N,N,Y,Y,Y,N,N,Y,Y,N,Y,Y,Y,根据粗糙集理论,论域 ,条件属性集 ,决策属性集 。,粗糙集,数据清洗,一、利用正域约简,计算正域:,粗糙集,数据清洗,二、利用区分矩阵约简,粗糙集,数据挖掘,因此,的 约简为Q,R。经过粗糙集数据清洗得到下表,条件属性,决策属性,Customer No.,Q,R,S,Y,N,N,Y,Y,Y,Y,Y,Y,Y,N,N,N,Y,N,Y,Y,Y,N,Y,Y,Y,Y,Y,粗糙集,规则提取,定义,决策规则,为:,其中,为对等价类的描述。,定义规则 的确定性因子,显然,当 时,是确定的;,当 时,是不确定的,粗糙集,规则提取,提取决策规则可以得到以下确定性规则:,(购买Q)且(不购买R)(不购买S),(购买Q)且(购买R)(购买S),不确定规则为:,(不购买Q)且(购买R)(购买S),(不购买Q)且(购买R)(不购买S),粗糙集,经过挖掘可得到大量的模式和规则,需对规则作进一步的筛选、合并。上述例子经合并后最终得到两条确定性规则。,对于不确定规则,可作参考或直接删除均可。,基于上述规则,可作决策:在电子商店中,可将商品P,Q,R按顺序相邻摆放在一起,可提高销售。,知识评价,粗糙集,通过以上分析,所建立的基于粗糙集的小型电子商务挖掘模型是有效、可行的。已经提出很多可行的粗糙集算法,在实现挖掘时可参考。上述只举出决策规则的例子,根据电子商务的实际,开发挖掘系统时可确定更多的挖掘目标,从而揭示小型电子商务网站的运营状况以及潜在的经济活动及规律。,讨论,谢谢!,
展开阅读全文