《模糊聚类分析》PPT课件.ppt

资源描述

第七章模糊聚类分析一模糊聚类分析聚类分析按照一定要求和原则对事物进行分类聚类普通分类清晰事物模糊分类带有模糊性的事物三种模糊聚类方法传递闭包法基于模糊等价关系直接聚类法基于模糊相似关系模糊聚类法基于模糊划分二模糊聚类分析的步骤 1 选取特征指标特征要有明确的意义要有较强的分辨力有代表性并确定描述特征的变量分类事物的特征指标选择的如何对分类结果有直接的影响 2 数据标准化正规化令其中 xi为原始数据是原始数据的均值是原始数据的标准差是数据处理后的数据 3 标定设为待分类的对象 uj有m个刻划其特征的数据就是根据实际情况按一个准则或某一种方法给论域U中的元素两两之间都赋以区间 0 1 内的一个数叫做相似系数它的大小表征两个元素彼此接近或相似的程度然后对于ui与uj 用 rij表示ui与uj的当rij 0时表示ui与uj截然不同当rij 1时表示ui与uj可以等同不能说是完全相同 rij可根据具体问题来选取方法有的相似程度要求 1 数量积法其中显然如果rij中出现负值可采用下面方法将全体rij进行重新调整方法1令则方法2令其中于是 2 夹角余弦法如果rij中出现负值也可采用上面方法调整 3 相关系数法其中 4 最大最小法 5 算术平均最小法 6 几何平均最小法 8 指数相似系数法其中sk适当选择 9 绝对值倒数法 M适当选取使rij在 0 1 中且分散开 7 绝对值指数法 11 非参数法中正数个数中负数个数令则 10 绝对值减数法 12 贴近度法如果特征则ui uj可看作模糊向量以它们的贴近度D ui uj 为其相似程度 i 格贴近度其中 ii 距离贴近度其中c a为适当选择参数值 d ui uj 为模糊集各种距离 iii 算术平均最小贴近度 13 主观评定法请有实际经验者直接对ui uj的相似程度评分作为rij的值通过标定求出相似系数后便可得到以rij为元素的模糊相似矩阵R rij 4 聚类选择一种合适的聚类方法便可得到分类结果三传递闭包法 1 传递闭包法根据标定所得模糊矩阵R 求出其传递闭包为模糊等价矩阵对令从1降到0得到根据进行分类归为一类 2 最佳阈值的选取聚类图给出各值对应的分类形成一种动态聚类便于全面了解元素聚类然后根据实际需要选择其阈值便可确定元素的一种分类至于如何选择阈值使分类更加合理除了凭经验外还可用F 统计量来选取 F 统计量为待分类事物的全体设 xjk为描述元素uj第k个特征的数据设c为对应于值的类数 ni为第i类元素的个数第i类元素记为记为第i类元素的第k个特征的平均值而称为第i类的聚类中心向量为全体元素的中心向量而于是称为F 统计量其中为第i类中元素与中心的距离可见 F 统计量的分子表征类与类间的距离分母表征类内元素间的距离因此 F值越大说明分类越合理与此分类相对应的F 统计量最大的阈值为最佳值求传递闭包的简便方法设为模糊相似矩阵求t A 1 求假定把A中的a1m am1 a11 amm用圆圈圈起来并记 2 在A中第一行第m行中剩下的元素中找最大元素即且设在第p列用即分别代替a1p与amp以及它们的对称元素最后用圆圈将它们及圈起来 3 假定A中有圈的k行是行而所在的列是ij列在这些行中剩下的元素中找最大元并设在第l行用分别代替继续此过程到k n 1 得到t A 还有逐步平方法及其对称矩阵并把all圈起来四基于模糊相似关系的直接聚类法 1 最大树法聚类原则是 ui与uj在水平同类当且仅当在相似矩阵R的图中存在一条权重不低于的路联结ui与uj 画出以被分类元素为结点以相似矩阵R的元素rij为权重的一颗最大树 2 取定砍断权重低于的枝得到一个不连通图各连通分支变构成了在水平上的分类 2 编网法对给定的模糊相似矩阵R 取定水平作截矩阵 R 在R 的主对角线上填入元素的符号在对角线下方以结点号代替1 而 0 则略去不写由结点向主对角线上引经线和纬线称之为编网通过经线和纬线能互相连接起来的元素属于同类从而实现了分类五基于模糊划分的模糊聚类法 1 c 划分 1 普通c 划分如果划分把普通集合分成c类则此划分就叫普通c 划分即若设的特征可表为那么U的普通c 划分是指U的c个子集满足 1 2 其中且满足 1 2 表示每个uj必属于且仅属于一类表示每类Ai至少有一个元素反过来任一满足条件 1 2 3 的矩阵对应着U的一个分类 1 2 3 这样的分类结果可以用一个c n矩阵称为c 划分来表示例如设U u1 u2 u3 u4 若分类结果为 u1 u2 u3 u4 则对应的分类矩阵为如果分类矩阵为则对应着U的分类为 u1 u2 u3 u4 记V为c n实矩阵的集合且显然对于给定的U及分类数c 类的分法不是唯一的 Mc包含了U的所有可能c类划分的结果 Mc称为将U分成c类的分类空间这样的分类是通常的分类称为硬分类 2 模糊c 划分设一个c n模糊矩阵若满足 1 2 表示每个uj属于c个模糊子集Ai的程度总和为1 表示每类Ai不等于空集或U 则称A称为U的模糊c 划分矩阵记 Mfc称为U的c类软分类空间显然若将Mc和 Mfc定义中的条件放宽为则这样的分类空间分别称为退化的硬分类空间和退化的软分类空间分别记为Mco和Mfco 显然 2 目标函数聚类法和硬c 均值算法划分 1 目标函数法目标函数是对给定的c的所有候选类进行度量最优的类就是使目标函数达到局部最小值的类对于硬分类情形通常所选取的目标函数是总体组内误差平方和其定义为这里将每类Ai中元素各特征分别取平均值所得的聚类中心向量记为vi 也称为Ai的聚类中心由于Ai类中元素个数 Ai类中元素向量和为因此聚类中心向量记 V称为聚类中心矩阵若则uj到聚类中心vi的距离为 Ai中全体元素到中心距离平方和为而V中所有元素到其所在类中心距离平方和为最理想的c 划分显然是使J A V 取极小的A 2 硬c 均值算法步骤1 假设给出n个数据点其中取定并初始化步骤2 当迭代次数为时计算聚类中心向量其中步骤3 用下式将A l 更新为步骤4 比较A l 和A l 1 若则停止算法否则令l l 1 返回步骤2 直观上看硬c 均值算法猜想c的硬分类步骤1 寻找各分类的中心步骤2 重新分配类的隶属度以减少数据和当前中心的误差平方步骤3 当循环不再能显著的降低J A V 时停止算法步骤4 3 模糊c 均值算法定义目标函数其中是一个加权指数模糊c 均值算法的目标在于找到和使得Jm A V 最小下面首先建立这个最小化问题的必要条件然后根据此条件提出模糊c 均值算法定理令为一给定数据集设定假设对所有则仅当和时才是Jm A V 的局部最小值模糊c 均值算法 ISODATA方法步骤步骤1 给定数据集设定并初始化步骤2 当迭代次数为时计算聚类中心向量步骤3 用下式将更新为步骤4 若则停止算法否则令l l 1 返回步骤2 注意本方法要求因此取初始分类A 0 时遇到只有一个样本的类要在聚类前先排除待聚类后再加上该类而参数r一般常取r 2 4 模糊划分清晰化在实际问题中最后的分类结果都要求是明确的因此在使用模糊c 划分分类后都必须将模糊划分清晰化可用下述方法进行方法1对若则将uj归入Ai类方法2对若则将uj归入Ai类

展开阅读全文

《模糊聚类分析》PPT课件.ppt

最新文档