数据挖掘概念与技术CHAPTER6-分类ClassAdva

上传人:san****019 文档编号:20665675 上传时间:2021-04-11 格式:PPT 页数:59 大小:1.09MB
返回 下载 相关 举报
数据挖掘概念与技术CHAPTER6-分类ClassAdva_第1页
第1页 / 共59页
数据挖掘概念与技术CHAPTER6-分类ClassAdva_第2页
第2页 / 共59页
数据挖掘概念与技术CHAPTER6-分类ClassAdva_第3页
第3页 / 共59页
点击查看更多>>
资源描述
1 Chapter 6. 分类 : Advanced Methods 贝叶斯信念网络 后向传播分类 Classification by Backpropagation 支持向量机 Support Vector Machines Classification by Using Frequent Patterns Lazy Learners (or Learning from Your Neighbors) 其他分类方法 Additional Topics Regarding Classification Summary 2 贝叶斯信念网络 Bayesian belief networks (又称为 Bayesian networks, probabilistic networks): 允许变量子集间定义类条件独立 (有向无环 ) 因果关系的图模型 表示变量间的 依赖 关系 给出了一个联合概率分布 X Y Z P Nodes: 随机变量 Links: 依赖关系 X,Y 是 Z的双亲 , Y is the parent of P Z 和 P间没有依赖关系 没有环 3 贝叶斯信念网络 : An Example Family History (FH) LungCancer (LC) PositiveXRay Smoker (S) Emphysema Dyspnea LC LC (FH, S) (FH, S) (FH, S) (FH, S) 0.8 0.2 0.5 0.5 0.7 0.3 0.1 0.9 CPT: Conditional Probability Table for variable LungCancer: n i YP ar e nt s ix iPxxP n 1 )(|(),.,( 1 显示父母的每个可能组合的条件概率 从 CPT推倒 X的特定值得概率 4 训练贝叶斯网路 :几种方案 Scenario 1:给定网络结构和所有变量观察:只计算 CPT Scenario 2: 网络结构已知 , 某些变量隐藏 : 梯度下降法 (贪心爬 山 ), i.e., 沿着准则函数的 最速下降 方向搜索解 权重初始化为随机值 每次迭代中 ,似乎是对目前的最佳解决方案前进,没有回溯 每次迭代中权重被更新,并且收敛到局部最优解 Scenario 3: 网络结构未知 , 所有变量可知 : 搜索模型空间构造 网络拓扑 Scenario 4: 未知结构 , 隐藏变量 : 目前没有好的算法 D. Heckerman. A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed. MIT Press, 1999. 5 Chapter 6. 分类 : Advanced Methods Bayesian Belief Networks Classification by Backpropagation Support Vector Machines Classification by Using Frequent Patterns Lazy Learners (or Learning from Your Neighbors) Other Classification Methods Additional Topics Regarding Classification Summary 6 用反向传播分类 反向传播 : 一种神经网络学习算法 最早是由心理学家和神经学家开创的,开发和测试 神经元计算模拟 神经网络 : 一组连接的输入 /输出单元,其中每个连 接都与一个权重关联 通过调整权重来学习 , 能够输入元组的正确类别标 号 又被称为连接者学习 connectionist learning 7 神经网络作为分类器 弱点 学习时间很长 需要很多参数(常靠经验确定) , 如网络的结构 可解释性差 : 很难解释权重和网络中“隐藏单元”的含义 优势 对噪音数据的高承受能力 分类未经训练的模式的能力 非常适合处理连续值的输入 /输出 成功地应用于现实数据 , e.g., 手写字符识别 算法是固有并行的 已经发展了一些从训练好的神经网路提取规则的技术 8 多层前馈神经网络 输出层 输入层 隐藏层 Output vector Input vector: X wij ijkiikjkj xyyww )( )()()1( 9 多层前馈神经网络 网络的 输入 对应于每个训练元组的测量属性 输入同时传给称作 输入层 的单元 加权后同时传递给隐藏层 隐藏层的数目是任意的 , 通常只有一个 最后一个隐藏层的输出权重后作为输入传递给称为输出层, 此处给出网络的预测 前馈 feed-forward: 权重都不反馈到输入单元或前一层的 输出单元 从统计学观点 , 网络进行一个非线性回归;给定足够的隐 藏单元和训练数据 , 可以逼近任何函数 10 定义网络拓扑 确定网络拓扑 : 给定输入层的单元数 , 隐藏层数 (if 1), 每个隐藏层的单元数 , 输出层的单元数 规格化训练元组的输入值 0.01.0 对于离散值,可重新编码,每个可能的值一个输 入单元并初始化 0 输出 , 如果涉及超过两个类别则一个输出单元对应 一个类别 一旦一个训练好的网络其准确率达不到要求时,用 不同的网络拓扑和初始值重新训练网络 11 反向传播 Backpropagation 迭代地处理训练数据 disadv: 可能增大误差 Co-training: Use two or more classifiers to teach each other 每个学习者使用元组的相互独立的特征集合来训练一个好 的分类器 F1 然后 f1 and f2 用来预测未知元组 X 的类别标签 Teach each other: The tuple having the most confident prediction from f1 is added to the set of labeled data for f2, the examples are not so intuitive The book An Introduction to Support Vector Machines by Cristianini and Shawe-Taylor Not introductory level, but the explanation about Mercers Theorem is better than above literatures Neural Networks and Learning Machines by Haykin Contains a nice chapter on SVM introduction
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!