朴素贝叶斯分类.ppt

上传人:xt****7 文档编号:6217646 上传时间:2020-02-19 格式:PPT 页数:48 大小:372.84KB
返回 下载 相关 举报
朴素贝叶斯分类.ppt_第1页
第1页 / 共48页
朴素贝叶斯分类.ppt_第2页
第2页 / 共48页
朴素贝叶斯分类.ppt_第3页
第3页 / 共48页
点击查看更多>>
资源描述
朴素贝叶斯 NaiveBayes 重庆大学软件信息服务工程实验室余俊良 1 定义 A B AB 条件概率 若是全集 A B是其中的事件 子集 P表示事件发生的概率 则 为事件B发生后A发生的概率 乘法定理 注 当P AB 不容易直接求得时 可考虑利用P A 与P B A 的乘积或P B 与P A B 的乘积间接求得 乘法定理的推广 1 集合 样本空间 的划分 二 全概率公式 2 全概率公式 全概率公式 图示 证明 化整为零各个击破 说明全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题 分解为若干个简单事件的概率计算问题 最后应用概率的可加性求出最终结果 例1有一批同一型号的产品 已知其中由一厂生产的占30 二厂生产的占50 三厂生产的占20 又知这三个厂的产品次品率分别为2 1 1 问从这批产品中任取一件是次品的概率是多少 设事件A为 任取一件为次品 解 由全概率公式得 贝叶斯公式 Bayes公式的意义 假设导致事件A发生的 原因 有Bi i 1 2 n 个 它们互不相容 现已知事件A确已经发生了 若要估计它是由 原因 Bi所导致的概率 则可用Bayes公式求出 即可从结果分析原因 证明 乘法定理 例2贝叶斯公式的应用 解 1 由全概率公式得 2 由贝叶斯公式得 由以往的数据分析得到的概率 叫做先验概率 而在得到信息之后再重新加以修正的概率叫做后验概率 先验概率与后验概率 贝叶斯分类 贝叶斯分类器是一个统计分类器 它们能够预测类别所属的概率 如 一个数据对象属于某个类别的概率 贝叶斯分类器是基于贝叶斯定理而构造出来的 对分类方法进行比较的有关研究结果表明 简单贝叶斯分类器 称为基本贝叶斯分类器 在分类性能上与决策树和神经网络都是可比的 在处理大规模数据库时 贝叶斯分类器已表现出较高的分类准确性和运算性能 20 贝叶斯分类 定义 设X是类标号未知的数据样本 设H为某种假定 如数据样本X属于某特定的类C 对于分类问题 我们希望确定P H X 即给定观测数据样本X 假定H成立的概率 贝叶斯定理给出了如下计算P H X 的简单有效的方法 P H 是先验概率 或称H的先验概率 P X H 代表假设H成立的情况下 观察到X的概率 P H X 是后验概率 或称条件X下H的后验概率 21 贝叶斯分类 先验概率泛指一类事物发生的概率 通常根据历史资料或主观判断 未经实验证实所确定的概率 而后验概率涉及的是某个特定条件下一个具体的事物发生的概率 22 贝叶斯分类 例如 P x1 0 9 细胞为正常细胞的概率0 9 先验概率 P x2 0 1 细胞为异常细胞的概率0 1 先验概率 对某个具体的对象y P x1 y 表示y的细胞正常的概率是0 82 后验概率 P x2 y 表示y的细胞异常的概率是0 18 后验概率 朴素贝叶斯分类 朴素贝叶斯分类的工作过程如下 1 每个数据样本用一个n维特征向量X x1 x2 xn 表示 分别描述对n个属性A1 A2 An样本的n个度量 2 假定有m个类C1 C2 Cm 给定一个未知的数据样本X 即没有类标号 分类器将预测X属于具有最高后验概率 条件X下 的类 也就是说 朴素贝叶斯分类将未知的样本分配给类Ci 1 i m 当且仅当P Ci X P Cj X 对任意的j 1 2 m j i 这样 最大化P Ci X 其P Ci X 最大的类Ci称为最大后验假定 根据贝叶斯定理 24 朴素贝叶斯分类 3 由于P X 对于所有类为常数 只需要P X Ci P Ci 最大即可 如果Ci类的先验概率未知 则通常假定这些类是等概率的 即P C1 P C2 P Cm 因此问题就转换为对P X Ci 的最大化 P X Ci 常被称为给定Ci时数据X的似然度 而使P X Ci 最大的假设Ci称为最大似然假设 否则 需要最大化P X Ci P Ci 注意 类的先验概率可以用P Ci si s计算 其中si是类Ci中的训练样本数 而s是训练样本总数 25 朴素贝叶斯分类 4 给定具有许多属性的数据集 计算P X Ci 的开销可能非常大 为降低计算P X Ci 的开销 可以做类条件独立的朴素假定 给定样本的类标号 假定属性值相互条件独立 即在属性间 不存在依赖关系 这样 联合概率分布 26 朴素贝叶斯分类 5 对未知样本X分类 也就是对每个类Ci 计算P X Ci P Ci 样本X被指派到类Ci 当且仅当P Ci X P Cj X 1 j m j i 换言之 X被指派到其P X Ci P Ci 最大的类 打网球 的决定 实例 统计结果 统计结果 对下面的情况做出决策 统计结果 对下面的情况做出决策 模型 决策 贝叶斯公式 E为第二个表中的取值 分别计算D yes no的概率 统计结果 对下面的情况做出决策 已经计算出 同理可计算 利用公式 最后得到 决策 对下面的情况做出决策 利用朴素贝叶斯对文档分类 为了对文档进行分类 首先我们需要把文档进行向量化 而组成这个向量的分量 通常是一个文档集合中重要的关键词 Bagofwords 也叫做 词袋 在信息检索中 Bagofwordsmodel假定对于一个文本 忽略其词序和语法 句法 将其仅仅看做是一个词集合 或者说是词的一个组合 文本中每个词的出现都是独立的 不依赖于其他词是否出现 或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的 利用朴素贝叶斯对文档分类 将多个文档转换成一个词袋矩阵后 即可通过朴素贝叶斯方法对文档进行分类 扩展 使用0 1方式表达的词袋模型虽然简单 但它并不能表达出不同词语的重要性 因此在信息检索领域 TF IDF模型更常用 TF 定义 关键词在该文档中出现的次数除以该文档的总字数 我们把这个商称为 关键词的频率 或者单文本词频 termfrequency TF 对关键词的次数进行归一化 以防止它偏向长的文件 同一个词语在长文件里可能会比短文件有更高的词频 而不管该词语重要与否 TF 举例 短语 原子能的应用 可以分成三个关键词 原子能 的 应用在某个一共有1000词的文档中 其中 原子能 的 和 应用 分别出现了2次 35次和5次 那么它们的词频就分别是0 002 0 035和0 005 我们将这三个数相加 其和0 042就是相应文档和查询 原子能的应用 的 单文本词频 TF 概括 因此 度量文档和查询的相关性 有一个简单的方法 就是直接使用各个关键词在文档中出现的总词频具体地讲 如果一个查询包含N个关键词w1 w2 wN 它们在一个特定文档中的词频分别是 TF1 TF2 TFN 那么 这个查询和该文档的相关性就是 TF1 TF2 TFN TF 漏洞 由上例可知 词 的 占了总词频的80 以上 而它对确定文档的主题几乎没有用处这种词叫 停止词 也就是说 在度量相关性时不应考虑它们的频率忽略这些停止词后 上述文档和查询的相关性就变成了0 007 其中 原子能 贡献了0 002 应用 贡献了0 005在汉语中 应用 是个很通用的词 而 原子能 是个很专业的词 后者在相关性排名中比前者重要 因此 我们需要给汉语中的每一个词给一个权重 权重 设定条件 这个权重的设定必须满足下面两个条件 一个词预测主题的能力越强 权重就越大 反之 权重就越小 在文档中看到 原子能 这个词 或多或少地能了解文档的主题 而看到 应用 一词 则对主题基本上还是一无所知 因此 原子能 的权重就应该比 应用 大停止词的权重应该是零 权重 概括 很容易发现 如果一个关键词只在很少的文档中出现 通过它就容易锁定搜索目标 它的权重也就应该大 反之 如果一个词在大量文档中出现 看到它仍然不很清楚要找什么内容 因此它的权重就应该小概括地讲 假定一个关键词w在Dw个文档中出现过 那么Dw越大 w的权重越小 反之亦然 IDF 逆向文件频率 在信息检索中 使用最多的权重是 逆文本频率指数 Inversedocumentfrequency缩写为IDF 它的公式为log D Dw 其中D是全部文档数 比如 假定中文文档数是D 10亿 停止词 的 在所有的文档中都出现 即Dw 10亿 那么它的IDF log 10亿 10亿 log 1 0假如专用词 原子能 在200万个文档中出现 即Dw 200万 则它的权重IDF log 500 8 96又假定通用词 应用 出现在五亿个文档中 它的权重IDF log 2 则只有1 TF IDF 也就只说 在文档中找到一个 原子能 的命中率相当于找到九个 应用 的命中率利用IDF 上述相关性计算的公式就由词频的简单求和变成了加权求和 即TF1 IDF1 TF2 IDF2 TFN IDFN在上面的例子中 该文档和 原子能的应用 的相关性为0 0161 其中 原子能 贡献了0 0126 而 应用 只贡献了0 0035 这个比例和我们的直觉比较一致了 查询 如果结合文档排名 PageRank 算法 那么给定一个查询 有关文档的综合排名大致由相关性和文档排名的乘积决定 TF IDF值 应用 经常会和余弦相似度 cosinesimilarity 一同使用于向量空间模型中 用以判断两份文件之间的相似性比如 新闻分类 新闻分类 找数字 对于一篇新闻中的所有实词 计算出它的TF IDF值 把这些值按照对应的实词在词汇表的位置依次排列 就得到一个向量如果单词表中的某个词在新闻中没有出现 对应的值为零我们就用这个向量来代表这篇新闻 并成为新闻的特征向量 每一篇新闻都可以对应这样一个特征向量 向量中每一个维度的大小代表每个词对这篇新闻主题的贡献 新闻分类 相似性 根据余弦定理 求出特征向量之间的夹角夹角在0度到90度之间两向量夹角的余弦等于1时 也就是夹角为0 两条新闻完全相同 当夹角的余弦接近1时 两条新闻相似 从而可以归成一类夹角的余弦越小 夹角越大 两条新闻越不相关当两个向量正交时 90度 夹角的余弦为0 说明两篇新闻根本没有相同的主题 它们毫不相关
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!