朴素贝叶斯分类

资源描述

朴素贝叶斯分类朴素贝叶斯分类1.定义 ABAB条件概率若是全集，A、B是其中的事件（子集），P表示事件发生的概率，则为事件B发生后A发生的概率。乘法定理注：当P(AB)不容易直接求得时，可考虑利用P(A)与P(B|A)的乘积或P(B)与P(A|B)的乘积间接求得。乘法定理的推广1.集合（样本空间）的划分二、全概率公式2.全概率公式全概率公式图示证明化整为零各个击破说明全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.例1 有一批同一型号的产品,已知其中由一厂生产的占 30%,二厂生产的占 50%,三厂生产的占 20%,又知这三个厂的产品次品率分别为2%,1%,1%,问从这批产品中任取一件是次品的概率是多少设事件 A 为“任取一件为次品”,解由全概率公式得30%20%50%2%1%1%AB1B2B3贝叶斯公式Bayes公式的意义假设导致事件A发生的“原因”有Bi(i=1,2,n)个。它们互不相容。现已知事件A确已经发生了，若要估计它是由“原因”Bi所导致的概率，则可用Bayes公式求出.即可从结果分析原因.证明乘法定理：例2 贝叶斯公式的应用解(1)由全概率公式得(2)由贝叶斯公式得由以往的数据分析得到的概率,叫做先验概率.而在得到信息之后再重新加以修正的概率叫做后验概率.先验概率与后验概率贝叶斯分类贝叶斯分类器是一个统计分类器。它们能够预测类别所属的概率，如：一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理而构造出来的。对分类方法进行比较的有关研究结果表明：简单贝叶斯分类器（称为基本贝叶斯分类器）在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时，贝叶斯分类器已表现出较高的分类准确性和运算性能。20贝叶斯分类定义：设X是类标号未知的数据样本。设H为某种假定，如数据样本X属于某特定的类C。对于分类问题，我们希望确定P(H|X)，即给定观测数据样本X，假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法:P(H)是先验概率，或称H的先验概率。P(X|H)代表假设H成立的情况下，观察到X的概率。P(H|X)是后验概率，或称条件X下H的后验概率。21贝叶斯分类先验概率泛指一类事物发生的概率，通常根据历史资料或主观判断，未经实验证实所确定的概率。而后验概率涉及的是某个特定条件下一个具体的事物发生的概率22贝叶斯分类例如：P(x1)=0.9:细胞为正常细胞的概率0.9（先验概率）P(x2)=0.1:细胞为异常细胞的概率0.1（先验概率）对某个具体的对象y，P(x1|y）:表示y的细胞正常的概率是0.82（后验概率）P(x2|y）:表示y的细胞异常的概率是0.18（后验概率）朴素贝叶斯分类朴素贝叶斯分类的工作过程如下：(1)每个数据样本用一个n维特征向量X=x1，x2，xn表示，分别描述对n个属性A1，A2，An样本的n个度量。(2)假定有m个类C1，C2，Cm，给定一个未知的数据样本X（即没有类标号），分类器将预测X属于具有最高后验概率（条件X下）的类。也就是说，朴素贝叶斯分类将未知的样本分配给类Ci（1im）当且仅当P(Ci|X)P(Cj|X)，对任意的j=1，2，m，ji。这样，最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理24朴素贝叶斯分类(3)由于P(X)对于所有类为常数，只需要P(X|Ci)*P(Ci)最大即可。如果Ci类的先验概率未知，则通常假定这些类是等概率的，即P(C1)=P(C2)=P(Cm)，因此问题就转换为对P(X|Ci)的最大化（P(X|Ci)常被称为给定Ci时数据X的似然度，而使P(X|Ci)最大的假设Ci称为最大似然假设）。否则，需要最大化P(X|Ci)*P(Ci)。注意，类的先验概率可以用P(Ci)=si/s计算，其中si是类Ci中的训练样本数，而s是训练样本总数。25朴素贝叶斯分类(4)给定具有许多属性的数据集，计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销，可以做类条件独立的朴素假定。给定样本的类标号，假定属性值相互条件独立，即在属性间，不存在依赖关系。这样联合概率分布26朴素贝叶斯分类(5)对未知样本X分类，也就是对每个类Ci，计算P(X|Ci)*P(Ci)。样本X被指派到类Ci，当且仅当 P(Ci|X)P(Cj|X)，1jm，ji，换言之，X被指派到其P(X|Ci)*P(Ci)最大的类。“打网球”的决定No.天气气温湿度风类别1晴热高无N2晴热高有N3多云热高无P4雨适中高无P5雨冷正常无P6雨冷正常有N7多云冷正常有PNo.天气气温湿度风类别8晴适中高无N9晴冷正常无P10雨适中正常无P11晴适中正常有P12多云适中高有P13多云热正常无P14雨适中高有NNo.天气气温湿度风类别1晴热高无N2晴热高有N3多云热高无P4雨适中高无P5雨冷正常无P6雨冷正常有N7多云冷正常有PNo.天气气温湿度风类别8晴适中高无N9晴冷正常无P10雨适中正常无P11晴适中正常有P12多云适中高有P13多云热正常无P14雨适中高有N实例统计结果天气温度湿度有风打网球 P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5统计结果天气 E1温度 E2湿度 E3有风 E4打网球 P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策：天气温度湿度有风打网球晴凉高是？统计结果天气 E1温度 E2湿度 E3有风 E4打网球 D P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策：天气温度湿度有风打网球晴凉高是？模型：决策：？贝叶斯公式：E为第二个表中的取值、分别计算D=yes/no的概率统计结果天气 E1温度 E2湿度 E3有风 E4打网球 D P N PN PN PNPN晴 2/93/5热 2/92/5高 3/94/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/91/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策：天气温度湿度有风打网球晴凉高是？已经计算出：同理可计算：利用公式：最后得到：决策：天气 E1温度 E2湿度 E3有风 E4打网球 D P N PN PN PNPN晴 2/93/5热 2/92/5高 3/95/5否 6/92/59/145/14云 4/90/5暖 4/92/5正常 6/90/5是 3/93/5雨 3/92/5凉 3/91/5对下面的情况做出决策：天气温度湿度有风打网球云凉正常是？利用朴素贝叶斯对文档分类为了对文档进行分类，首先我们需要把文档进行向量化，而组成这个向量的分量，通常是一个文档集合中重要的关键词。Bag of words，也叫做“词袋”，在信息检索中，Bag of words model假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。利用朴素贝叶斯对文档分类将多个文档转换成一个词袋矩阵后，即可通过朴素贝叶斯方法对文档进行分类。足球高考航母基金量子分类10000体育00000娱乐00001科技01001教育00010财经00100军事扩展：使用0,1方式表达的词袋模型虽然简单，但它并不能表达出不同词语的重要性，因此在信息检索领域，TF-IDF模型更常用。TF(定义)关键词在该文档中出现的次数除以该文档的总字数。我们把这个商称为“关键词的频率”，或者单文本词频(term frequency,TF)对关键词的次数进行归一化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)TF(举例)短语“原子能的应用”可以分成三个关键词：原子能、的、应用在某个一共有1000词的文档中，其中“原子能”、“的”和“应用”分别出现了2次、35次和5次，那么它们的词频就分别是0.002、0.035和0.005。我们将这三个数相加，其和0.042就是相应文档和查询“原子能的应用”的“单文本词频”TF(概括)因此，度量文档和查询的相关性，有一个简单的方法，就是直接使用各个关键词在文档中出现的总词频具体地讲，如果一个查询包含N个关键词 w1,w2,.,wN,它们在一个特定文档中的词频分别是:TF1,TF2,.,TFN。那么，这个查询和该文档的相关性就是:TF1+TF2+.+TFN。TF(漏洞)由上例可知：词“的”占了总词频的80%以上，而它对确定文档的主题几乎没有用处这种词叫“停止词”，也就是说，在度量相关性时不应考虑它们的频率忽略这些停止词后，上述文档和查询的相关性就变成了0.007，其中“原子能”贡献了0.002，“应用”贡献了 0.005在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此，我们需要给汉语中的每一个词给一个权重。权重(设定条件)这个权重的设定必须满足下面两个条件：一个词预测主题的能力越强，权重就越大，反之，权重就越小。在文档中看到“原子能”这个词，或多或少地能了解文档的主题。而看到“应用”一词，则对主题基本上还是一无所知。因此，“原子能“的权重就应该比“应用”大停止词的权重应该是零。权重(概括)很容易发现，如果一个关键词只在很少的文档中出现，通过它就容易锁定搜索目标，它的权重也就应该大。反之，如果一个词在大量文档中出现，看到它仍然不很清楚要找什么内容，因此它的权重就应该小概括地讲，假定一个关键词w在Dw个文档中出现过，那么Dw越大，w的权重越小，反之亦然IDF(逆向文件频率)在信息检索中，使用最多的权重是“逆文本频率指数”（Inverse document frequency 缩写为IDF），它的公式为log（D/Dw）其中D是全部文档数。比如，假定中文文档数是D=10亿，停止词“的”在所有的文档中都出现，即Dw=10亿，那么它的IDF=log(10亿/10亿）=log(1)=0假如专用词“原子能”在200万个文档中出现，即Dw=200万，则它的权重IDF=log(500)=8.96又假定通用词“应用”，出现在五亿个文档中，它的权重IDF=log(2)则只有1TF-IDF也就只说，在文档中找到一个“原子能”的命中率相当于找到九个“应用”的命中率利用IDF，上述相关性计算的公式就由词频的简单求和变成了加权求和，即TF1*IDF1+TF2*IDF2+.+TFN*IDFN在上面的例子中，该文档和“原子能的应用”的相关性为0.0161，其中“原子能”贡献了0.0126，而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。查询如果结合文档排名（PageRank）算法，那么给定一个查询，有关文档的综合排名大致由相关性和文档排名的乘积决定TF-IDF值(应用)经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中，用以判断两份文件之间的相似性比如：新闻分类新闻分类(找数字)对于一篇新闻中的所有实词，计算出它的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排列，就得到一个向量如果单词表中的某个词在新闻中没有出现，对应的值为零我们就用这个向量来代表这篇新闻，并成为新闻的特征向量。每一篇新闻都可以对应这样一个特征向量，向量中每一个维度的大小代表每个词对这篇新闻主题的贡献新闻分类(相似性)根据余弦定理，求出特征向量之间的夹角夹角在0度到90度之间两向量夹角的余弦等于1时，也就是夹角为0，两条新闻完全相同：当夹角的余弦接近1时，两条新闻相似，从而可以归成一类夹角的余弦越小，夹角越大，两条新闻越不相关当两个向量正交时（90度），夹角的余弦为0，说明两篇新闻根本没有相同的主题，它们毫不相关

展开阅读全文

朴素贝叶斯分类

最新文档