资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,朴素贝叶斯分类,第九章,1.,定义,A,B,AB,条件概率,若 是全集,,A,、,B,是其中的事件(子集),,P,表示事件发生的概率,则,为事件,B,发生后,A,发生的概率。,乘法定理,注:当,P(AB),不容易直接求得时,可考虑利用,P(A),与,P(B|A),的乘积或,P(B),与,P(A|B),的乘积间接求得。,乘法定理的推广,1.,集合(样本空间)的划分,二、全概率公式,2.,全概率公式,全概率公式,图示,证明,化整为零,各个击破,说明,全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的,可加性,求出最终结果,.,例,1,有一批同一型号的产品,已知其中由一厂生产的占,30,%,二厂生产的占,50,%,三厂生产的占,20,%,又知这三个厂的产品次品率分别为,2,%, 1,%, 1,%,问从这批产品中任取一件是次品的概率是多少,设事件,A,为,“,任取一件为次品,”,解,由全概率公式得,30,%,20,%,50,%,2,%,1,%,1,%,A,B1,B2,B3,贝叶斯公式,Bayes,公式的意义,假设导致事件,A,发生的,“,原因,”,有,B,i,(i=1,2,n),个。它们互不相容。,现已知事件,A,确已经发生,了,若要估计它是由,“,原因,”,B,i,所导致的概率,则可用,Bayes,公式求出,.,即可从结果分析原因,.,证明,乘法定理:,例,2,贝叶斯公式的应用,解,(1),由全概率公式得,(2),由贝叶斯公式得,由以往的数据分析得到,的,概率,叫做,先验概率,.,而在得到,信息之后再重新加以修正的概率,叫做,后验概率,.,先验概率与后验概率,贝叶斯分类,贝叶斯分类器是一个统计分类器。它们能够预测类别,所属的概率,,如:一个数据对象属于某个类别的概率。贝叶斯分类器是,基于贝叶斯定理,而构造出来的。,对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类,性能上与决策树和神经网络都是可比的,。,在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。,20,贝叶斯分类,定义:,设,X,是类标号未知的数据样本。设,H,为某种假定,如数据样本,X,属于某特定的类,C,。对于分类问题,我们希望确定,P(H|X),,即给定观测数据样本,X,,假定,H,成立的概率。贝叶斯定理给出了如下计算,P(H|X),的简单有效的方法,:,P(H),是先验概率,或称,H,的先验概率,。,P(X|H),代表假设,H,成立的情况下,观察到,X,的概率。,P(H| X ),是后验概率,,或称条件,X,下,H,的后验概率。,21,贝叶斯分类,先验概率泛指一类事物发生的概率,,通常,根据历史资料或主观判断,未经实验证实所确定的概率。,而,后验概率,涉及的是,某个特定条件,下一个具体的事物发生的概率,22,贝叶斯分类,例如:,P(x1)=0.9: x1-,为正常细胞的概率,0.9,(先验概率),P(x2)=0.1: x2-,为异常细胞的概率,0.1,(先验概率),对某个具体的对象,y,,,P(x1|y,),:,表示,y,的细胞正常的概率是,0.82,(,后验概率,),P(x2|y,),:,表示,y,的细胞异常的概率是,0.18,(,后验概率,),朴素贝叶斯分类,朴素贝叶斯分类的工作过程如下:,(1),每个数据样本用一个,n,维特征向量,X,= ,x,1,,,x,2,,,,,x,n,表示,分别描述对,n,个属性,A,1,,,A,2,,,,,A,n,样本的,n,个度量。,(2),假定有,m,个类,C,1,,,C,2,,,,,C,m,,给定一个未知的数据样本,X,(即没有类标号),分类器将预测,X,属于,具有最高后验概率(条件,X,下)的类,。也就是说,朴素贝叶斯分类将未知的样本分配给类,C,i,(,1,i,m,)当且仅当,P,(,C,i,|,X,),P,(,C,j,|,X,),,对任意的,j,=1,,,2,,,,,m,,,j,i,。这样,最大化,P,(,C,i,|,X,),。其,P,(,C,i,|,X,),最大的类,C,i,称为,最大后验假定,。根据贝叶斯定理,24,朴素贝叶斯分类,(,续,),(3),由于,P,(,X,),对于所有类为常数,,只需要,P,(,X,|,C,i,)*,P,(,C,i,),最大即可。,如果,C,i,类的先验概率未知,则,通常假定这些类是等概率的,,,即,P,(,C,1,)=,P,(,C,2,)=,=,P,(,C,m,),,因此问题就转换为对,P,(,X,|,C,i,),的最大化(,P,(,X,|,C,i,),常被称为给定,C,i,时数据,X,的似然度,而使,P,(,X,|,C,i,),最大的假设,C,i,称为,最大似然假设),。,否则,需要最大化,P,(,X,|,C,i,)*,P,(,C,i,),。注意,类的先验概率可以用,P(,C,i,)=,s,i,/,s,计算,其中,s,i,是类,C,i,中的训练样本数,而,s,是训练样本总数。,25,朴素贝叶斯分类,(,续,),(4),给定具有许多属性的数据集,计算,P,(,X,|,C,i,),的开销可能非常大。为降低计算,P,(,X,|,C,i,),的开销,可以做,类条件独立的朴素假定。,给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样,联合概率分布,26,朴素贝叶斯分类,(,续,),(5),对未知样本,X,分类,也就是对每个类,C,i,,计算,P(,X,|,C,i,)*P(,C,i,),。,样本,X,被指派到类,C,i,,当且仅当,P(,C,i,|,X,) P(,C,j,|,X,),,,1,j,m,,,j,i,,换言之,,X,被指派到其,P(,X,|,C,i,)*P(,C,i,),最大的类,。,“,打网球,”,的决定,No.,天气,气温,湿度,风,类别,1,晴,热,高,无,N,2,晴,热,高,有,N,3,多云,热,高,无,P,4,雨,适中,高,无,P,5,雨,冷,正常,无,P,6,雨,冷,正常,有,N,7,多云,冷,正常,有,P,No.,天气,气温,湿度,风,类别,8,晴,适中,高,无,N,9,晴,冷,正常,无,P,10,雨,适中,正常,无,P,11,晴,适中,正常,有,P,12,多云,适中,高,有,P,13,多云,热,正常,无,P,14,雨,适中,高,有,N,之前用,ID3,算法求解的一个例子,No.,天气,气温,湿度,风,类别,1,晴,热,高,无,N,2,晴,热,高,有,N,3,多云,热,高,无,P,4,雨,适中,高,无,P,5,雨,冷,正常,无,P,6,雨,冷,正常,有,N,7,多云,冷,正常,有,P,No.,天气,气温,湿度,风,类别,8,晴,适中,高,无,N,9,晴,冷,正常,无,P,10,雨,适中,正常,无,P,11,晴,适中,正常,有,P,12,多云,适中,高,有,P,13,多云,热,正常,无,P,14,雨,适中,高,有,N,实例,统计结果,天气,温度,湿度,有风,打网球,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,统计结果,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,晴,凉,高,是,?,统计结果,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,D,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,晴,凉,高,是,?,模型:,决策:,?,贝叶斯公式:,E,为第二个表中的取值、分别计算,D=yes/no,的概率,统计结果,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,D,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,晴,凉,高,是,?,已经计算出:,同理可计算:,利用公式:,最后得到:,决策:,天气,E1,温度,E2,湿度,E3,有风,E4,打网球,D,P,N,P,N,P,N,P,N,P,N,晴,2/9,3/5,热,2/9,2/5,高,3/9,5/5,否,6/9,2/5,9/14,5/14,云,4/9,0/5,暖,4/9,2/5,正常,6/9,0/5,是,3/9,3/5,雨,3/9,2/5,凉,3/9,1/5,对下面的情况做出决策:,天气,温度,湿度,有风,打网球,云,凉,正常,是,?,作业 (下周一交),No.,天气,气温,湿度,风,类别,1,晴,热,高,无,N,2,晴,热,高,有,N,3,多云,热,高,无,P,4,雨,适中,高,无,P,5,雨,冷,正常,无,P,6,雨,冷,正常,有,N,7,多云,冷,正常,有,P,No.,天气,气温,湿度,风,类别,8,晴,适中,高,无,N,9,晴,冷,正常,无,P,10,雨,适中,正常,无,P,11,晴,适中,正常,有,P,12,多云,适中,高,有,P,13,多云,热,正常,无,P,14,雨,适中,高,有,N,前,10,个样本作为训练样本,后,4,个作为测试样本,用,Bayes,方法进行决策。,作业,2,按毕业设计论文格式撰写,Apriori,算法的上机报告,下次上机课之后交,
展开阅读全文