资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,1,Bayes Classifier,贝叶斯分类,2024/11/3,2,2024/11/3,一、何谓贝叶斯分类?,数据挖掘中以贝叶斯定理为基础,用于分类的技术有朴素贝叶斯分类和贝叶斯信念网络两种。,朴素贝叶斯分类假定一个属性值对给定类的影响独立于其他属性的值,即在属性间不存在依赖关系,也因此称为“朴素的”。,贝叶斯信念网络也可以用于分类,它是图形模型。它优于朴素贝叶斯,它能够处理属性子集间有依赖关系的分类。,它采用监督式的学习方式。,二、基本知识,3,2024/11/3,1,、,事件,概率,联合概率,(joint probability),表示,A,事件和,B,事件同时发生的概率,,P,(,A,B,),。,边际概率,(marginal probability),在,A,和,B,的样本空间中,,只看,A,或,B,的概率,称之边际概率。,条件概率,(conditional probability),在发生,A,的条件下,,发生,B,的概率,称为,P,(,B,|,A,),。,赞成,(,B,1),反对,(,B,2),合计,男性,(,A,1),40,120,160,女性,(,A,2),10,30,40,合计,50,150,200,4,联合概率:,P(,男性,赞成,)=P(A1B1)=40/200,=0.2,边际概率,:P(,赞成,)=P(B1)=P(A1B1)+P(A2B1)=0.25,条件概率,:P(,赞成,|,男性,)=P(B1|A1)=P(A1B1)/P(A1)=0.25,2024/11/3,举例:,2,、,乘法法则,(Multiplicative rule),5,2024/11/3,3,、,独立事件,设事件,和事件,满足以下条件:,则称,与,为,独立事件,。,三、贝叶斯,定理,6,表,示先验,概率,(Prior probability),。,表,示后验,概率,(Posteriori probability),,,先验概率是由以往的数据分析得到的。根据样本数据得到更多的信息后,对其重新修正,即是后验概率。,2024/11/3,7,例:旅客搭乘飞机必须经电子仪器检查是否身上携带金属物品。,如果携带金属,仪器会发出声音的概率是,97%,,但身上无金属物品仪器会发出声音的概率是,5%,。,已知一般乘客身上带有金属物品的概率是,30%,,若某旅客经过仪器检查时发出声音,请问他身上有金属物品的概率是多少?,2024/11/3,解:,设,C,1=,“有金属物”,,X,=,“仪器会发声”,则,四、朴素贝叶斯分类的工作过程,2024/11/3,8,2024/11/3,9,2024/11/3,10,2024/11/3,11,2024/11/3,12,五、朴素贝氏分类的实例,办信用卡意愿:,项目,性别,年龄,学生身分,收入,办卡,1,男,45,否,高,会,2,女,3145,否,高,会,3,女,2030,是,低,会,4,男,20,是,低,不会,5,女,2030,是,中,不会,6,女,2030,否,中,会,7,女,3145,否,高,会,8,男,3145,是,中,不会,9,男,3145,否,中,会,10,女,0,15,2024/11/3,16,2024/11/3,训练样本中对于,(,女性,年龄介于,3145,之间,不具学生身份,收入,中等,),的个人,按照朴素贝叶斯分类会将其分到办信用卡一类中。,办卡的概率是,(0.044)/(0.044+0)=1(,正规化分类的结果,P(,会,)/(P(,会,)+P(,不会,),。,贝叶斯分类的优缺点:,优点:,计算速度最快的演算法;,规则清楚易懂;,独立事件的假设,大多数问题上不至于发生太大偏误;,缺点:,仅适用于类别变量;,仅能应用于分类问题;,假设变量间为独立互不影响,因此使用时需要谨慎分析变量间的相关性。,2024/11/3,17,六、贝叶斯信念网络,朴素贝叶斯分类假定类条件独立,即给定样本的类标号,属性的值相互条件独立。,但在实践中,变量之间的依赖可能存在。贝叶斯信念网络说明联合条件概率分布,它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形。,2024/11/3,18,例如,得肺癌受其家族肺癌史的影响,也受是否吸烟的影响。,2024/11/3,19,有向无环图,条件概率图,概率依赖,双亲或直接前驱,后继,非后继,独立,节点:随机变量,一个简单的例子,由左图给出,它对下雨,(R),引起草地变湿,(W),建模。天下雨的可能性为,并且下雨时草地变湿的可能性为;也许的时间雨下得不长,不足以让我们真正认为草地被淋湿了。,在这个例子中,随机变量是二元的:真或假。存在的可能性草地变湿而实际上并没有下雨,例如,使用喷水器时。,2024/11/3,20,2024/11/3,21,可以看到三个值就可以完全指定,P(R,W),的联合分布。如果,P(R)=0.4,,则,P(R)=0.6,。类似地,,,而,这是一个因果图,解释草地变湿的主要原因是下雨。,我们可以颠倒因果关系并且做出诊断。,例如,已知草地是湿的,则下过雨的概率可以计算如下:,2024/11/3,22,现在,假设我们想把喷水器()作为草地变湿的另一个原因,如下图所示。,节点有两个父节点和,因此它的概率是这两个值上的条件概率 。,我们可以计算喷水器开着草地会湿的概率。这是一个因果(预测)推理:,2024/11/3,23,2024/11/3,24,=0.1,给定草地是湿的,我们能够计算喷水器开着的概率。这是一个诊断推理。,2024/11/3,25,知道草是湿的增加了喷水器开着的可能。现在让我们假设下过雨,我们有:,注意,这个值比 小。这叫作解释远离,explaining away;,给定已知下过雨,则喷水器导致湿草地的可能性降低了。已知草地是湿的,下雨和喷水器成为相互依赖的。,2024/11/3,26,2024/11/3,27,某水文站内装有一个小型的警报系统,与该警报是否拉响相关的因素有:,洪水到来,、,地震发生,,同时该系统还肩负着安全警报的功能,当水文站发生,入室盗窃,时,警报同样也会拉响。,而洪水的到来与降雨情况有关,地震的发生会反映在地震监测仪的报告中。同时,入室盗窃也会带来地震监测仪的扰动。在水文站以往的数据库中,关于以上这些因素都能找到详细的记录。,那么如何从这些数据中挖掘出有用的信息,来帮助工作人员进行决策呢?,七、贝叶斯信念网络应用实例,:警报分析,(马克威分析系统),2024/11/3,28,1,、有向无环图,2,、条件概率表,2024/11/3,29,先验,概率,条件概率表,2024/11/3,30,3,、推理,(,1,)当“警报拉响降雨,地震、入室盗窃、洪水”:,假设某时刻警报突然拉响了,且此时正在下雨,值班人员要判断此时发生地震、盗窃和洪水的概率分别是多少,以便采取相应的措施加以应对。,首先,设置警报和降雨为已知节点,观察值分别为拉响和降雨;并且指定地震、入室盗窃和洪水为目标节点。然后计算各种情况发生的后验概率。,2024/11/3,31,2024/11/3,32,节点名称,降雨,警报,状态取值,降雨,拉响,已知变量的状态观察值,状态取值,不发生,发生,概率值,100,84.80,15.20,地震,状态取值,不发生,发生,概率值,100,12.00,88.0,入室盗窃,状态取值,不发生,发生,概率值,100,88.80,11.2,洪水,(,2,)当“警报拉响降雨地震监测仪信号弱,地震、入室盗窃、洪水”:,假设,同样在下雨天,警报突然拉响,如果此时值班人员还注意到了地震监测仪的状态处于弱信号的范围,那么到底地震、入室盗窃、洪水中哪个发生呢?,解决的办法是设定:降雨节点处于降雨状态,警报节点处于拉响状态,地震监测仪处于弱状态;目标节点仍旧是地震、入室盗窃和洪水。然后,计算后验概率。,2024/11/3,33,2024/11/3,34,节点名称,降雨,警报,地震监测仪,状态取值,降雨,拉响,弱,已知变量的状态观察值,状态取值,不发生,发生,概率值,100,100.00,0.00,地震,状态取值,不发生,发生,概率值,100,8.33,91.67,洪水,状态取值,不发生,发生,概率值,100,91.67,8.33,入室盗窃,贝叶斯分类的优缺点:,优点:,在某些领域的应用上,其分类效果优于类神经网络和判定树。,用于大型数据库,可以得出准确高且有效率的分类结果。,缺点:,一般而言,贝叶斯分类中的属性可以出现两种以上不同的值,而目标值则多半为两元的相对状态,如“是,/,否”,”好,/,坏”,”对,/,错”,”上,/,下”,,“发生,/,不发生”等,。,2024/11/3,35,2024/11/3,36,
展开阅读全文