数据挖掘_贝叶斯定理(第三章) (1)

上传人:仙*** 文档编号:244155851 上传时间:2024-10-02 格式:PPT 页数:18 大小:332.50KB
返回 下载 相关 举报
数据挖掘_贝叶斯定理(第三章) (1)_第1页
第1页 / 共18页
数据挖掘_贝叶斯定理(第三章) (1)_第2页
第2页 / 共18页
数据挖掘_贝叶斯定理(第三章) (1)_第3页
第3页 / 共18页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,贝叶斯分类,不难想象,数据并不是总体或系统建模是唯一可利用的信息资源。,贝叶斯方法提供了一套将外部客观信息融入数据分析过程中的原理方法。这个分析过程是先给出一个待分析数据集的概率分布。因为这个分布是没有考虑任何数据而给出的,所以称为先验分布。这个新的数据集将先验分布修正后得到后验分布。贝叶斯定理就是在知道新的信息后修正数据集概率分布的基本工具。,贝叶斯定理为解决归纳,-,推理分类问题的统计方法提供了理论背景。我们首先介绍贝叶斯定理中的基本概念,然后在运用这个定理说明朴素贝叶斯分类过程和简单贝叶斯分类。,设,X,是一个未知类标号的,数据样本,,设,H,为某种假定,:,数据样本,X,属于某特定的类,C,。我们希望确定 ,即给定观测数据样本,X,后假定,H,成立的概率。它是表示给出数据集,X,后我们对假定的信任度的后验概率。相反,不管数据样本看上去如何,对于任何样本来说 都是先验概率。后验概率,比先验概率 基于更多的信息。,数据样本是数据挖掘过程的基本组成部分,贝叶斯定理提供了一种由概率 、,和 来计算后验概率的方法,其基本关系是:,现在假定有一组,m,个元素的样本,S=,(训练数据集),其中每一个样本代表了一个,n,维向量,。值分别和样本属性 相对应。并且有,k,个样本类,每一个样本属于其中一个类。另外给出一个数据样本,X,(它的类是未知的),可以用最高的条件概率 来预测,X,的类,这里,i=1,k,。这是朴素贝叶斯分类的基本思想。,可以通过贝叶斯定理计算这些概率:,因为 对所有的类别都是个常量,仅要求乘积 的最大值。我们用下面的式子计算一个类别的先验概率。,=,类别 的训练样本数量,/m,(,m,是训练样本的总数),.,因为 的计算是极其复杂的,特别是对大量的数据集来说,所以要给出零假设:样本各属性之间条件独立。利用这个假设,我们用一个乘积来表示,.,=,其中 是样本,X,的属性值,能够通过训练数据集来计算,.,例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类:,字段为(年龄(取值:,40);,收入,(,高,中,低,);,学生否,(Y,N);,信用,(,一般,很好,);,购买计算机否,(Y,N),记录为,14,个,具体数据如下,:,X1=(30,高,N,一般,N);X2=(40,中,N,一般,Y);,X5=(40,低,Y,一般,Y);X6=(40,低,Y,很好,N);,X7=(3040,低,Y,很好,Y);X8=(30,中,N,一般,N);,X9=(40,中,Y,一般,Y);,X11=(40,中,N,很好,N);,利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能性,X=,(年龄,30,收入,=,中,学生否,=Y,信用,=,一般,),本例只有两个类别,即,C1=,购买计算机,C2=,不购买计算机,P(Ci,),为每个事件的事前概,P(C1)=9/14=0.643,P(C2)=5/14=0.357,为了计算,P(X|Ci)(i,=1,2),先进行以下运算:,P(,年龄,30|C,)=2/9,P(,年龄,P(X|C2)*P(C2),所以根据贝叶斯分类方法可知,数据对象属于购买计算机类,即,1,分母相同只需比较分子的大小即可。,应用例,2,表,2-1,身高分类样本数据,属性 值,计 数,概 率,矮,中,高,矮,中,高,性别,男,1,2,3,1/4,2/8,3/3,女,3,6,0,3/4,6/8,0/3,身高,(,0,,,1.6,2,0,0,2/4,0,0,(,1.6,,,1.7,2,0,0,2/4,0,0,(,1.7,,,1.8,0,3,0,0,3/8,0,(,1.8,,,1.9,0,4,0,0,4/8,0,(,1.9,,,2.0,0,1,1,0,1/8,1/3,(,2.0,),0,0,2,0,0,2/3,表,3-2,对应于属性的概率,利用训练数据可以估计出先验概率,P(,矮,)=4/15=0.267,P(,中,)=8/15=0.533,,,P(,高,)=3/15=0.2,利用上述数值对一个新元组进行分类。例如,希望对,t=(Adam,男,,1.95m),进行分类。由上述数值及对应于性别和身高的相应概率,可得到下列估计,P(t,|,矮,)=1/4*0=0,P(t,|,中,)=2/8*1/8=0.031,P(t,|,高,)=3/3*1/3=0.333,进而可得,P(t,|,矮,)P(,矮,),=0*0.267=0,P(,中,),P(t,|,中,)=,0.031*0.533=0.0166,P(,高,),P(t,|,高,)=,0.333*0.2=0.0666,由于,t,可能为矮、中、高三者之一,所以三个单个的似然值加起来,即可得到,P(t,),的估计,即,P(t,)=0+0.0166+0.0666=0.0832,最后,可得到每个事件的实际概率为:,P(,矮,|t)=0*0.267/0.0832=0,P(,中,|t)=0.031*0.533/0.0832=0.2,P(,高,|t)=0.333*0.2/0.0832=0.8,因此基于这些概率,可以将新元组分配到身高为高的类别中,这是因为它具有最高的概率。,怎样可视化,?,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!