统计机器学习基础-probability课件

上传人:痛*** 文档编号:218210011 上传时间:2023-06-18 格式:PPT 页数:117 大小:1.81MB
返回 下载 相关 举报
统计机器学习基础-probability课件_第1页
第1页 / 共117页
统计机器学习基础-probability课件_第2页
第2页 / 共117页
统计机器学习基础-probability课件_第3页
第3页 / 共117页
点击查看更多>>
资源描述
ClassificationInput:x=x1,x2T,Output:C 0,1Prediction:1Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)Bayes Rule2posteriorlikelihoodpriorevidenceLecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)K=2 ClassesDichotomizer(K=2)vs Polychotomizer(K2)g(x)=g1(x)g2(x)Log odds:3Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)Bayes Rule:K2 Classes4Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)Parametric Classification5Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press(V1.0)数学基础的重要性研究数据分析必须打好概率和统计基础Using fancy tools like neural nets,boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.预修课程:概率统计主要内容:概率、随机变量及其分布、常用分布、多元随机向量随机变量的变换及其分布独立、条件独立、贝叶斯公式期望、方差第一章:概率概率:定量描述不确定性的数学语言例:PP(牙痛是由虫牙引起)=0.8 20%所有其他可能实际数值可能来源于统计数据、模型、启发规则或猜测更精确的概率定义:代数、可测量、测度(参考CB Chp1)概率、样本空间和事件考虑一个事先不知道输入的试验:试验的样本空间 是所有可能输出的集合事件A是样本空间的子集对每个事件A,我们定义一个数字PP(A),称为A 的概率。概率根据下述公理定义:概率公理事件A 的概率是一个非负实数PP(A)0合法命题的概率为1PP()=1两两不相交(互斥)事件A1,A2,从上述三个公理,可推导出概率的所有的其他性质。公理的推论不可满足命题的概率为0P P()=0PP(A Ac)=0对任意两个事件A、BPP(A B)=P(A)+P(B)P(A B)对事件A的补事件AcPP(Ac)=1 PP(A)对任意事件A0 PP(A)1概率的解释概率的“真正意义”仍是一个非常有争议的论题没有一种解释被一致接受概率两种主要的解释:频率解释概率=一个事件的相对频率(大量试验情况下)对应频率推断(点估计、置信区间)可信度解释概率=观测者对可能性的判断“贝叶斯概率”对应贝叶斯推断概率的频率解释在相似试验条件下,进行多次重复试验,得到某个特定输入的相对频率(如掷骰子或抛硬币)满足概率公理只有试验才能确定概率但是试验次数多少次才足够多?相似条件?(条件完全相同?)PP(正面朝上)?PP(你本门课程得90分以上)?PP(明天会下雨)?概率的可信度解释亦称“贝叶斯概率”概率表示观测者对可能性的判断定量表示某人的信念强度是基于个人的信念和信息“主观概率”而不是“真正的概率”并没有对世界客观的表述主观判断完全一致没有矛盾?不同人之间没有统一的客观基准满足概率公理(在保持一致性的情况下)独立事件当PP(AB)=PP(A)PP(B)时,称两个事件A与B独立,记为可推广到有限个事件系列可通过两种方式确定事件之间的独立性显式假设:如抛硬币试验中,假设每次抛掷都是独立的数值推导:满足PP(AB)=PP(A)PP(B)如在一个公正的掷骰子的试验中,则不相交 独立独立总结独立总结1.若PPPP(ABAB)=)=PPPP(A A)PPPP(B B),则A和B独立。2.独立某些时候是假设的,某些时候推导得到的。3.有正概率的不相交事件不一定独立。条件概率当PP(B)0 时,给定B时A的条件概率为给定任意B,若PP(B)0,则 也是一个概率,即满足概率的三个概率公理 当 不相交时,条件概率下列等式不不一定成立 条件概率例1.13:对疾病D的医学测试结果输出为+和-,其概率分别为:假设某个测试的结果为+,则得病的概率为多少?检验相当正确检验相当正确不要相信直觉!不要相信直觉!得病概率很小得病概率很小+.009.099.108-.001.891.892.010.9901.0条件概率例1.13(续):假设某个测试的结果为-,则得病的概率为多少?+.009.099.108-.001.891.892.010.9901.0得病概率几乎为得病概率几乎为0 0独立与条件概率若A与B独立事件,则知道B不会改变A的概率当A与B不独立时Vs.A与B独立时:例:条件独立赌徒的谬误:戴伦伯特系统参与者赌红色或黑色,每赌失败一次就加大赌数,每赌赢一次就减少赌数。如果小小的象牙球让他赢了,那么就会有某种原因“记住”它,不太可能让他在下一次再赢;如果小球使他输了,它将感到抱歉,很可能帮助他在下一次赢。事实上:每一次旋转,轮盘都与以前旋转的结果无关。摘自数学悖论奇景条件概率总结1.如果 P(B)0,则2.对给定的B,P(.|B)满足概率公理。通常,对给定的A,P(A|.)不满足概率公理。3.通常,P(A|B)P(B|A)。4.当且仅当P(A|B)=P(A)时,A 与B 独立。贝叶斯公式全概率公式:令A1,Ak 为 的一个划分,则对任意事件B,有 。贝叶斯公式:令A1,Ak 为 的一个划分且对每个i,i=1,2,k。若 ,则对每个 有 后验概率先验概率例:邮件分类例1.19:email可分为三类:A1=“垃圾,”A2=“低优先级”和A3=“高优先级”。根据先前的经验,我们发现则:0.7+0.2+0.1=1。令B表示email中包含单词“free”。根据先前的经验,思考如果收到一封带有单词“free”的邮件,该邮件为垃圾邮件的概率是多少?如果仅以单词“free”为先验来进行邮件邮件分类,如何判别一封邮件是否为垃圾邮件?第二章:随机变量上节课内容概率理论概率公理及推论随机变量之间的关系:条件概率、独立/条件独立、贝叶斯公式本节课内容随机变量及其分布随机变量变换常见分布族多元随机向量的分布联合分布、边缘分布、条件分布、独立随机变量统计推断是与数据相关的。随机变量就是将样本空间/随机事件与数据之间联系起来的纽带随机变量是一个映射 ,将一个实数值 赋给一个试验的每一个输出例2.2:抛10次硬币,令X()表示序列中正面向上的次数,如当 =HHTHHTHHTT,则 X()=6。随机变量的概率描述事件的概率 随机变量的概率描述给定一随机变量X及实数子集A,定义 例2.4:抛2次硬币,令X表示正面向上的次数,则其中X表示随机变量,x表示X可能的取值P()X()TT1/40TH1/41HT1/41HH1/42xP(X=x)01/411/221/4随机变量的分布函数随机变量X的累积分布函数累积分布函数 (cumulative distribution function,CDF)定义为CDF是一个非常有用的函数:包含了随机变量的所有信息。CDF的性质:略(见书)有时记为F例:随机变量的CDF例2.6:公正地抛硬币2次,令X表示正面向上的次数,则CDF右连续、非减函数对所有实数x都有定义虽然随机变量只取0、1、2离散型随机变量的概率函数离散型随机变量的概率函数概率函数(probability function or probability mass function,pmf)定义为对所有的 CDF与pmf之间的关系为:有时记为 f例:离散型随机变量的pmf例2.10:公正地抛硬币2次,令X表示正面向上的次数,则概率函数为:连续型随机变量的概率(密度)函数对连续型随机变量X,如果存在一个函数 ,使得对所有的x,且对任意 有则函数 被称为概率概率密度函数函数(probability density function,pdf)。CDF与pdf之间的关系:在所有 可微的点x,则注意:是可能的例:连续型随机变量的CDF和pmf例2.12:设X有PDF:显然有有该密度的随机变量为(0,1)上的均匀分布:Uniform(0,1),即在0和1之间随机选择一个点。其CDF为:分位函数(quantile function)令随机变量X的CDF为F,CDF的反函数或分位函数(quantile function)定义为其中 。若F严格递增并且连续,则 为一个唯一确定的实数x,使得 。为增函数中值(median):一个很有用的统计量,对噪声比较鲁棒随机变量的变换X:老的随机变量,Y:新的随机变量,离散:离散型随机变量的变换例2.45:假设Y的取值比X少,因为该变换不是一一映射。xfX(x)-11/401/211/4yfY(y)01/211/2连续型随机变量的变换方法方法1:CDF方法方法变换的三个步骤1.对每个y,计算集合2.计算CDF3.PDF为 连续型随机变量的变换方法方法2:Jacobian方法方法当r为单调增函数/减函数,定义r的反函数 ,则当X、Y存在一一映射时,上述结论仍可用分区间:在每个 区间内为单调函数,可分区间利用上述结论例:连续型随机变量的变换例2.46:令求Y的概率密度函数例:连续型随机变量的变换例2.46:则CDF法:Jacobian方法例:连续型随机变量的变换例:概率积分变换 X有连续CDF ,定义随机变量Y为 ,则Y为0,1上的均匀分布,即对随机数产生特别有用0.51.00二元随机向量的联合分布离散型随机变量的联合分布:令X、Y为一对离散型随机变量,联合概率函数(pmf)定义为联合累积分布函数(CDF)为:(X,Y):随机向量例2.18:对如下有两个随机变量的二元分布,变量X和Y取值为0、1,则 。12/31/32/35/92/9X=11/32/91/9X=0Y=1 Y=0联合分布边缘分布二元随机向量的联合分布连续型随机变量的联合分布:令X、Y对一对连续型随机变量,联合概率密度函数(pdf)定义为 对任意集合联合概率分布函数(CDF)为:边缘分布离散型随机变量:边缘分布连续型随机变量:联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布,但反之通常不成立独立 PDF可以因式分解独立随机变量之间的关系独立 当且仅当不独立:随机变量之间的关系用条件分布描述条件分布:条件分布离散型随机变量的条件概率函数:对连续型随机变量,条件概率定义相同,但解释不同第一节课中随机事件的条件概率:条件分布 给定变量Y时,在 X上的概率分布对Y的每个可能取值,对X都定义有一个概率分布 是一个概率分布,满足概率分布的所有性质,如例:条件分布联合分布、边缘分布与条件分布边缘分布与联合分布:条件分布与边缘分布、联合分布:联合分布与条件分布、边缘分布:条件概率 链规则(Chain Rule)链规则或贝叶斯规则贝叶斯规则似然似然先验先验后验后验贝叶斯规则中的边缘化给定 和 ,推导经常使用贝叶斯规则的归一化因子 通过边缘化,已知已知?边缘分布通过使用(1)边缘化和(2)链规则,给定 ,可以计算:条件独立(绝对)独立:给定Y,不会对X增加任何信息条件独立:若在给定Z的情况下,X与Y条件独立,则 一旦已知Z,Y不会对X提供额外的信息例:联合概率联合概率:定义了所有可能状态的概率二值变量的情况下有 项如果这些变量是独立的,则 对二值变量,用n个独立变量表示个独立变量表示联合概率例:但若Y和W 在给定X下独立,且Z和W、X在给定Y下独立,则 真实问题通常是这样的,贝叶斯网络就是利用了条件独立的性质链规则推广条件概率的定义递归定义:多元随机向量的分布令随机向量 ,其中 为随机变量,用 表示X的pdf/pmf,先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量,如可以定义边缘分布、条件分布等当随机向量 互相独立时,随机向量相互独立两两独立,但反之不成立 随机向量的变换令 ,求1.对每个z,计算集合2.计算CDF3.PDF为 例 2.48常见分布族离散型随机变量 Ch2,p25均匀(Uniform)分布贝努利(Bernoulli)分布二项(Binnomial)分布 超几何(HyperGeometric)分布几何(Geometric)分布泊松(Possion)分布连续型随机变量 Ch2,p27均匀(Uniform)分布正态(Normal)分布Gamma分布Beta分布 分布指数(Exponential)分布常见分布族每个分布族pdf/pmf形式参数典型应用均值、方差正态分布亦称高斯分布,:位置(location)参数 :尺度(scale)参数如图像处理中的多尺度分析正态分布最重要的分布之一在实际遇到的许多随机现象都服从或近似服从正态分布 如考试成绩 中心极限定理:随机样本的均值近似服从正态分布 对任意IID样本 ,则 标准正态分布当 时,正态分布称为标准正态分布,通常用Z表示服从标准正态分布的变量,记为 。pdf和CDF分别记为标准化变换:若 ,则若 ,则正态分布的线性组合仍是正态分布:若 是独立的,则常见多元分布多元二项分布多元正态分布多元二项分布二项分布的多元变量版本 其中例:从箱子中共k中颜色的球,为抽取到颜色j的概率,共抽取n次,令 为颜色j出现的次数,则多元二项分布边缘分布:若 ,其中 且 ,则 的边缘分布为 多元正态分布令 ,其中 且互相独立则Z的协方差矩阵为单位矩阵I,记为 。多元正态分布 更一般地,其中 表示矩阵的行列式,为均值向量,协方差矩阵 为一个对称的正定矩阵 多元正态分布多元正态分布有如下性质:1、若 且 ,则2、若 ,则3、若 ,a为与X相同长度的向量,则随机向量的变换 令集合集合且A、B存在一一映射时,可利用Jacobian方法计算定义反变换 ,变换的Jacobian为(U,V)的联合分布为思考题:求两个正态分布的和与乘积的分布第三章:期望上节课内容随机变量及其分布随机变量变换的分布常见分布族多元随机向量的分布:联合分布、边缘分布、条件分布本节课内容常用统计量:期望、方差、矩、中值、分位数IID样本、样本均值、样本方差期望期望/均值:随机变量的平均值概率加权平均期望期望是随机变量的一个很好单值概述:随机变量典型的值或期望值大数定律(Chp5):当有大量独立同分布(Independed Identical Distribution,IID)样本 时,期望 可视为样本均值 当 ,我们说 是良好定义的(well defined);否则我们说期望不存在。期望最小距离最小距离 假设我们用L2距离度量一个随机变量X与一个常数b的距离,即 。b离X越近,这个量就越小。因此我们可以确定b的值,使得 最小,b可认为是X的一个很好预测。问题:如果采用L1作为距离度量呢?注意:是常数随机变量变换的期望1.2.注意:当 时,随机变量变换的期望例1:,则概率是一个特殊的期望:概率 为 的期望例3.7:,则也可以先求 ,然后随机向量变换的期望随机向量变换的期望令例3.9:设(X,Y)是单位正方形区域上的联合均匀分布,则 期望的性质线性运算:加法规则:乘法规则:期望的性质不好计算。利用加法规则:令 则众数(mode)众数:设随机变量X有密度 ,且存在 满足 ,则称 为X的众数。随机变量出现次数最多的位置期望、中位数和众数都称为位置参数。当随机变量的分布为高斯分布时,三者相等方差方差:刻画随机变量围绕均值的散布程度方差越大,X变化越大;方差越小,X与 越接近方差:二阶中心矩方差的性质注意:期望的加法规则无需独立条件 不独立随机变量和的方差计算需考虑变量之间的协方差方差此时为确定性事件,故没有变化,方差为0样本均值和方差令 为IID,样本均值定义为计算均值时忽略了概率?样本方差定义为样本均值和方差 和 分别为 和 的很好估计(无偏估计)协方差(covariance)/相关系数协方差/相关系数:刻画两个随机变量之间关系强弱 协方差(covariance)/相关系数 X、Y独立,则X、Y 不相关:但反过来不成立!协方差的性质 对任意两个随机变量X和Y,有当X、Y独立时:推广到多个随机变量:方差-协方差矩阵令随机向量 的形式为:则 的方差协方差矩阵 为当个成分变量独立时,协方差矩阵是什么样子呢?相关(correlation)相关:度量两个变量之间的线性相关程度若 当 时,当 时,变量之间不线性相关独立意味着不相关但反过来不成立!非线性相关,但可能高阶相关条件期望 给定变量Y时,在 X上的概率分布对Y的每个可能取值,对X都定义有一个概率分布也能求期望,称为条件期望条件期望 :数字 :y的函数。在知道y的值之前,不知道 :随机变量,当Y=y时,的值 :随机变量条件期望例3.23:假定对 采样,在给定x后,在对 采样 直观地,期望实事上,对 ,有得到期望因而注意:是随机变量,当 时,其值为思考题:当X与Y独立时 ,的值?条件期望3.24 定理:对随机变量X和Y,假设其期望存在,则更一般地,对任意函数证明:利用条件期望的定义和与Y有关的随机变量条件期望3.25例:考察3.23例:怎样计算?一种方法是计算联合密度 ,然后计算另一种更简单的方法是分两步计算计算 计算 条件方差3.26 定义:条件方差定义为其中定理3.27:对随机变量X和Y,层次模型例:在一个分布族中,分布族由一个/一些参数决定,如 ,这些参数 通常又是一个随机变量(贝叶斯学派的观点,参数也是随机变量),则最终的分布为一个层次模型,称为混合分布(mixture distribution)渐增式地定义一个复杂的模型:通过条件分布与边缘分布希望知道 ,至少是其期望和均值(条件期望和方差)层次模型例:假设昆虫会产很多数量的蛋,蛋的数量为一个随机变量,用 表示;另外假设每个蛋的是否存活是独立的,存活的概率为p,为Bernoulli分布,用X表示存活的数量,则层次模型期望:亦可通过条件期望计算:方差:亦可通过条件期望计算:矩r阶矩:1阶矩r阶中心矩:2阶中心矩:方差3阶中心矩:偏度4阶中心矩:峰度矩母函数(Moment Generating Functions)矩母函数:用于计算矩、随机变量和的分布和定理证明3.29 定义:X的矩母函数(MGF),或Laplace变换定义为其中t在实数上变化。若MGF是有定义的,可以证明可以交换微分操作和求期望操作,所以有:取k阶导数,可以得到方便计算分布的矩矩母函数3.10 例:令 ,对任意 ,有当 时,上述积分是发散的。所以 矩母函数的性质3.31 引理:MGF的性质 若 ,则 若 独立,且 ,则3.32 例:所以矩母函数的性质3.33 定理:令X、Y为随机变量,如果对在0附件的一个开区间内所有的t,有 ,则 。3.23 例:令且 独立,则为分布 的MGF,即
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!