MBA统计学04概率和分布

资源描述

统计学从数据到结论第四章机会的度量：概率和分布l概率是概率是0和和1之间的一个数目，表示某之间的一个数目，表示某个事件发生的可能性或经常程度。个事件发生的可能性或经常程度。l你买彩票中大奖的机会很小你买彩票中大奖的机会很小(接近接近0)l但有人中大奖的概率几乎为但有人中大奖的概率几乎为1l你被流星击中的概率很小你被流星击中的概率很小(接近接近0)l但每分钟有流星击中地球的概率为但每分钟有流星击中地球的概率为1l你今天被汽车撞上的概率几乎是你今天被汽车撞上的概率几乎是0l但在北京每天发生车祸的概率是但在北京每天发生车祸的概率是1。l发生概率很小的事件称为发生概率很小的事件称为小概率事件小概率事件(s m a l l probability event)；l小概率事件不那么可能发小概率事件不那么可能发生，但它往往比很可能发生，但它往往比很可能发生的事件更值得研究。生的事件更值得研究。l在某种意义上，新闻媒体在某种意义上，新闻媒体的主要注意力大都集中在的主要注意力大都集中在小概率事件上。小概率事件上。4.1 得到概率的几种途径得到概率的几种途径l1 利用等可能事件利用等可能事件l如果一个骰子是公平的如果一个骰子是公平的，那么掷一次骰子会以等可能那么掷一次骰子会以等可能(概率概率1/6，6种可能之一种可能之一)得得到到1至至6点的中的每一个点。点的中的每一个点。l抛一个公平的硬币，则以等抛一个公平的硬币，则以等可能可能(概率概率1/2)出现正面或反出现正面或反面。面。4.1 得到概率的几种途径得到概率的几种途径l再如从再如从52张牌中随机抽取一张，张牌中随机抽取一张，那么它是黑桃的概率为抽取黑桃那么它是黑桃的概率为抽取黑桃的可能（的可能（k13）和总可能性（）和总可能性（n52）之比，即）之比，即k/n=13/52=1/4；l类似地抽到的牌是类似地抽到的牌是J、Q、K、A四四种（共有种（共有16种可能）的概率是种可能）的概率是16/52=4/13。4.1 得到概率的几种途径得到概率的几种途径l其实即使没有学过概率，读者其实即使没有学过概率，读者也多半能够算出这些概率。也多半能够算出这些概率。l计算这些概率的基础就是事先计算这些概率的基础就是事先知道（或者假设）某些事件是知道（或者假设）某些事件是等可能的。这种事件为等可能的。这种事件为等可能等可能事件事件(equally likely event)。4.1 得到概率的几种途径得到概率的几种途径l2 根据长期相对频数根据长期相对频数l事件并不一定是等可能的，或者人们事件并不一定是等可能的，或者人们对于其出现的可能性一无所知。对于其出现的可能性一无所知。l这时就要靠观察它在大量重复试验中这时就要靠观察它在大量重复试验中出现的频率来估计它出现的概率。出现的频率来估计它出现的概率。l它约等于事件出现的频数它约等于事件出现的频数k除以重复除以重复试验的次数试验的次数n，该比值，该比值k/n称为称为相对频相对频数（数（relative frequency）或频率）或频率。4.1 得到概率的几种途径得到概率的几种途径l例如，刮发票的中奖密封时，大例如，刮发票的中奖密封时，大多得到多得到“谢谢谢谢”。如果你刮了。如果你刮了150张发票，只有张发票，只有3张中奖，你会认为，张中奖，你会认为，你的中奖概率大约是你的中奖概率大约是3/150=0.02l如果一个学生在如果一个学生在200次上课时，无次上课时，无故旷课故旷课10次，那么其旷课的概率次，那么其旷课的概率可能被认为接近可能被认为接近10/200=0.054.1 得到概率的几种途径得到概率的几种途径l试验次数试验次数n越大则该值越接近于想越大则该值越接近于想得到的概率。得到的概率。l很多事件无法进行长期重复试验。很多事件无法进行长期重复试验。因此这种通过相对频数获得概率因此这种通过相对频数获得概率的方法也并不是万能的。虽然如的方法也并不是万能的。虽然如此，用相对频数来确定概率的方此，用相对频数来确定概率的方法是很常用的。法是很常用的。l你们可以举出无数类似的例子你们可以举出无数类似的例子4.1 得到概率的几种途径得到概率的几种途径l3 3 主观概率主观概率l一些概率既不能由等可能性来计算，一些概率既不能由等可能性来计算，也不可能从试验得出。比如，你今年也不可能从试验得出。比如，你今年想学开车概率、你五年内去欧洲旅游想学开车概率、你五年内去欧洲旅游的概率等的概率等l这种概率称为这种概率称为主观概率主观概率(subjective probability)。l可以说，主观概率是一次事件的概率。可以说，主观概率是一次事件的概率。或为基于所掌握的信息，某人对某事或为基于所掌握的信息，某人对某事件发生的自信程度。件发生的自信程度。4.2 概率的运算概率的运算 l在掷骰子中，得到在掷骰子中，得到6点的概率是点的概率是1/6，而得到而得到5点的概率也是点的概率也是1/6。l那么掷一次骰子得到那么掷一次骰子得到5或者或者6的概率是的概率是多少呢？多少呢？l在掷在掷10次骰子中有次骰子中有一半或以上的次数一半或以上的次数得到得到5或或6的概率又是多少呢？的概率又是多少呢？l读者很快就可能很快会得到答案。但读者很快就可能很快会得到答案。但再复杂一些，也许就不简单了。再复杂一些，也许就不简单了。4.2 概率的运算概率的运算 l我们需要了解怎样从简单的情况计算我们需要了解怎样从简单的情况计算稍微复杂情况时的概率。稍微复杂情况时的概率。l需要读者回忆一下上中学时学过的集需要读者回忆一下上中学时学过的集合概念，比如两个集合的交和并，互合概念，比如两个集合的交和并，互余（互补）等概念。余（互补）等概念。l在概率论中所说的事件（在概率论中所说的事件（event）相）相当于集合论中的集合（当于集合论中的集合（set）。而概）。而概率则是事件的某种函数。率则是事件的某种函数。l为什么会这么说呢，让我们看掷两个为什么会这么说呢，让我们看掷两个骰子的试验。骰子的试验。4.2 概率的运算概率的运算 l如所关心的是如所关心的是两骰子点数之和两骰子点数之和，则，则下表包含了所有下表包含了所有36种可能试验结果种可能试验结果的搭配和相应的点数和。的搭配和相应的点数和。可以看出，如果我们考虑点数和等于可以看出，如果我们考虑点数和等于2的事件，则仅有一种可能的试验结果（两个骰子均的事件，则仅有一种可能的试验结果（两个骰子均为一点）；而如果我们考虑点数和等于为一点）；而如果我们考虑点数和等于7的事件，则有六种可能的试验结果。两个骰子点的事件，则有六种可能的试验结果。两个骰子点数之和总共有数之和总共有2至至12等等11种可能，即有种可能，即有11种可能的事件，而这种可能的事件，而这11种事件相应于上面所说种事件相应于上面所说的的36种可能的试验结果的一些集合。这些事件和试验结果的集合归纳在下面表中：种可能的试验结果的一些集合。这些事件和试验结果的集合归纳在下面表中：4.2 概率的运算概率的运算:1.互补事件的概率互补事件的概率l如果今天下雨的概率是如果今天下雨的概率是10，则，则今天不下雨的概率就是今天不下雨的概率就是90。l如果你中奖的概率是如果你中奖的概率是0.0001，那么，那么不中奖的概率就是不中奖的概率就是 1 0.0001=0.9999。l这种如果一个不出现，则另一个这种如果一个不出现，则另一个肯定出现的两个事件称为肯定出现的两个事件称为互补事互补事件件（complementary events，或者，或者互余事件互余事件或或对立事件对立事件）。）。4.2 概率的运算概率的运算:1.互补事件的概率互补事件的概率l按照集合的记号，如果一个事件记按照集合的记号，如果一个事件记为为A，那么另一个记为，那么另一个记为AC（称为（称为A的的余集或补集）。余集或补集）。l显然互补事件的概率之和为显然互补事件的概率之和为1，即，即P(A)+P(AC)=1，或者，或者P(AC)1P(A)。l在西方赌博时常常爱用在西方赌博时常常爱用优势优势或或赔率赔率（odds）来形容输赢的可能。来形容输赢的可能。l它是互补事件概率之比，即它是互补事件概率之比，即P(A)/P(AC)P(A)/1-P(A)来表示。来表示。4.2 概率的运算概率的运算:2.概率的加法概率的加法l如果两个事件不可能同时发生，如果两个事件不可能同时发生，那么至少其中之一发生的概率为那么至少其中之一发生的概率为这两个概率的和。这两个概率的和。l比如比如“掷一次骰子得到掷一次骰子得到3或者或者6点点”的概率是的概率是“得到得到3点点”的概率与的概率与“得到得到6点点”的概率之和，即的概率之和，即1/6+1/6=1/3。l但是如果两个事件可能同时发生但是如果两个事件可能同时发生时这样做就不对了。时这样做就不对了。4.2 概率的运算概率的运算:2.概率的加法概率的加法l假定掷骰子时，一个事件假定掷骰子时，一个事件A为为“得到得到偶数点偶数点”（有（有3种可能：种可能：2、4、6点），点），另一个事件另一个事件B为为“得到大于或等于得到大于或等于3点点”（有（有4种可能：种可能：3、4、5、6点）；点）；l这样，事件这样，事件A的概率显然等于的概率显然等于3/6=1/2，即即P(A)=1/2。而事件。而事件B的概率为的概率为P(B)=4/6=2/3。l但是，但是，“得到大于或等于得到大于或等于3点或者偶点或者偶数点数点”的事件的概率就不是的事件的概率就不是P(A)+P(B)=1/2+2/3=7/6了；了；4.2 概率的运算概率的运算:2.概率的加法概率的加法l这显然多出来了。概率怎么能够大于这显然多出来了。概率怎么能够大于1呢？呢？l按照中学时关于集合的记号，该事件按照中学时关于集合的记号，该事件称为称为A和和B的并，记为的并，记为AB。刚才多。刚才多出来的部分就是出来的部分就是A和和B的共同部分的共同部分AB（称为（称为A和和B的交）的概率（这的交）的概率（这个概率算了两遍）；个概率算了两遍）；l它为它为“得到既是偶数，又大于等于得到既是偶数，又大于等于3”的部分，即的部分，即4和和6两点。出现事件两点。出现事件4或或者者6的概率为的概率为1/6+1/6=1/3。4.2 概率的运算概率的运算:2.概率的加法概率的加法l于是应该把算重了的概率减去。这样于是应该把算重了的概率减去。这样“得到大于或等于得到大于或等于3点或者偶数点点或者偶数点”的事件的事件AB的概率就是的概率就是P(AB)P(A)+P(B)-P(AB)=1/2+2/3-1/35/6。l这种这种P(AB)P(A)+P(B)-P(AB)的的公式也适用于两个不可能同时发生的公式也适用于两个不可能同时发生的事件；但因为那时事件；但因为那时P(AB)=0，所以，所以只剩下只剩下P(AB)P(A)+P(B)了。了。4.2 概率的运算概率的运算:2.概率的加法概率的加法l这种交等于空集（这种交等于空集（AB=F F，这里这里F F表示空集或空事件）的事件为两个表示空集或空事件）的事件为两个不可能同时发生的事件，称为不可能同时发生的事件，称为互不互不相容事件（相容事件（mutually exclusive events）。4.2 概率的运算概率的运算:3.概率的乘法概率的乘法l如果你有一个固定电话和一个手机，如果你有一个固定电话和一个手机，假定固定电话出毛病的概率为假定固定电话出毛病的概率为0.01，而手机出问题的概率为而手机出问题的概率为0.05，l那么，两个电话同时出毛病的概率那么，两个电话同时出毛病的概率是多少呢？是多少呢？l聪明的读者马上会猜出，是聪明的读者马上会猜出，是0.010.05=0.0005。l但是这种乘法法则，即但是这种乘法法则，即P(AB)P(A)P(B)，仅仅在两个事件，仅仅在两个事件独立独立(independent)时才成立。时才成立。4.2 概率的运算概率的运算:3.概率的乘法概率的乘法l如果事件不独立则需要引进如果事件不独立则需要引进条件概条件概率率(conditional probability)。l比如三个人抽签，而只有一个人能比如三个人抽签，而只有一个人能够抽中，因此每个人抽中的机会是够抽中，因此每个人抽中的机会是1/3。l假定用假定用A1、A2和和A3分别代表这三个分别代表这三个人抽中的事件，那么，人抽中的事件，那么，P(A1)=P(A2)=P(A3)=1/3。4.2 概率的运算概率的运算:3.概率的乘法概率的乘法l但是由于一个人抽中，其他人就不但是由于一个人抽中，其他人就不可能抽中，可能抽中，l所以，这三个事件不独立。刚才的所以，这三个事件不独立。刚才的乘法规则不成立；乘法规则不成立；l这时，这时，P(A1A3)P(A1A2)P(A2A3)0；如错误照搬乘法规则；如错误照搬乘法规则会得到错误的会得到错误的(1/3)2=1/9。4.2 概率的运算概率的运算:3.概率的乘法概率的乘法l但是可以计算条件概率，比如第一但是可以计算条件概率，比如第一个人抽到（事件个人抽到（事件A1），则在这个条），则在这个条件下其他两个人抽到的概率都为件下其他两个人抽到的概率都为0；记为记为P(A2|A1)=P(A3|A1)=0。l如第一个人没有抽到（事件如第一个人没有抽到（事件A1C），），那么其他两人抽到的概率均为那么其他两人抽到的概率均为1/2，记为记为P(A2|A1C)=P(A3|A1C)=1/2。4.2 概率的运算概率的运算:3.概率的乘法概率的乘法l一般地，在一个事件一般地，在一个事件B已经发生的情已经发生的情况下，事件况下，事件A发生的条件概率定义为发生的条件概率定义为（贝叶斯公式）（贝叶斯公式）分布分布l随机变量取一切可能值或范围的随机变量取一切可能值或范围的概率或概率的规律称为概率分布概率或概率的规律称为概率分布(probability distribution，简称，简称分布分布)。l概率分布可以用各种图或表来表概率分布可以用各种图或表来表示；一些可以用公式来表示。示；一些可以用公式来表示。l概率分布是关于总体的概念。有概率分布是关于总体的概念。有了概率分布就等于知道了总体。了概率分布就等于知道了总体。分布分布l前面介绍过的样本均值、样本标准前面介绍过的样本均值、样本标准差和样本方差等样本特征的概念是差和样本方差等样本特征的概念是相应的总体特征的反映。相应的总体特征的反映。l我们也有描述变量我们也有描述变量“位置位置”的总体的总体均值、总体中位数、总体百分位数均值、总体中位数、总体百分位数以及描述变量分散（集中）程度的以及描述变量分散（集中）程度的总体标准差和总体方差等概念。具总体标准差和总体方差等概念。具体公式见本章后面小结体公式见本章后面小结4.3 离散变量的分布离散变量的分布l离散变量只取离散的值，比如骰子的点离散变量只取离散的值，比如骰子的点数、网站点击数、顾客人数等等。每一数、网站点击数、顾客人数等等。每一种取值都有某种概率。各种取值点的概种取值都有某种概率。各种取值点的概率总和应该是率总和应该是1。l当然离散变量不不仅仅限于取非负整数当然离散变量不不仅仅限于取非负整数值。值。l一般来说，某离散随机变量的每一个可一般来说，某离散随机变量的每一个可能取值能取值xi都相应于取该值的概率都相应于取该值的概率p(xi)，这些概率应该满足关系这些概率应该满足关系()1,()0iiip xp x4.3.1 二项分布二项分布l最简单的离散分布应该是基于最简单的离散分布应该是基于可重可重复复的有的有两两结果（比如成功和失败）结果（比如成功和失败）的相同的相同独立独立试验（每次试验成功概试验（每次试验成功概率相同）的分布，例如抛硬币。率相同）的分布，例如抛硬币。l比如用比如用p代表得到硬币正面的概率，代表得到硬币正面的概率，那么那么1p则是得到反面的概率。则是得到反面的概率。l如果知道如果知道p，这个抛硬币的试验的概，这个抛硬币的试验的概率分布也就都知道了。率分布也就都知道了。4.3.1 二项分布二项分布l这种有两个可能结果的试验有两个这种有两个可能结果的试验有两个特点：特点：l一是各次试验互相独立，一是各次试验互相独立，l二是每次试验得到一种结果的概率二是每次试验得到一种结果的概率不变（这里是得到正面的概率总是不变（这里是得到正面的概率总是p）。）。l类似于抛硬币的仅有两种结果的重类似于抛硬币的仅有两种结果的重复独立试验被称为复独立试验被称为Bernoulli试验试验（Bernoulli trials）。）。4.3.1 二项分布二项分布l下面试验可看成为下面试验可看成为Bernoulli试验：试验：l每一个进入某商场的顾客是否购买每一个进入某商场的顾客是否购买某商品某商品l每个被调查者是否认可某种产品每个被调查者是否认可某种产品l每一个新出婴儿的性别。每一个新出婴儿的性别。l根据这种简单试验的分布，可以得根据这种简单试验的分布，可以得到基于这个试验的更加复杂事件的到基于这个试验的更加复杂事件的概率。概率。4.3.1 二项分布二项分布l为了方便，人们通常称为了方便，人们通常称Bernoulli试试验的两种结果为验的两种结果为“成功成功”和和“失失败败”。l和和Bernoulli试验相关的最常见的问试验相关的最常见的问题是：题是：如果进行如果进行n次次Bernoulli试验，试验，每次成功的概率为每次成功的概率为p，那么成功，那么成功k次次的概率是多少？的概率是多少？l这个概率的分布就是所谓的二项分这个概率的分布就是所谓的二项分布布(binomial distribution)。4.3.1 二项分布二项分布l这个分布有两个参数，一个是试验这个分布有两个参数，一个是试验次数次数n，另一个是每次试验成功的概，另一个是每次试验成功的概率率p。l基于此，二项分布用符号基于此，二项分布用符号B(n,p)或或Bin(n,p)表示。表示。l由于由于n和和p可以根据实际情况取各种可以根据实际情况取各种不同的值，因此二项分布是一族分不同的值，因此二项分布是一族分布，布，l族内的分布以这两个参数来区分。族内的分布以这两个参数来区分。4.3.1 二项分布二项分布l二项分布的概率通常用二项分布表二项分布的概率通常用二项分布表来查出。但一般统计软件可以很容来查出。但一般统计软件可以很容易得到这个概率。易得到这个概率。l在目前统计软件发达的情况下，涉在目前统计软件发达的情况下，涉及的二项分布一般都自动处理了；及的二项分布一般都自动处理了；在处理实际问题中很少会遇到直接在处理实际问题中很少会遇到直接计算二项分布概率的情况。计算二项分布概率的情况。4.3.1 二项分布二项分布l但这里还是给出其一般公式。下面但这里还是给出其一般公式。下面p(k)代表在代表在n次次Bernoulli试验中成功试验中成功的次数的概率，的次数的概率，p为每次试验成功的为每次试验成功的概率。有概率。有()(1),0,1,.,kn knp kppknk 这里!()!nnkk nk 为二项式系数，或记为knC0.000.200.400.60概率概率p=0.1p=0.1p=0.2p=0.2p=0.3p=0.3p=0.4p=0.4p=0.5p=0.5p=0.6p=0.6p=0.7p=0.7p=0.8p=0.8p=0.9p=0.90.000.200.400.60概率概率012345值0.000.200.400.60概率概率012345值012345值图图4.1 九个二项分布九个二项分布B(5,p)(p0.1到到0.9)的概率分布图的概率分布图4.3.2 多项分布多项分布l和二项分布最类似的是和二项分布最类似的是多项分布多项分布（multinomial distribution）。l二项分布的每次试验中只有两种可二项分布的每次试验中只有两种可能的结果，而多项分布则在每次试能的结果，而多项分布则在每次试验中有多种可能的结果。验中有多种可能的结果。4.3.2 多项分布多项分布l比如在调查顾客对比如在调查顾客对5个品牌的饮料的选个品牌的饮料的选择中，每种品牌都会以一定的概率中选，择中，每种品牌都会以一定的概率中选，假定这些概率为假定这些概率为p1，p2，p3，p4，p5。每。每次试验的结果只可能有一个，因此这些次试验的结果只可能有一个，因此这些概率的和为概率的和为1，即，即p1+p2+p3+p4+p5=1。l在多项分布问题中（用上面在多项分布问题中（用上面5个品牌的个品牌的例子说明），所关心的是在例子说明），所关心的是在n次试验中次试验中（这里是调查），选择（这里是调查），选择5个品牌的人数个品牌的人数分别为分别为m1，m2，m3，m4，m5的概率。的概率。自然自然m1+m2+m3+m4+m5n。4.3.2 多项分布多项分布l类似于二项分布，多项分布的符号类似于二项分布，多项分布的符号可以为可以为M（n；p1，p2，p3，p4，p5），），也有用也有用“MN”或或“Multi”来表示；来表示；4.3.3 Poisson分布分布l另一个常用离散分布是另一个常用离散分布是Poisson分布分布（翻译成（翻译成“泊松分布泊松分布”或或“普阿松普阿松分布分布”）。）。l它可以认为是衡量某种事件在一定它可以认为是衡量某种事件在一定期间出现的数目的概率。期间出现的数目的概率。l比如说在一定时间内顾客的人数、比如说在一定时间内顾客的人数、打入电话总机电话的个数、放射性打入电话总机电话的个数、放射性物质放射出来并到达某区域的粒子物质放射出来并到达某区域的粒子数等等。数等等。4.3.3 Poisson分布分布l在不同条件下，同样事件在单位时在不同条件下，同样事件在单位时间中出现同等数目的概率不尽相同。间中出现同等数目的概率不尽相同。l比如中午和晚上某商店在比如中午和晚上某商店在10分钟内分钟内出现出现5个顾客的概率就不一定相同。个顾客的概率就不一定相同。l因此，因此，Poisson分布也是一个分布族。分布也是一个分布族。族中不同成员的区别在于事件出现族中不同成员的区别在于事件出现数目的均值数目的均值l l不一样。不一样。4.3.3 Poisson分布分布l参数为参数为l l的的Poisson分布变量的概率分布变量的概率分布为（分布为（p(k)表示表示Poisson变量等于变量等于k的概率）的概率）(),0,1,2,.!kP kekkllk20151050概率.3.2.10.0Poisson 分布P(10)P(6)P(3)参数为参数为3、6、10的的Poisson分布（只标出分布（只标出了了20之内的部分）之内的部分）这里点间的连线没有意义，仅仅为读者容易识别而画，因这里点间的连线没有意义，仅仅为读者容易识别而画，因为为Poisson变量仅取非负整数值变量仅取非负整数值4.3.4 超几何分布超几何分布l假定有一批假定有一批500个产品，而其中有个产品，而其中有5个次品。假定该产品的质量检查采个次品。假定该产品的质量检查采取随机抽取取随机抽取20个产品进行检查。如个产品进行检查。如果抽到的果抽到的20个产品中含有个产品中含有2个或更多个或更多不合格产品，则整个不合格产品，则整个500个产品将会个产品将会被退回。被退回。l这时，人们想知道，该批产品被退这时，人们想知道，该批产品被退回的概率是多少？这种概率就满足回的概率是多少？这种概率就满足超几何分布（超几何分布（hypergeometric distribution）。4.3.4 超几何分布超几何分布l这是一种所谓的这是一种所谓的“不放回抽样不放回抽样”，也就是说，一次抽取若干物品，每也就是说，一次抽取若干物品，每检查一个之后并不放回；检查一个之后并不放回；l超几何分布族的成员被三个参数决超几何分布族的成员被三个参数决定，这里相应于产品总个数定，这里相应于产品总个数n，其中，其中不合格产品数目不合格产品数目m，不放回抽样的，不放回抽样的数目数目t；而样本中有；而样本中有x个不合格产品个不合格产品的概率为的概率为(),0,1,.,mnmxtxp xxtnt 4.4 连续变量的分布连续变量的分布l取连续值的变量，如高度、长度、取连续值的变量，如高度、长度、重量、时间、距离等等；它们被称重量、时间、距离等等；它们被称为连续变量为连续变量(continuous variable)。l换言之，一个随机变量如果能够在换言之，一个随机变量如果能够在一区间（无论这个区间多么小）内一区间（无论这个区间多么小）内取任何值，则该变量称为在此区间取任何值，则该变量称为在此区间内是连续的，其分布称为连续型概内是连续的，其分布称为连续型概率分布。率分布。l它们的概率分布很难准确地用离散它们的概率分布很难准确地用离散变量概率的条形图表示。变量概率的条形图表示。4.4 连续变量的分布连续变量的分布l想象连续变量观测值的直方图；如果其想象连续变量观测值的直方图；如果其纵坐标为相对频数，那么所有这些矩形纵坐标为相对频数，那么所有这些矩形条的高度和为条的高度和为1；完全可以重新设置量；完全可以重新设置量纲，使得这些矩形条的面积和为纲，使得这些矩形条的面积和为1。l不断增加观测值及直方图的矩形条的数不断增加观测值及直方图的矩形条的数目，直方图就会越来越像一条光滑曲线，目，直方图就会越来越像一条光滑曲线，其下面的面积和为其下面的面积和为1。l该曲线即所谓该曲线即所谓概率密度函数概率密度函数(probability density function，pdf)，简称密度函数，简称密度函数或密度。下图为这样形成的密度曲线。或密度。下图为这样形成的密度曲线。(1)(2)(3)(4)-2020.00.10.20.30.4逐渐增加矩形条数目的直方图和一个逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。形状类似的密度曲线。4.4 连续变量的分布连续变量的分布l连续变量落入某个区间的概率就是概率连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的密度函数的曲线在这个区间上所覆盖的面积；因此，理论上，这个概率就是密面积；因此，理论上，这个概率就是密度函数在这个区间上的积分。度函数在这个区间上的积分。l对于连续变量，取某个特定值的概率都对于连续变量，取某个特定值的概率都是零，而只有变量取值于某个（或若干是零，而只有变量取值于某个（或若干个）区间的概率才可能大于个）区间的概率才可能大于0。l连续变量密度函数曲线（这里用连续变量密度函数曲线（这里用f表示）表示）下面覆盖的总面积为下面覆盖的总面积为1，即，即()1f x dx4.4.1 正态分布正态分布l在北京市场上的精制盐很多是一公斤袋在北京市场上的精制盐很多是一公斤袋装，上面标有装，上面标有“净含量净含量1kg”的字样。的字样。但当你用稍微精确一些的天平称那些袋但当你用稍微精确一些的天平称那些袋装盐的重量时，会发现有些可能会重些，装盐的重量时，会发现有些可能会重些，有些可能会轻些；但都是在有些可能会轻些；但都是在1kg左右。左右。多数离多数离1kg不远，离不远，离1kg越近就越可能出越近就越可能出现，离现，离1kg越远就越不可能。越远就越不可能。l一般认为这种重量分布近似地服从最常一般认为这种重量分布近似地服从最常用的用的正态分布正态分布(normal distribution，又，又叫叫高斯分布，高斯分布，Gaussian distribution)。4.4.1 正态分布正态分布l近似地服从正态分布的变量很常近似地服从正态分布的变量很常见，象测量误差、商品的重量或见，象测量误差、商品的重量或尺寸、某年龄人群的身高和体重尺寸、某年龄人群的身高和体重等等。等等。l在一定条件下，许多不是正态分在一定条件下，许多不是正态分布的样本均值在样本量很大时，布的样本均值在样本量很大时，也可用正态分布来近似。也可用正态分布来近似。4.4.1 正态分布正态分布l正态分布的密度曲线是一个对称的正态分布的密度曲线是一个对称的钟型曲线（最高点在均值处）。正钟型曲线（最高点在均值处）。正态分布也是一族分布，各种正态分态分布也是一族分布，各种正态分布根据它们的均值和标准差不同而布根据它们的均值和标准差不同而有区别。有区别。l一个正态分布用一个正态分布用N(m m,s s)表示；其中表示；其中m m为均值，而为均值，而s s为标准差。也常用为标准差。也常用N(m m,s s2 2)来表示，这里来表示，这里s s2 2为方差（标为方差（标准差的平方）。准差的平方）。4.4.1 正态分布正态分布l标准差为标准差为1的正态分布的正态分布N(0,1)称为称为标准正标准正态分布态分布(standard normal distribution)。l标准正态分布的密度函数用标准正态分布的密度函数用f f(x)表示。表示。l任何具有正态分布任何具有正态分布N(m m,s s)的随机变量的随机变量X都都可以用简单的变换（减去其均值可以用简单的变换（减去其均值m m，再，再除以标准差除以标准差s s）：）：Z=(X-m)/sm)/s，而成为标而成为标准正态随机变量。这种变换和标准得分准正态随机变量。这种变换和标准得分的意义类似。的意义类似。-4-20240.00.20.40.60.8N(0,1)N(-2,0.5)两条正态分布的密度曲线。左边是两条正态分布的密度曲线。左边是N(-2,0.5)分布，右边是分布，右边是N(0,1)分布分布 4.4.1 正态分布正态分布l当然，和所有连续变量一样，正态变量落在当然，和所有连续变量一样，正态变量落在某个区间的概率就等于在这个区间上，密度某个区间的概率就等于在这个区间上，密度曲线下面的面积。曲线下面的面积。l比如，标准正态分布变量落在区间比如，标准正态分布变量落在区间(0.51,1.57)中的概率，就是在标准正态密度曲线下面在中的概率，就是在标准正态密度曲线下面在0.51和和1.57之间的面积。之间的面积。l很容易得到这个面积等于很容易得到这个面积等于0.24682；也就是说，；也就是说，标准正态变量在区间标准正态变量在区间(0.51,1.57)中的概率等于中的概率等于0.24682。如果密度函数为。如果密度函数为f f(x)，那么这个面，那么这个面积为积分积为积分1.570.51()0.24682x dxf-4-3-2-10123400.0 50.10.1 50.20.2 50.30.3 50.4P ro b a b ilit y B e t w e e n L im it s is 0.2 4 6 8 2DensityC rit ic a l V a lu e标准正态变量在区间标准正态变量在区间(0.51,1.57)中的中的概率概率4.4.1 正态分布正态分布l我们有必要引进总体的下侧分位数、上我们有必要引进总体的下侧分位数、上侧分位数以及相应的尾概率的概念。侧分位数以及相应的尾概率的概念。l对于连续型随机变量对于连续型随机变量X，a a下侧分位数下侧分位数（又称为（又称为a a分位数，分位数，a a-quantile）定义为）定义为数数xa a，它满足关系，它满足关系()P Xxaa这里的这里的a a又又称为下（左）侧尾概率称为下（左）侧尾概率（lower/left tail probability）4.4.1 正态分布正态分布l而而a a上侧分位数（又称上侧分位数（又称a a上上分位数，分位数，a a-upper quantile）定义为数）定义为数xa a，它，它满足关系满足关系()P Xxaa这里的这里的a a也也称为上（右）侧尾概率称为上（右）侧尾概率（upper/right tail probability）。）。4.4.1 正态分布正态分布l对于非连续型的分布，分位数的对于非连续型的分布，分位数的定义稍微复杂一些；定义稍微复杂一些；l显然，对于连续分布，显然，对于连续分布，a a上侧分上侧分位数等于位数等于(1a)a)下侧分位数，而下侧分位数，而(1a)a)下侧分位数等于下侧分位数等于a a上侧分上侧分位数。位数。4.4.1 正态分布正态分布l通常通常用用za a表示标准正态分布的表示标准正态分布的a a上侧分位数，即对于标准正态分上侧分位数，即对于标准正态分布变量布变量Z，有，有P(Zza a)=a a。l图图4.64.6表示了表示了0.050.05上侧分位数上侧分位数za a=z0.0 50.0 5及相应的尾概率及相应的尾概率（a0.05a0.05）。有些书用符号）。有些书用符号z1 1a a而不是而不是za a；因此在看参考文献时；因此在看参考文献时要注意符号的定义。要注意符号的定义。-3-2-1012300.050.10.150.20.250.30.350.4z valueDensity of N(0,1)Tail Probability for N(0,1)z0.05=1.645P(zz0.05)=a=0.05P(zza a)=a a的示意的示意图图4.4.2 c c2-分布分布l一个由正态变量导出的分布是一个由正态变量导出的分布是c c2-分分布布(chi-square distribution，也翻译，也翻译为卡方分布为卡方分布)。该分布在一些检验中。该分布在一些检验中会用到。会用到。ln个独立正态变量平方和称为有个独立正态变量平方和称为有n个个自由度的自由度的c c2-分布分布,记为记为c c2(n)。c c2-分分布为一族分布布为一族分布,成员由自由度区分。成员由自由度区分。l由于由于c c2-分布变量为正态变量的平方分布变量为正态变量的平方和，它不会取负值。和，它不会取负值。02468100.00.10.20.30.40.5c2(2)c2(3)c2(5)自由度为自由度为2、3、5的的c c2-分布密度曲线图分布密度曲线图4.4.3 t-分布分布l正态变量的样本均值也是正态变量，正态变量的样本均值也是正态变量，能利用减去其均值再除以其能利用减去其均值再除以其(总体总体)标标准差来得到标准正态变量。准差来得到标准正态变量。l但用样本标准差来代替未知的总体但用样本标准差来代替未知的总体标准差时，得到的结果分布就不再标准差时，得到的结果分布就不再是标准正态分布了。它的密度曲线是标准正态分布了。它的密度曲线看上去有些象标准正态分布，但是看上去有些象标准正态分布，但是中间瘦一些，而且尾巴长一些。这中间瘦一些，而且尾巴长一些。这种分布称为种分布称为t-分布分布(t-distribution，或或学生分布，学生分布，Students t)。4.4.3 t-分布分布l不同的样本量通过标准化所产生的不同的样本量通过标准化所产生的t分布也不同分布也不同,这样就形成一族分布。这样就形成一族分布。lt分布族中的成员是以自由度来区分分布族中的成员是以自由度来区分的。这里的自由度等于样本量减去的。这里的自由度等于样本量减去1（如果样本量为（如果样本量为n，刚才定义的，刚才定义的t分分布的自由度为布的自由度为n-1）。）。l由于产生由于产生t分布的方式很多，简单说分布的方式很多，简单说自由度就是样本量减自由度就是样本量减1是不准确的。是不准确的。自由度甚至不一定是整数。自由度甚至不一定是整数。-4-20240.00.10.20.30.4N(0,1)t(1)标准正态分布和标准正态分布和t(1)分布的密度图分布的密度图 4.4.3 t-分布分布l通常通常用用ta a表示表示t分布相应于右侧尾分布相应于右侧尾概率概率a a的的t变量的变量的a a上侧分位数，上侧分位数，即对于即对于t分布变量分布变量T，有，有P(Tta a)=a a。在突出自由度时，也用在突出自由度时，也用tn，a a，也，也有用有用t1 1a a或或tn，1 1a a表示的。表示的。l图图4.94.9表示了自由度为表示了自由度为2的的t(2)分布分布右边的尾概率（右边的尾概率（a0.05a0.05）。-5-4-3-2-101234500.050.10.150.20.250.30.350.4t valueDensity of t(2)Tail Probability for t(2)t0.05=2.92P(tt0.05)=a=0.05P(tta a)=a a的示意图的示意图4.4.4 F-分布分布lF-分布变量为两个分布变量为两个c c2-分布变量分布变量（在除以它们各自自由度之后）（在除以它们各自自由度之后）的比；的比；l而两个而两个c c2-分布的自由度则为分布的自由度则为F-分分布的自由度，因此，布的自由度，因此，F-分布有两分布有两个自由度；第一个自由度等于在个自由度；第一个自由度等于在分子上的分子上的c c2-分布的自由度，第二分布的自由度，第二个自由度等于在分母的个自由度等于在分母的c c2-分布的分布的自由度。自由度。024680.00.20.40.60.81.0F(50,20)F(3,20)自由度为（自由度为（3，20）和（）和（50，20）的的F-分布密度曲线图分布密度曲线图 4.5 累积分布函数累积分布函数l在前面离散分布的情况可以用在前面离散分布的情况可以用p(x)表示该变量取值表示该变量取值x的概率，如果用的概率，如果用大写英文字母大写英文字母X表示相应的随机变表示相应的随机变量，那么概率量，那么概率P(X=x)=p(x)。而。而()()()()()(1)nk mP mXnp kp mp nP XnP Xm4.5 累积分布函数累积分布函数l在连续分布的情况，可以用在连续分布的情况，可以用f(x)表示密度函数，则概率（注意在表示密度函数，则概率（注意在连续分布中，某单独点的概率为连续分布中，某单独点的概率为0，因此下式中的不等式中的等，因此下式中的不等式中的等式可以去掉）式可以去掉）()()()()baP aXbf x dxP XbP Xa4.5 累积分布函数累积分布函数l为了计算概率，只知道密度函数对为了计算概率，只知道密度函数对于查表或应用软件来得到已知分布于查表或应用软件来得到已知分布的概率是不方便的，最好能够知道的概率是不方便的，最好能够知道随机变量小于或等于某值的概率。随机变量小于或等于某值的概率。在上面公式中，如果知道了下面的在上面公式中，如果知道了下面的值就可以计算所需的概率了（统计值就可以计算所需的概率了（统计书中的多数分布表的概率是以下面书中的多数分布表的概率是以下面累积分布函数累积分布函数的形式给出的）：的形式给出的）：(),(),(),()P XmP XnP XaP Xb4.5 累积分布函数累积分布函数l随机变量小于或等于某个数值的概率就称随机变量小于或等于某个数值的概率就称为为累积分布函数累积分布函数(cumulative distribution function，简称，简称cdf)或或分布函数分布函数。l累积分布函数概念的引进，对于查表或使累积分布函数概念的引进，对于查表或使用软件得到概率（根据上面两个公式）是用软件得到概率（根据上面两个公式）是很方便的。多数概率分布表都是以累积分很方便的。多数概率分布表都是以累积分布函数的形式出现的。布函数的形式出现的。l在后面介绍软件时，还要举例说明如何利在后面介绍软件时，还要举例说明如何利用累积分布函数。用累积分布函数。4.6 用小概率事件进行判断用小概率事件进行判断l判明一个事情的真伪，需要用事实说话。判明一个事情的真伪，需要用事实说话。在统计中事实总是来源于数据。在统计中事实总是来源于数据。l假定某药厂声称该厂生产的某种药品有假定某药厂声称该厂生产的某种药品有60的疗效。但是当实际调查了的疗效。但是当实际调查了100名名使用该药物的患者之后，发现有使用该药物的患者之后，发现有40名患名患者服后有效。者服后有效。l这个数据是否支持药厂的说法呢？药厂这个数据是否支持药厂的说法呢？药厂所支持的模型实际上是一个参数为所支持的模型实际上是一个参数为0.6的的Bernoulli试验模型。试验模型。100名患者的服药，名患者的服药，实际上等于进行了实际上等于进行了100次试验。这就是次试验。这就是二项分布二项分布B(100,0.6)模型。模型。4.6 用小概率事件进行判断用小概率事件进行判断l由于使用了药厂的由于使用了药厂的0.6成功概率。这个模成功概率。这个模型是基于药厂的观点的。型是基于药厂的观点的。l可以基于这个模型计算可以基于这个模型计算100名患者中有名患者中有少于或等于少于或等于40名患者治疗有效的概率。名患者治疗有效的概率。l通过计算（或查表，后面会详细描述）通过计算（或查表，后面会详细描述）易得，易得，在药厂观点正确的假定下在药厂观点正确的假定下，这个，这个概率为概率为0.000042。这说明，如果药厂正。这说明，如果药厂正确，那么只有确，那么只有40名患者有效这个事实是名患者有效这个事实是个小概率事件，即个小概率事件，即“少于或等于少于或等于40名患名患者有效者有效”的可能性只有大约十万分之四。的可能性只有大约十万分之四。4.6 用小概率事件进行判断用小概率事件进行判断l这样在药厂的观点和事实之间有这样在药厂的观点和事实之间有了矛盾。是事实准确还是药厂准了矛盾。是事实准确还是药厂准确呢？确呢？l显然人们一般不会认为药厂的说显然人们一般不会认为药厂的说法可以接受。这样，就利用小概法可以接受。这样，就利用小概率事件来拒绝了药厂的说法。率事件来拒绝了药厂的说法。l这种用小概率事件对假定的模型这种用小概率事件对假定的模型进行判断是后面要介绍的假设检进行判断是后面要介绍的假设检验的基础。验的基础。演讲完毕，谢谢观看！

展开阅读全文

MBA统计学04概率和分布

最新文档