SPSS讲义04概率和分布.ppt

上传人:za****8 文档编号:6314323 上传时间:2020-02-22 格式:PPT 页数:88 大小:529.52KB
返回 下载 相关 举报
SPSS讲义04概率和分布.ppt_第1页
第1页 / 共88页
SPSS讲义04概率和分布.ppt_第2页
第2页 / 共88页
SPSS讲义04概率和分布.ppt_第3页
第3页 / 共88页
点击查看更多>>
资源描述
第四章机会的量 概率和分布 概率是0和1之间的一个数目 表示某个事件发生的可能性或经常程度 你买彩票中大奖的机会很小 接近0 但有人中大奖的概率几乎为1你被流星击中的概率很小 接近0 但每分钟有流星击中地球的概率为1你今天被汽车撞上的概率几乎是0但在北京每天发生车祸的概率是1 发生概率很小的事件称为小概率事件 smallprobabilityevent 小概率事件不那么可能发生 但它往往比很可能发生的事件更值得研究 在某种意义上 新闻媒体的主要注意力大都集中在小概率事件上 4 1得到概率的几种途径 1 利用等可能事件如果一个骰子是公平的 那么掷一次骰子会以等可能 概率1 6 6种可能之一 得到1至6点的中的每一个点 抛一个公平的硬币 则以等可能 概率1 2 出现正面或反面 4 1得到概率的几种途径 再如从52张牌中随机抽取一张 那么它是黑桃的概率为抽取黑桃的可能 k 13 和总可能性 n 52 之比 即k n 13 52 1 4 类似地抽到的牌是J Q K A四种 共有16种可能 的概率是16 52 4 13 4 1得到概率的几种途径 其实即使没有学过概率 读者也多半能够算出这些概率 计算这些概率的基础就是事先知道 或者假设 某些事件是等可能的 这种事件为等可能事件 equallylikelyevent 4 1得到概率的几种途径 2 根据长期相对频数事件并不一定是等可能的 或者人们对于其出现的可能性一无所知 这时就要靠观察它在大量重复试验中出现的频率来估计它出现的概率 它约等于事件出现的频数k除以重复试验的次数n 该比值k n称为相对频数 relativefrequency 或频率 4 1得到概率的几种途径 例如 刮发票的中奖密封时 大多得到 谢谢 如果你刮了150张发票 只有3张中奖 你会认为 你的中奖概率大约是3 150 0 02如果一个学生在200次上课时 无故旷课10次 那么其旷课的概率可能被认为接近10 200 0 05 4 1得到概率的几种途径 试验次数n越大则该值越接近于想得到的概率 很多事件无法进行长期重复试验 因此这种通过相对频数获得概率的方法也并不是万能的 虽然如此 用相对频数来确定概率的方法是很常用的 你们可以举出无数类似的例子 4 1得到概率的几种途径 3 主观概率一些概率既不能由等可能性来计算 也不可能从试验得出 比如 你今年想学开车概率 你五年内去欧洲旅游的概率等这种概率称为主观概率 subjectiveprobability 可以说 主观概率是一次事件的概率 或为基于所掌握的信息 某人对某事件发生的自信程度 4 2概率的运算 在掷骰子中 得到6点的概率是1 6 而得到5点的概率也是1 6 那么掷一次骰子得到5或者6的概率是多少呢 在掷10次骰子中有一半或以上的次数得到5或6的概率又是多少呢 读者很快就可能很快会得到答案 但再复杂一些 也许就不简单了 4 2概率的运算 我们需要了解怎样从简单的情况计算稍微复杂情况时的概率 需要读者回忆一下上中学时学过的集合概念 比如两个集合的交和并 互余 互补 等概念 在概率论中所说的事件 event 相当于集合论中的集合 set 而概率则是事件的某种函数 为什么会这么说呢 让我们看掷两个骰子的试验 4 2概率的运算 如所关心的是两骰子点数之和 则下表包含了所有36种可能试验结果的搭配和相应的点数和 可以看出 如果我们考虑点数和等于2的事件 则仅有一种可能的试验结果 两个骰子均为一点 而如果我们考虑点数和等于7的事件 则有六种可能的试验结果 两个骰子点数之和总共有2至12等11种可能 即有11种可能的事件 而这11种事件相应于上面所说的36种可能的试验结果的一些集合 这些事件和试验结果的集合归纳在下面表中 4 2概率的运算 1 互补事件的概率 如果今天下雨的概率是10 则今天不下雨的概率就是90 如果你中奖的概率是0 0001 那么不中奖的概率就是1 0 0001 0 9999 这种如果一个不出现 则另一个肯定出现的两个事件称为互补事件 complementaryevents 或者互余事件或对立事件 4 2概率的运算 1 互补事件的概率 按照集合的记号 如果一个事件记为A 那么另一个记为AC 称为A的余集或补集 显然互补事件的概率之和为1 即P A P AC 1 或者P AC 1 P A 在西方赌博时常常爱用优势或赔率 odds 来形容输赢的可能 它是互补事件概率之比 即P A P AC P A 1 P A 来表示 4 2概率的运算 2 概率的加法 如果两个事件不可能同时发生 那么至少其中之一发生的概率为这两个概率的和 比如 掷一次骰子得到3或者6点 的概率是 得到3点 的概率与 得到6点 的概率之和 即1 6 1 6 1 3 但是如果两个事件可能同时发生时这样做就不对了 4 2概率的运算 2 概率的加法 假定掷骰子时 一个事件A为 得到偶数点 有3种可能 2 4 6点 另一个事件B为 得到大于或等于3点 有4种可能 3 4 5 6点 这样 事件A的概率显然等于3 6 1 2 即P A 1 2 而事件B的概率为P B 4 6 2 3 但是 得到大于或等于3点或者偶数点 的事件的概率就不是P A P B 1 2 2 3 7 6了 4 2概率的运算 2 概率的加法 这显然多出来了 概率怎么能够大于1呢 按照中学时关于集合的记号 该事件称为A和B的并 记为A B 刚才多出来的部分就是A和B的共同部分A B 称为A和B的交 的概率 这个概率算了两遍 它为 得到既是偶数 又大于等于3 的部分 即4和6两点 出现事件4或者6的概率为1 6 1 6 1 3 4 2概率的运算 2 概率的加法 于是应该把算重了的概率减去 这样 得到大于或等于3点或者偶数点 的事件A B的概率就是P A B P A P B P A B 1 2 2 3 1 3 5 6 这种P A B P A P B P A B 的公式也适用于两个不可能同时发生的事件 但因为那时P A B 0 所以只剩下P A B P A P B 了 4 2概率的运算 2 概率的加法 这种交等于空集 A B F 这里F表示空集或空事件 的事件为两个不可能同时发生的事件 称为互不相容事件 mutuallyexclusiveevents 4 2概率的运算 3 概率的乘法 如果你有一个固定电话和一个手机 假定固定电话出毛病的概率为0 01 而手机出问题的概率为0 05 那么 两个电话同时出毛病的概率是多少呢 聪明的读者马上会猜出 是0 01 0 05 0 0005 但是这种乘法法则 即P A B P A P B 仅仅在两个事件独立 independent 时才成立 4 2概率的运算 3 概率的乘法 如果事件不独立则需要引进条件概率 conditionalprobability 比如三个人抽签 而只有一个人能够抽中 因此每个人抽中的机会是1 3 假定用A1 A2和A3分别代表这三个人抽中的事件 那么 P A1 P A2 P A3 1 3 4 2概率的运算 3 概率的乘法 但是由于一个人抽中 其他人就不可能抽中 所以 这三个事件不独立 刚才的乘法规则不成立 这时 P A1 A3 P A1 A2 P A2 A3 0 如错误照搬乘法规则会得到错误的 1 3 2 1 9 4 2概率的运算 3 概率的乘法 但是可以计算条件概率 比如第一个人抽到 事件A1 则在这个条件下其他两个人抽到的概率都为0 记为P A2 A1 P A3 A1 0 如第一个人没有抽到 事件A1C 那么其他两人抽到的概率均为1 2 记为P A2 A1C P A3 A1C 1 2 4 2概率的运算 3 概率的乘法 一般地 在一个事件B已经发生的情况下 事件A发生的条件概率定义为 贝叶斯公式 离散型随机变量与连续型随机变量 第四章概率与概率分布 分布 随机变量取一切可能值或范围的概率或概率的规律称为概率分布 probabilitydistribution 简称分布 概率分布可以用各种图或表来表示 一些可以用公式来表示 概率分布是关于总体的概念 有了概率分布就等于知道了总体 分布 前面介绍过的样本均值 样本标准差和样本方差等样本特征的概念是相应的总体特征的反映 我们也有描述变量 位置 的总体均值 总体中位数 总体百分位数以及描述变量分散 集中 程度的总体标准差和总体方差等概念 4 3离散变量的分布 离散变量只取离散的值 比如骰子的点数 网站点击数 顾客人数等等 每一种取值都有某种概率 各种取值点的概率总和应该是1 当然离散变量不不仅仅限于取非负整数值 一般来说 某离散随机变量的每一个可能取值xi都相应于取该值的概率p xi 这些概率应该满足关系 4 3 1二项分布 最简单的离散分布应该是基于可重复的有两结果 比如成功和失败 的相同独立试验 每次试验成功概率相同 的分布 例如抛硬币 比如用p代表得到硬币正面的概率 那么1 p则是得到反面的概率 如果知道p 这个抛硬币的试验的概率分布也就都知道了 4 3 1二项分布 这种有两个可能结果的试验有两个特点 一是各次试验互相独立 二是每次试验得到一种结果的概率不变 这里是得到正面的概率总是p 类似于抛硬币的仅有两种结果的重复独立试验被称为Bernoulli试验 Bernoullitrials 4 3 1二项分布 下面试验可看成为Bernoulli试验 每一个进入某商场的顾客是否购买某商品每个被调查者是否认可某种产品每一个新出婴儿的性别 根据这种简单试验的分布 可以得到基于这个试验的更加复杂事件的概率 4 3 1二项分布 为了方便 人们通常称Bernoulli试验的两种结果为 成功 和 失败 和Bernoulli试验相关的最常见的问题是 如果进行n次Bernoulli试验 每次成功的概率为p 那么成功k次的概率是多少 这个概率的分布就是所谓的二项分布 binomialdistribution 4 3 1二项分布 这个分布有两个参数 一个是试验次数n 另一个是每次试验成功的概率p 基于此 二项分布用符号B n p 或Bin n p 表示 由于n和p可以根据实际情况取各种不同的值 因此二项分布是一族分布 族内的分布以这两个参数来区分 4 3 1二项分布 二项分布的概率通常用二项分布表来查出 但一般统计软件可以很容易得到这个概率 在目前统计软件发达的情况下 涉及的二项分布一般都自动处理了 在处理实际问题中很少会遇到直接计算二项分布概率的情况 4 3 1二项分布 但这里还是给出其一般公式 下面p k 代表在n次Bernoulli试验中成功的次数的概率 p为每次试验成功的概率 有 这里 为二项式系数 或记为 图4 1九个二项分布B 5 p p 0 1到0 9 的概率分布图 4 3 3Poisson分布 另一个常用离散分布是Poisson分布 翻译成 泊松分布 或 普阿松分布 它可以认为是衡量某种事件在一定期间出现的数目的概率 比如说在一定时间内顾客的人数 打入电话总机电话的个数 放射性物质放射出来并到达某区域的粒子数等等 4 3 3Poisson分布 在不同条件下 同样事件在单位时间中出现同等数目的概率不尽相同 比如中午和晚上某商店在10分钟内出现5个顾客的概率就不一定相同 因此 Poisson分布也是一个分布族 族中不同成员的区别在于事件出现数目的均值l不一样 4 3 3Poisson分布 参数为l的Poisson分布变量的概率分布为 p k 表示Poisson变量等于k的概率 参数为3 6 10的Poisson分布 只标出了20之内的部分 这里点间的连线没有意义 仅仅为读者容易识别而画 因为Poisson变量仅取非负整数值 4 3 4超几何分布 假定有一批500个产品 而其中有5个次品 假定该产品的质量检查采取随机抽取20个产品进行检查 如果抽到的20个产品中含有2个或更多不合格产品 则整个500个产品将会被退回 这时 人们想知道 该批产品被退回的概率是多少 这种概率就满足超几何分布 hypergeometricdistribution 4 3 4超几何分布 这是一种所谓的 不放回抽样 也就是说 一次抽取若干物品 每检查一个之后并不放回 超几何分布族的成员被三个参数决定 这里相应于产品总个数n 其中不合格产品数目m 不放回抽样的数目t 而样本中有x个不合格产品的概率为 离散型随机变量的数学期望和方差 离散型随机变量的数学期望 expectedvalue 离散型随机变量X的所有可能取值xi与其取相对应的概率pi乘积之和描述离散型随机变量取值的集中程度记为 或E X 计算公式为 离散型随机变量的方差 variance 随机变量X的每一个取值与期望值的离差平方和的数学期望 记为 2或D X 描述离散型随机变量取值的分散程度计算公式为方差的平方根称为标准差 记为 或 离散型数学期望和方差 例题分析 例 一家电脑配件供应商声称 他所提供的配件100个中拥有次品的个数及概率如下表 每100个配件中的次品数及概率分布 求该供应商次品数的数学期望和标准差 4 4连续变量的分布 取连续值的变量 如高度 长度 重量 时间 距离等等 它们被称为连续变量 continuousvariable 换言之 一个随机变量如果能够在一区间 无论这个区间多么小 内取任何值 则该变量称为在此区间内是连续的 其分布称为连续型概率分布 它们的概率分布很难准确地用离散变量概率的条形图表示 4 4连续变量的分布 想象连续变量观测值的直方图 如果其纵坐标为相对频数 那么所有这些矩形条的高度和为1 完全可以重新设置量纲 使得这些矩形条的面积和为1 不断增加观测值及直方图的矩形条的数目 直方图就会越来越像一条光滑曲线 其下面的面积和为1 该曲线即所谓概率密度函数 probabilitydensityfunction pdf 简称密度函数或密度 下图为这样形成的密度曲线 逐渐增加矩形条数目的直方图和一个形状类似的密度曲线 4 4连续变量的分布 连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积 因此 理论上 这个概率就是密度函数在这个区间上的积分 对于连续变量 取某个特定值的概率都是零 而只有变量取值于某个 或若干个 区间的概率才可能大于0 连续变量密度函数曲线 这里用f表示 下面覆盖的总面积为1 即 4 4 1正态分布 在北京市场上的精制盐很多是一公斤袋装 上面标有 净含量1kg 的字样 但当你用稍微精确一些的天平称那些袋装盐的重量时 会发现有些可能会重些 有些可能会轻些 但都是在1kg左右 多数离1kg不远 离1kg越近就越可能出现 离1kg越远就越不可能 一般认为这种重量分布近似地服从最常用的正态分布 normaldistribution 又叫高斯分布 Gaussiandistribution 4 4 1正态分布 近似地服从正态分布的变量很常见 象测量误差 商品的重量或尺寸 某年龄人群的身高和体重等等 在一定条件下 许多不是正态分布的样本均值在样本量很大时 也可用正态分布来近似 4 4 1正态分布 正态分布的密度曲线是一个对称的钟型曲线 最高点在均值处 正态分布也是一族分布 各种正态分布根据它们的均值和标准差不同而有区别 一个正态分布用N m s 表示 其中m为均值 而s为标准差 也常用N m s2 来表示 这里s2为方差 标准差的平方 4 4 1正态分布 标准差为1的正态分布N 0 1 称为标准正态分布 standardnormaldistribution 标准正态分布的密度函数用f x 表示 任何具有正态分布N m s 的随机变量X都可以用简单的变换 减去其均值m 再除以标准差s Z X m s 而成为标准正态随机变量 这种变换和标准得分的意义类似 两条正态分布的密度曲线 左边是N 2 0 5 分布 右边是N 0 1 分布 4 4 1正态分布 当然 和所有连续变量一样 正态变量落在某个区间的概率就等于在这个区间上 密度曲线下面的面积 比如 标准正态分布变量落在区间 0 51 1 57 中的概率 就是在标准正态密度曲线下面在0 51和1 57之间的面积 很容易得到这个面积等于0 24682 也就是说 标准正态变量在区间 0 51 1 57 中的概率等于0 24682 如果密度函数为f x 那么这个面积为积分 标准正态变量在区间 0 51 1 57 中的概率 4 4 1正态分布 我们有必要引进总体的下侧分位数 上侧分位数以及相应的尾概率的概念 对于连续型随机变量X a下侧分位数 又称为a分位数 a quantile 定义为数xa 它满足关系 这里的a又称为下 左 侧尾概率 lower lefttailprobability 4 4 1正态分布 而a上侧分位数 又称a上分位数 a upperquantile 定义为数xa 它满足关系 这里的a也称为上 右 侧尾概率 upper righttailprobability 4 4 1正态分布 对于非连续型的分布 分位数的定义稍微复杂一些 显然 对于连续分布 a上侧分位数等于 1 a 下侧分位数 而 1 a 下侧分位数等于a上侧分位数 4 4 1正态分布 通常用za表示标准正态分布的a上侧分位数 即对于标准正态分布变量Z 有P Z za a 图4 6表示了0 05上侧分位数za z0 05及相应的尾概率 a 0 05 有些书用符号z1 a而不是za 因此在看参考文献时要注意符号的定义 N 0 1 分布右侧尾概率P z za a的示意图 4 4 2c2 分布 一个由正态变量导出的分布是c2 分布 chi squaredistribution 也翻译为卡方分布 该分布在一些检验中会用到 n个独立正态变量平方和称为有n个自由度的c2 分布 记为c2 n c2 分布为一族分布 成员由自由度区分 由于c2 分布变量为正态变量的平方和 它不会取负值 自由度为2 3 5的c2 分布密度曲线图 4 4 3t 分布 正态变量的样本均值也是正态变量 能利用减去其均值再除以其 总体 标准差来得到标准正态变量 但用样本标准差来代替未知的总体标准差时 得到的结果分布就不再是标准正态分布了 它的密度曲线看上去有些象标准正态分布 但是中间瘦一些 而且尾巴长一些 这种分布称为t 分布 t distribution 或学生分布 Student st 4 4 3t 分布 不同的样本量通过标准化所产生的t分布也不同 这样就形成一族分布 t分布族中的成员是以自由度来区分的 这里的自由度等于样本量减去1 如果样本量为n 刚才定义的t分布的自由度为n 1 由于产生t分布的方式很多 简单说自由度就是样本量减1是不准确的 自由度甚至不一定是整数 标准正态分布和t 1 分布的密度图 4 4 3t 分布 通常用ta表示t分布相应于右侧尾概率a的t变量的a上侧分位数 即对于t分布变量T 有P T ta a 在突出自由度时 也用tn a 也有用t1 a或tn 1 a表示的 图4 9表示了自由度为2的t 2 分布右边的尾概率 a 0 05 t 2 分布右侧尾概率P t ta a的示意图 4 4 4F 分布 F 分布变量为两个c2 分布变量 在除以它们各自自由度之后 的比 而两个c2 分布的自由度则为F 分布的自由度 因此 F 分布有两个自由度 第一个自由度等于在分子上的c2 分布的自由度 第二个自由度等于在分母的c2 分布的自由度 自由度为 3 20 和 50 20 的F 分布密度曲线图 4 5累积分布函数 在前面离散分布的情况可以用p x 表示该变量取值x的概率 如果用大写英文字母X表示相应的随机变量 那么概率P X x p x 而 4 5累积分布函数 在连续分布的情况 可以用f x 表示密度函数 则概率 注意在连续分布中 某单独点的概率为0 因此下式中的不等式中的等式可以去掉 4 5累积分布函数 为了计算概率 只知道密度函数对于查表或应用软件来得到已知分布的概率是不方便的 最好能够知道随机变量小于或等于某值的概率 在上面公式中 如果知道了下面的值就可以计算所需的概率了 统计书中的多数分布表的概率是以下面累积分布函数的形式给出的 4 5累积分布函数 随机变量小于或等于某个数值的概率就称为累积分布函数 cumulativedistributionfunction 简称cdf 或分布函数 累积分布函数概念的引进 对于查表或使用软件得到概率 根据上面两个公式 是很方便的 多数概率分布表都是以累积分布函数的形式出现的 在后面介绍软件时 还要举例说明如何利用累积分布函数 4 6用小概率事件进行判断 判明一个事情的真伪 需要用事实说话 在统计中事实总是来源于数据 假定某药厂声称该厂生产的某种药品有60 的疗效 但是当实际调查了100名使用该药物的患者之后 发现有40名患者服后有效 这个数据是否支持药厂的说法呢 药厂所支持的模型实际上是一个参数为0 6的Bernoulli试验模型 100名患者的服药 实际上等于进行了100次试验 这就是二项分布B 100 0 6 模型 4 6用小概率事件进行判断 由于使用了药厂的0 6成功概率 这个模型是基于药厂的观点的 可以基于这个模型计算100名患者中有少于或等于40名患者治疗有效的概率 通过计算 或查表 后面会详细描述 易得 在药厂观点正确的假定下 这个概率为0 000042 这说明 如果药厂正确 那么只有40名患者有效这个事实是个小概率事件 即 少于或等于40名患者有效 的可能性只有大约十万分之四 4 6用小概率事件进行判断 这样在药厂的观点和事实之间有了矛盾 是事实准确还是药厂准确呢 显然人们一般不会认为药厂的说法可以接受 这样 就利用小概率事件来拒绝了药厂的说法 这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础 4 6大数定律与中心极限定理 一 大数定律 阐述大量随机变量的平均结果具有稳定性的一系列定律的总称 独立同分布大数定律 提供了用样本平均数估计总体平均数的理论依据 贝努力大数定律 贝努力大数定律 提供了用频率代替概率的理论依据 中心极限定理 二 中心极限定理 阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称 独立同分布的中心极限定理 结论 不论总体服从何种分布 只要它的数学期望和方差存在 从中抽取容量为n的样本 当n充分大时 则这个样本的总和或平均数是服从正态分布的随机变量 德莫佛 拉普拉斯中心极限定理 该定理提供了用正态分布近似计算二项分布概率的方法 例 对于一个学生而言 来参加家长会的家长人数是一个随机变量 设一个学生无家长 1名家长 2名家长来参加会议的概率分别为0 05 0 8 0 15 若学校共有400名学生 设各学生参加会议的家长数相互独立 且服从同一分布 1 求参加会议的家长数X超过450的概率 2 求有1名家长来参加会议的学生数不多于340的概率 解 1 以Xk k 1 2 400 记第k个学生来参加会议的家长数 则Xk的分布律为 易知E Xk 1 1 D Xk 0 19k 1 2 400 而 2 以Y记有一名家长来参加会议的学生人数 则Y b 400 0 8 由中心极限定理得
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!