统计学概念和方法-第5章.ppt

上传人:sh****n 文档编号:9121752 上传时间:2020-04-03 格式:PPT 页数:43 大小:1,015.50KB
返回 下载 相关 举报
统计学概念和方法-第5章.ppt_第1页
第1页 / 共43页
统计学概念和方法-第5章.ppt_第2页
第2页 / 共43页
统计学概念和方法-第5章.ppt_第3页
第3页 / 共43页
点击查看更多>>
资源描述
第五章概率 数学与信息科学学院王坤TEL 13987460215fellowang 统计学概念和方法 主要内容 怎样得到概率概率的计算优势 概率的对照物离散变量的概率分布连续变量的概率分布使用概率来核对假设决策分析 利用概率来作决策小结 概率 又称或然率 机会率或机率 可能性 是一个在0到1之间的实数 是对随机事件发生的可能性的度量 小概率 接近零 事件很少发生 而大概率 接近1 的事件经常发生 概率为零的事件称为不可能事件 概率为1的事件称为必然事件 5 1怎样得到概率 利用等可能性事件 古典概率 例如骰子 扑克牌游戏 如果一个实验总共有n种可能的结果 一个有k种输出的事件子集 那么k n就是这个事件子集出现的概率 使用相对频数的方法 在一定条件下 重复做n次试验 nA为n次试验中事件A发生的次数 如果随着n逐渐增大 频率nA n逐渐稳定在某一数值p附近 则数值p称为事件A在该条件下发生的概率 记做P A p 这里 概率是一个长期的比率 是长期观察某一事件的结果 例如 通过多年的记录得知 在新生儿中女孩的概率为0 49 相对频数也称为统计概率 利用主观概率 甲乙丙丁私人一早去办事 要傍晚才回来 为了决定是否带伞 各自在出发前 对A 今天下午6时前不会下雨 这个事件发生的可能性大小作个估计 根据个人的经验和自信 甲乙丙丁分别把这个可能性估计为0 1 0 2 0 7和1 这些数字反映了四个人对一种情况的主观估计 称为主观概率 主观概率是个人根据经验和知识 对事件发生的一种心态或者倾向性的预测 例对以下情况应用哪种概率 a 等可能事件 b 相对频数 c 主观概率问题 1 一个有十年历史的短途航空公司继续保持无事故记录 2 玩扑克牌的人从一幅牌中抽出一张A 3 曲靖12月底下雪的厚度大于20厘米 4 明天郊游时下雨 5 一个家庭的双胞胎数 5 2概率的计算 对立事件概率公式 差事件概率公式 和事件概率公式 独立事件积概率公式 其中A B为独立事件 两独立事件发生的概率比其中任何一个事件单独发生的概率要小 5 3优势 概率的对照物 如果我们知道一个事件发生的优势是a比b 那么事件发生的概率p的计算方法为p b a b 或p b a 1 b a 优势 1 优势 如果已知事件发生的概率p 则优势b a p 1 p 优势通常表为整数 例1993年 在国际奥委会决定2000年奥运会的举办城市之前 伦敦的赌场经营人给出了他们认为的奥运会主办城市的优势如右表所示 很明显 赌场经营者认为悉尼很可能成为主办地 而巴西利亚则不大可能 优势往往可以理解为赌注与赢得的比例 如果复杂事件的概率很难直接计算得到 可以应用简单事件发生的概率来计算复杂事件的概率 为了节省精力 前人通过预先制定各种概率问题的解决方法 给出了这些问题中变量取值及其概率的分布规律 这就是概率分布律 常见的变量有离散变量和连续型变量 5 4离散变量的概率分布 二项分布 问题 通过长期的观测 新生儿中女孩的概率为0 49 那么一个有四个孩子的家庭中有三个女孩和一个男孩的概率的多少 假设二元变量的两个取值为成功和失败 用p来代表成功的概率 则失败的概率为1 p 在n个观察值的样本中 设成功的次数为k次 则 在上面那个例子中 如果n 4 k 3 p 0 49 那么三次成功一次失败的概率是 二项分布通常只在小样本时使用 若n很大 一般用正态分布来近似它 泊松 Poisson 分布 如果用 来表示事件发生的次数 那么事件发生k次的概率可以表示为 事件发生次数的均值 标准差 sqrt 例如 如果小时内手机平均响2 1次 那么一个小时内手机响5次的频率为多少 泊松分布可作为描述大量试验中稀有事件出现次数 概率与时间间隔有关 的概率分布模型 如生产瑕疵次数 流星数 顾客到访数等 超几何分布 假设所有事件的总数是n 某事件是b个 另一种是r个 从n个事件中随机的选择m个并且属于无放回选择 那么某事件出现k次的概率为 5 5连续变量的概率分布 大部分用于分析的统计数据来自连续变量 即在任意两个值之间还有其他的值 如时间 重量 距离等 四个理论变量 标准正态z 变量 t 变量 x2变量 F 变量 标准正态分布N 0 1 curve dnorm x 0 1 from 3 to 3 横坐标为变量的取值 纵坐标为概率值曲线与横轴围成的面积为1 期望值 0 即曲线图象对称轴为Y轴 标准差 1条件下的正态分布 记为N 0 1 标准正态分布N 0 1 曲线 面积分布规律是 在 1 96 1 96范围内曲线下的面积等于0 9500 在 2 58 2 58范围内曲线下面积为0 9900 因为曲线是对称的 随机抽到的大于或等于1 96的概率为0 025 小于或等于 1 96的概率为0 025 变量的值称为z得分 回顾标准分的含义 一般的正态分布记为N 2 正态分布的概率密度函数曲线呈钟形 因此人们又经常称之为钟形曲线 正态分布的由来 正态分布是最重要的一种概率分布 正态分布概念是由德国的数学家和天文学家DMoivre于1733年首次提出的 但由于德国数学家Gauss 1777 1855 率先将其应用于天文学家研究 故正态分布又叫高斯分布 高斯这项工作对后世的影响极大 他使正态分布同时有了 高斯分布 的名称 后世之所以多将最小二乘法的发明权归之于他 也是出于这一工作 高斯是一个伟大的数学家 重要的贡献不胜枚举 t 分布 curve dt x 10 from 3 to 3 横坐标为变量的取值 纵坐标为概率值曲线与横轴围成的面积为1 自由度为10的t 分布 t 分布是一族分布 记为t n n称为自由度 t 分布是以0为中心 均值为0 左右对称的单峰分布 t分布是一簇曲线 其形态变化与自由度n大小有关 自由度n越小 t分布曲线越低平 自由度n越大 t分布曲线越接近标准正态分布曲线N 0 1 t 分布和正态分布 t 10 和N 0 1 曲线形状基本相同 但是正态分布的中部较高 t 分布在水平轴上的收敛不像正态分布那么快 这表明t分布在其均值周围聚集程度比正态分布要差一些 t分布的自由度越大 则该t分布的曲线就越接近正态分布 在自由度大于30以后 就很难说出这两种曲线的差异了 在自由度等于50时 这两种曲线就几乎相同了 自由度大于100时 通常使用正态分布来代替 t分布历史 t分布是由WilliamGosset于1908年首次发表 他在都柏林的吉尼斯 Guinness 啤酒厂工作 当时公司禁止雇员发表任何东西 因此 他以笔名学生 student 发表了t分布 t检验和相关的理论 student st t分布适用于小样本情形 由于戈塞特开创的理论使统计学开始由大样本向小样本 由描述向推断发展 因此 有人把戈塞特推崇为推断统计学的先驱者 x2分布 curve dchisq x 3 from 0 to 15 自由度为3的x2分布 横坐标为变量的取值 纵坐标为概率值曲线与横轴围成的面积为1 若n个相互独立的随机变量 1 2 n 均服从标准正态分布 则这n个服从标准正态分布的随机变量的平方和 i2构成一新的随机变量 其分布规律称为x2 n 分布 chi squaredistribution 其中参数n称为自由度 自由度不同就是另一个x2分布 不同的自由度决定不同的卡方分布 自由度越小 分布越偏斜 2分布的均值为自由度n 方差为2n x2分布在第一象限内 随着参数n的增大 x2分布趋近于正态分布 F 分布 curve df x 4 20 from 0 to 5 F 4 20 横坐标为变量的取值 纵坐标为概率值曲线与横轴围成的面积为1 上图是自由度为4和40的F分布 F分布有两个自由度 这两个自由度位置不可调换 设U X2 n1 V X2 n2 则称服从自由度为 n1 n2 的F 分布 记为F F n1 n2 从上图可知 F 变量也是非负的 F分布的取值大部分在0 到5之间变化 在自由度小时 F 值要大些 F分布是以统计学家R A Fisher姓氏的第一个字母命名的 由F分布表 5 的F 值大于2 45 而只有1 的F 值大于3 51 当我们从数据计算一个服从自由度为4和40的F 分布的值并发现它大于2 35 或甚至大于3 51 那么我们就发现了一个不寻常的F 值 正态分布数据的需要使用上述分布解决问题时须考虑数据本身是否服从正态分布 5 6使用概率来核对假设 例硬币是公平的吗 假设一个魔术师掷了10次硬币 每一次都出现正面 如何辨别硬币真假与公平呢 根据二项分布公式 十次硬币朝上的概率为 1 2 10 1 1024 0 001 意味作1024次试验才会出现此种情况 接下来考虑 a 假设硬币是真的 那么出现上述情况的概率小于0 001 b 假设硬币为真是假的 出现上述情况的概率大于0 001 该选择a还是b呢 事实上 大概率的事件要比小概率事件更加经常发生 根据K Pearson的实际推断原理 小概率事件 发生概率小于0 05的事件 在一次试验中不可能发生 我们可以说 这枚硬币是假的 也许两面都是正面 5 7决策分析 利用概率来作决策 小结 问题 概率的同义词是 a 二项分布的二项是什么思 b 二项变量的不同值的概率之和等于什么 标准正态分布 a 标准正态曲线下的总面积为 b 标准正态分布的z变量的均值为多少 c 95 的z得分取值在哪两个值之间 由制酒专家发现的分布叫什么分布 他使用的假名是什么 如何区分t分布族中的各个分布 机率 或然率 可能性A 变量有两个取值 b 1a 1b 0c 1 96到 1 96T分布 自由度不同 如果有人告诉你 他得到某个特定问题的x2值为 11 11 你的反应是什么 除了很小的自由度之外 F变量的一般取值范围是什么 根据这段文字 z大于2 5的概率等于0 0062 而10个自由度的t变量大于2 5的概率等于0 0152 a 对哪一个变量更可能找出大于2 5的数 b 为什么z变量与t变量此时有区别 c 什么能使这两个统计量之间的差别变得非常小 X2分布位于第一象限 绝无负值 0到5之间a t变量b t变量的自由度太小c 增加t变量的自由度n 扔十次公平硬币 出现8次正面的概率是多少 大于8次正面的概率又是多少 根据左边的表 问 a 随机选择一个云南人半年内可支配收入大于 10442 3的概率是多少 b 随机选择十个云南人 所有半年可支配收入大于 10442 3的概率是多少 注 上表中数字为中位数 在德国家庭中 拥有一辆porsche的概率是0 07 有一辆mercedes的概率是0 29 假设拥有两辆车相互独立 a 有一辆porsche或一辆mercedes的概率是多少 b 同时有一辆porsche和一辆mercedes的概率是多少 c 这两辆车一辆也没有的概率是多少 Theend 谢谢
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!