数据、模型与决策课件

资源描述

数据、模型与决策数据、模型与决策Data,Models and Decisions数据、模型与决策数据、模型与决策Data,Models and Deci1n n1、主要讲授课程：n n计量经济学、运筹学、经济预测与决策技术n n2、主要研究方向：n n多元统计n n半参数统计中估计问题n n因果效应推断1、主要讲授课程：、主要讲授课程：2本课程的主要内容本课程的主要内容n数据分析的基本内容n计量模型的基本方法n预测与决策的基本技术n软件的简单应用本课程的主要内容数据分析的基本内容本课程的主要内容数据分析的基本内容3 本课程的特点本课程的特点数据、模型与决策流程数据、模型与决策流程结论决策执行结果管理者信息提供模型反馈数据、模型与决策的目的数据、模型与决策的目的是在科学、符合是在科学、符合逻辑和合理的基础上制定决策逻辑和合理的基础上制定决策本课程的特点本课程的特点数据、模型与决策流程结论决策执数据、模型与决策流程结论决策执4 特点：特点：n n以数据为基础。将数据作为基本的信息来源，以对实际问题的了解为基本结构，以数据对结构的吻合程度为标准。n n以模型为手段。以数学理论与方法为工具定量研究社会经济现象之间的关系，形成较严密的研究特色，具有较好的可试验性。n n决策是目的且具有量的特征，定量可以对问题的描述较精确，能对问题的本质进行深入、广泛的推断，为科学决策提供依据。n n是一门多学科交叉的科学，数理统计学与运筹学、管理学是其基础n n计算机技术是必不可少的工具。特点：以数据为基础。将数据作为基本的信息来源，以对实际问题特点：以数据为基础。将数据作为基本的信息来源，以对实际问题5实际问题实际问题1：资源分配问题：资源分配问题n潘得罗索工业公司生产胶合板，根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售，产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为（1）四种类型的原木（根据原木的质量区分）和（2）生产胶合板的两项关键作业的生产能力（模压作业和刨光作业）。你们公司有这样你们公司有这样的经历吗？的经历吗？实际问题实际问题1：资源分配问题潘得罗索工业公司生产胶合板，根据厚度：资源分配问题潘得罗索工业公司生产胶合板，根据厚度6实际问题实际问题2：销售量评估：销售量评估n某食品公司生产各种系列的冷饮食品，冷饮食品生产是季节性，需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划，包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划，以满足市场的需要。如何来预测客户的需求量呢？n预测对生产计划有多重要？预测对生产计划有多重要？实际问题实际问题2：销售量评估某食品公司生产各种系列的冷饮食品，冷饮：销售量评估某食品公司生产各种系列的冷饮食品，冷饮7案例案例1 n n有兄弟姐妹一起成长，不仅增添亲情，而且有预防疾病的好处n n一项来自澳大利亚的研究表明：兄弟姐妹在6岁之前的相互传染病毒可以增强免疫功能，并预防多发性硬化症。n n塔斯马尼亚州研究者观察了136名多发性硬化症患者，并与272名健康者进行了对比。有兄弟姐妹的人得病少案例案例1 有兄弟姐妹一起成长，不仅增添亲情，而且有预防疾病的好有兄弟姐妹一起成长，不仅增添亲情，而且有预防疾病的好8n n科学家发现：在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发性硬化症的几率下降了88%，而与兄弟姐妹接触1-3年的人可降低43%。科学家发现：在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发科学家发现：在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发9案例案例2n n科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不住，小动作很多，日常消耗的热量就多，就能保持苗条的身材。n n美国梅欧医院请来了20位志愿者，进行了为期一年的研究。志愿者分为两组，一组较瘦，另一组轻度微胖。所有志愿者都穿上一种带有传感器的特制内衣，内衣里的装置每隔半秒钟记录一次人体的姿态与活动“坐立不安”让人苗条案例案例2科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不10n n志愿者照常进行他们的日常工作与活动，所有食物由研究人员提供n n研究人员发现，轻度微胖者更喜欢坐着，而身材苗条组的人闲不住。瘦人组的平均“坐立不安”的时间比胖人组多2个小时，相当于多消耗350卡热量n n如果胖人组也这么不“消停”的话，一年下来完全可以减轻14-18磅的体重n n此外，研究人员还发现：一个人爱动还是喜静是天生的，与体重无关。在研究的第二阶段，让瘦人多吃1000卡志愿者照常进行他们的日常工作与活动，所有食物由研究人员提供志愿者照常进行他们的日常工作与活动，所有食物由研究人员提供11n n热量，胖人少吃1000卡热量，他们的生活习惯没有改变。n n这项研究为肥胖者提供了新的希望。以上几个问题说明在现实生活中，不管是进行决策还是进行研究发现新结果，都离不开数据。热量，胖人少吃热量，胖人少吃1000卡热量，他们的生活习惯没有改变。卡热量，他们的生活习惯没有改变。12第一章、数据与数据展示第一章、数据与数据展示n n1.数据概述：可分为科学数据、社会数据、商业数据。（依来源与用途）n n分类：数值型与属性型静态数据与动态数据时间序列数据、截面数据、面板数据定类数据、定序数据、定距数据与定比数据第一章、数据与数据展示第一章、数据与数据展示1.数据概述：可分为科学数据、社会数据数据概述：可分为科学数据、社会数据13（一）数据的来源（一）数据的来源n n1、已存在的数据。包括存在于组织中的一些个人信息资料；一些专门收集与维护数据的公司所拥有的商务数据；政府机构n n2、调查研究获得的数据。可分为实验性研究与观察性研究（一）数据的来源（一）数据的来源1、已存在的数据。包括存在于组织中的一些个人、已存在的数据。包括存在于组织中的一些个人14（二）数据收集的道德准则与行为规范（二）数据收集的道德准则与行为规范n n基本准则：数据的客观性与可重复性n n行为规范：（1）尽可能收集原始数据或第一手数据（2）引用数据时，要辨别是否侵犯知识产权，合法引用要注明数据的来源。（3）原始数据有异常时，要分析异常的原因，不得随意删除、篡改数据。（4）要说明数据处理的工具、方法及处理过程（5）通过问卷调查的数据，要说明调查内容、调查表的设计等（二）数据收集的道德准则与行为规范基本准则：数据的客观性与可（二）数据收集的道德准则与行为规范基本准则：数据的客观性与可15（三）数据图表表示（三）数据图表表示n数据收集好了，那我们就来看看从数据中能挖到什么宝藏了！3.1类别数据的表格表示n例例3.1 交通事故的驾驶因素分析交通事故的驾驶因素分析n造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交通管理部门对某段时间中的50起交通事故进行驾驶因素分析，得到的原始数据如下:（三）数据图表表示数据收集好了，那我们就来看看从数据中能挖到（三）数据图表表示数据收集好了，那我们就来看看从数据中能挖到16驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定的行驶路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉17n从例3.1的数据，你能看出些什么？n也许你看出了“察觉得晚”、“判断失误”等因素比较多，“偏离规定的行驶路线”、“酒后或疲劳驾驶”等因素比较少。很好！n其实，只要借助一些简单的图表，就能对数据加以整理并进行初步的定量分析。n一些常用的软件如Excel，几乎能完美地为你完成这些图表！从例从例3.1的数据，你能看出些什么？的数据，你能看出些什么？18n我们从表1很容易看出：n哪些因素是比较主要的因素？n各因素之间频率的差异有多大？等等。n有时，累积频率也需要在频数频率分布表中列出。n每一类的累积频率每一类的累积频率是指，从第一类开始累积到该类的频率总和，即将该类及其之前的所有类的频率相加。n譬如，为了分析驾驶因素中的主要因素，我们可以进一步改进表1，按照频数或频率从大到小的顺序，将各因素排序后列出来，并加上累积频率一项，结果列于表2中。我们从表我们从表1很容易看出：很容易看出：19表2分析驾驶因素中主要因素的频数频率分布表驾驶因素频数频率（）累积频率察觉得晚214242判断失误142870驾驶错误112292酒后或疲劳驾驶 3 698偏离规定的行驶路线 1 2100合计50100用Excel制作定性数据频数频率分布表表表2 分析驾驶因素中主要因素的频数频率分布表驾驶因素频数分析驾驶因素中主要因素的频数频率分布表驾驶因素频数20n累积频率更常用于有序数据的分析中。我们来看一个例子。n例例3.2 博客调查博客调查 n(http:/ 表表3 各年龄段的博客创建情况各年龄段的博客创建情况1012 55,500 1.35 1.351319 2,120,000 51.45 52.802029 1,630,000 39.56 92.353039 241,000 5.85 98.203049 41,700 1.01 99.215059 18,500 0.45 99.66年龄段创建的博客数频率（）累积频率（）6069 13,9000.34100.00合计4,120,600100.00 表表3 各年龄段的博客创建情况各年龄段的博客创建情况101222数据的图形表示n用于数据描述的图形比较多，譬如常用的饼状图、柱状图、直方图，以及在统计学中常用的茎叶图、排列图等等。n当我们在考虑各种图的时候，把变量稍加分类会有帮助。n有的变量具备有意义的数值尺度，如身高几厘米、考试成绩几分等；而有的变量只是把个体分到不同类别而已，如性别、职业或教育程度。n类别变量只记录所属类别，譬如，例1的变量就是类别变量，它包含5个类，个体的数据就是指个体属于其中某个类。n要表示类别变量的分布，可以用饼图，也可用柱状图或条形图，等等。以下是例3.1的图形表示。数据的图形表示数据的图形表示23数据、模型与决策课件数据、模型与决策课件24数据、模型与决策课件数据、模型与决策课件25n柱形图与条形图作法垂直柱状组成的图形称为柱形图，水平条状组成的图形称为条形图。例：创建我国20012004年第一、第二和第三产业产值数量的变化的柱形图。年份年份第一产业第一产业第二产业第二产业第三产业第三产业200120011.541181.541184.875004.875003.315303.31530200220021.611731.611735.298025.298023.607483.60748200320031.692811.692816.127416.127413.91880 3.91880 200420042.076812.076817.238727.238724.372064.37206柱形图与条形图作法年份第一产业第二产业第三产业柱形图与条形图作法年份第一产业第二产业第三产业20011.5261.打开Excel表，单击“插入图标”工具图标，选择图表类型柱形图和子图标类型，点击“下一步”。打开打开Excel表，单击表，单击“插入图标插入图标”工具图标，选择图表类型柱工具图标，选择图表类型柱272.选择目标数据，用鼠标选定B4:D8，单击“系列”卡片，点击“下一步”。2.选择目标数据，用鼠标选定选择目标数据，用鼠标选定B4:D8，单击，单击“系列系列”卡片卡片283.输入系列名称，用鼠标选定“分类(X)轴标志”A5:A8，单击“下一步”3.输入系列名称，用鼠标选定输入系列名称，用鼠标选定“分类分类(X)轴标志轴标志”A5:A29n4.输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性，单击“下一步”。4.输入或修改输入或修改“标题标题”、“坐标轴坐标轴”、“网格线网格线”、“图例图例”、305.选择图表位置，单击“完成”。5.选择图表位置，单击选择图表位置，单击“完成完成”。316.图表完成。如果需要，可以双击图表中任何一部分进行修改。图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”6.图表完成。如果需要，可以双击图表中任何一部分进行修改。图表完成。如果需要，可以双击图表中任何一部分进行修改。32直方图直方图n因为类别变量的可能值相对来说不多，所以我们可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢？因为数量变量的可能值太多，所以不太可能用饼状图或柱状图来呈现。若将数量变量的数据进行适当的分组，再画出分布图，那么将会比较清楚。这就是本节中我们将重点介绍的图形直方图直方图（histogram），它是描述数量变量分布最常用的图。n在平面直角坐标系中，用横轴表示各类观察值，纵轴表示频数或频率，所绘制的由若干个长方形所组成的图形，就叫做频数分布直方图，简称直直方图方图。通过直方图，我们可以比较快速、直观地把握整体的分布情况。直方图因为类别变量的可能值相对来说不多，所以我们可以用饼状图直方图因为类别变量的可能值相对来说不多，所以我们可以用饼状图33直方图作法直方图作法步骤：步骤：1）确定直方图的区间个数，填入每个组确定直方图的区间个数，填入每个组界值；界值；2）打开）打开“工具工具”菜单；菜单；3）选择）选择“数据分析数据分析”；4）选择）选择“直方图直方图”；5）在）在“直方图直方图”对话框中填入数据对话框中填入数据用Excel制作定量数据频数频率分布表和直方图见例1.14直方图作法步骤：用直方图作法步骤：用Excel制作定量数据频数频率分布表和直方制作定量数据频数频率分布表和直方34（四）数据集中与分散属性的度量（四）数据集中与分散属性的度量某两个班DMD考试成绩如下：80 85 76 78 67 93 88 90 75 66 65 77 74 83 81 70 83 64 96 60 79 86 80 71 79 8987 74 78 65 97 89 91 61 79 77 85 89 78 72 86 84 88 84 66 69 78 74 77 89 81 如何评价这两个班的学习成绩呢？（四）数据集中与分散属性的度量某两个班（四）数据集中与分散属性的度量某两个班DMD考试成绩如下考试成绩如下35n描述数据的分布属性是描述统计的主要内容，数据的分布属性包括：n数据的频数分布和直方图n数据集中属性的指标（平均数、中位数、众数、比例）n数据离散属性的指标（极差、方差、标准差）n数据分布形态的指标（偏度、峰度）n数据的计数和求和n数据之间的相关程度的指标（相关系数）nExcel中的统计功能有以下三种实现方法n使用Excel的菜单统计工具n使用Excel统计函数n使用Excel统计插件（例如PHStat等）描述数据的分布属性是描述统计的主要内容，数据的分布属性包括：描述数据的分布属性是描述统计的主要内容，数据的分布属性包括：36n n数据集中趋势的测度数据集中趋势的测度均值：一组数据的平均值均值：一组数据的平均值。中位数：数据序列中位于中间的值。中位数：数据序列中位于中间的值。众数：发生次数最多的值。众数：发生次数最多的值。数据集中趋势的测度数据集中趋势的测度37不同年龄段每周上网时间的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)不同年龄段每周上网时间的平均值不同年龄段每周上网时间的平均值=AVERAGE(B23:B138n一组数据按大小顺序排列以后，处于中间一组数据按大小顺序排列以后，处于中间位置的数据。对于奇数组，中位数是中间位置的数据。对于奇数组，中位数是中间的一个，对于偶数组，中位数是中间的两的一个，对于偶数组，中位数是中间的两个的平均值。个的平均值。=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)一组数据按大小顺序排列以后，处于中间位置的数据。对于奇数组，一组数据按大小顺序排列以后，处于中间位置的数据。对于奇数组，39n众数是一组数据出现次数最多的数值。如果一组数据各不相同，则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下：=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)众数是一组数据出现次数最多的数值。如果一组数据各不相同，则这众数是一组数据出现次数最多的数值。如果一组数据各不相同，则这40n n标准差：反映数据的离散程度标准差：反映数据的离散程度。方差：是标准差的平方。极差：最大与最小之差。标准误：通常只针对抽样均值而言。标准差：反映数据的离散程度。标准差：反映数据的离散程度。41标准差的重要性切比雪夫定理：任何一组数据，设它的平均数为，标准差为，这组数据落在范围内的数据个数占数据总数的比例，至少是。这个定理说明了标准差是数据分散程度的一个普遍性的指标。标准差的重要性标准差的重要性42在工业生产中，产品的指标总会出现波动，一般都把产品指标的变动控制在指标平均值加减3个标准差的范围内，认为这是生产正常的标志。如果产品指标波动超出这个范围，说明生产系统不正常。在工业生产中，产品的指标总会出现波动，一般都把产品指标的变动在工业生产中，产品的指标总会出现波动，一般都把产品指标的变动43n在投资风险分析中，评价投资收益有两个指标，一个是收益期望值（平均值），另一个是收益的标准差。投资收益的标准差表示投资风险的大小，标准差越大，风险越大。低收益低风险低收益高风险高收益低风险高收益高风险收益期望值收益标准差在投资风险分析中，评价投资收益有两个指标，一个是收益期望值（在投资风险分析中，评价投资收益有两个指标，一个是收益期望值（44n n 变异系数变异系数标准差是测定数据离散程度的标志，但由于不同的数据数值大小不同，相同的离散程度，数值比较大的标准差也会比较大。以下是不同年龄组每周上网时间的统计数据：为了比较大小不同的几组数据的离散程度，定义如下的变异系数（CoefficientofVariation）：1818岁以下岁以下18-2418-24岁岁25-3025-30岁岁31-4031-40岁岁4040岁以上岁以上均值均值6.588 6.588 20.922 20.922 20.293 20.293 16.324 16.324 15.281 15.281 标准差标准差2.368 2.368 2.221 2.221 2.888 2.888 2.780 2.780 3.658 3.658 变异系数变异系数0.359 0.359 0.106 0.106 0.142 0.142 0.170 0.170 0.239 0.239 变异系数变异系数18岁以下岁以下18-24岁岁25-30岁岁31-40岁岁4045（五）数据频数分布形态（五）数据频数分布形态描述数据频数分布形态的指标有两个描述数据频数分布形态的指标有两个峰度：设数据个数为峰度：设数据个数为N N个，峰度计算公式为个，峰度计算公式为峰度系数是描述数据分布陡峭或平坦的指标。正态峰度系数是描述数据分布陡峭或平坦的指标。正态分布的峰度为分布的峰度为0.0.比正态分布平坦的峰度为负值。比正态分布平坦的峰度为负值。（五）数据频数分布形态描述数据频数分布形态的指标有两个（五）数据频数分布形态描述数据频数分布形态的指标有两个46偏度：描述数据分布对称性指标。公式为正态分布偏度为0，数据频数右偏，偏度系数为负；左偏为正。偏度：描述数据分布对称性指标。公式为偏度：描述数据分布对称性指标。公式为47（六）（六）数据的统计相关性数据的统计相关性1.因果相关性：指变量X与变量Y之间存在因果关系。因果关系可以通过理论或实验证实。2.统计相关性：指变量X的数值与变量Y的数值之间可以找出统计关系，统计关系是一种数量关系，不需要、还没有或不可能解释二者之间的相关的原因。因果相关的变量不一定有统计相关性，有统计相关的也不一定有因果关系（六）（六）数据的统计相关性数据的统计相关性1.因果相关性：指变量因果相关性：指变量X与变量与变量Y之间之间48数据、模型与决策课件数据、模型与决策课件49n n线性相关系数：反映两个变量之间线性统计关系的指标。分总体相关系数与样本相关系数。设有两个变量X，Y，其均值与方差分别为则总体相关相关系数为线性相关系数：反映两个变量之间线性统计关系的指标。分总体相关线性相关系数：反映两个变量之间线性统计关系的指标。分总体相关50其中称为X，Y的协方差。样本相关系数的计算公式为其中其中51用R表示总体相关系数，r表示样本相关系数。相关系数反映了数据之间的线性相关程度。即便数据存在非线性相关，R与r可能为0.以后一般指线性相关。相关系数没有单位，其值为相关系数没有单位，其值为-1 r 1。r值为值为正表示正相关，正表示正相关，r值为负表示负相关，值为负表示负相关，r绝绝对值反应两变量间相关关系的密切程度对值反应两变量间相关关系的密切程度，绝对值越大说明相关关系越密切，绝对值越大说明相关关系越密切，r的绝对的绝对值等于值等于1为完全相关，为完全相关，r=0为零相关。为零相关。用用R表示总体相关系数，表示总体相关系数，r表示样本相关系数。相关系数反映表示样本相关系数。相关系数反映52第二章、概率论与统计学基础第二章、概率论与统计学基础（一）随机事件、随机变量与频数事件分类：确定性与随机性。随机变量：表示随机事件各种可能结果的变量。每一个随机变量都有确定的可能取值。随机变量分类：离散型与连续型。第二章、概率论与统计学基础（一）第二章、概率论与统计学基础（一）随机事件、随机变量与频数随机事件、随机变量与频数53n n随机事件的运算随机事件的交（Intersection）：事件A和事件B同时发生的事件称为事件A和事件B的交。记为AB或AandB随机事件的并（Union）:事件A和事件B至少一个发生的事件称为事件A和事件B的并。记为AB或AorB。如果两个事件不可能同时发生，则这两个事件是互斥（Mutuallyexclusive）的。随机事件的差：事件A发生而事件B不发生，则称这个事件是A与B的差事件。A-B随机事件的运算随机事件的运算54样本数、频数样本数、频数对随机变量，我们感兴趣的是它的各种可能结果发对随机变量，我们感兴趣的是它的各种可能结果发生几率有多大。可以通过记录随机变量发生的次生几率有多大。可以通过记录随机变量发生的次数，称为样本数。观察它的各种可能结果出现的数，称为样本数。观察它的各种可能结果出现的次数，称之为随机变量频数。次数，称之为随机变量频数。假设随机变量假设随机变量X X可能取可能取这这mm个结果，记取个结果，记取的次数为的次数为称为随机变量取值的频数。那么，当样本数为称为随机变量取值的频数。那么，当样本数为N N时，时，有有样本数、频数样本数、频数对随机变量，我们感兴趣的是它的各种可能结果发对随机变量，我们感兴趣的是它的各种可能结果发55n n相对频数：随机变量可能结果的频数与样本数之相对频数：随机变量可能结果的频数与样本数之比，记为：比，记为：显然，所有相对频数之和为显然，所有相对频数之和为1 1，即，即例：见教材例：见教材P50P50例例相对频数：随机变量可能结果的频数与样本数之比，记为：相对频数：随机变量可能结果的频数与样本数之比，记为：56（二）离散随机变量及分布（二）离散随机变量及分布当样本量不断增加时，离散随机变量相对频数趋当样本量不断增加时，离散随机变量相对频数趋向于一个稳定的值，称之为随机变量的概率。向于一个稳定的值，称之为随机变量的概率。记随机变量记随机变量X X取某一个值取某一个值的概率为的概率为即有即有几个概率法则几个概率法则n法则法则1：概率值都在01之间。n法则法则2：所有可能性的概率之和等于1n法则3：如果事件A和事件B互斥，那么两个事件的并发生的概率等于两事件发生的概率之和。即P(AB)=P(A)+P(B)（二）离散随机变量及分布当样本量不断增加时，离散随机变量相对（二）离散随机变量及分布当样本量不断增加时，离散随机变量相对57法则法则4 4：如果两事件不是互斥的，那么两个事件的并发生的概率等于两事件发生的概率之和，减去两事件的交发生的概率。即：P(AB)=P(A)+P(B)-P(AB)离散随机变量分布律：离散随机变量可以用分布律表示其取值的概率。分布函数：对给定的一个实数，随机变量不超过这个值的概率（也称累积概率）。法则法则4：如果两事件不是互斥的，那么两个事件的并发生的概率等于：如果两事件不是互斥的，那么两个事件的并发生的概率等于58n n记分布函数为记分布函数为F(x),F(x),则表达式为则表达式为很显然，分布函数是一个分段右连续函数。很显然，分布函数是一个分段右连续函数。2 2、几个重要的离散分布几个重要的离散分布贝努利分布：如果一个随机变量贝努利分布：如果一个随机变量X X只有两个结果，只有两个结果，而且两个结果发生概率是不变的，则称这个随机而且两个结果发生概率是不变的，则称这个随机变量服从贝努利。记变量服从贝努利。记X X的两个取值分别为的两个取值分别为0 0与与1 1，取取0 0的概率为的概率为p,p,则则X X的概率分布律为的概率分布律为记分布函数为记分布函数为F(x),则表达式为则表达式为 59 二项分布：重复了二项分布：重复了二项分布：重复了二项分布：重复了 n n 次的贝努利分布试验。设成功的概率次的贝努利分布试验。设成功的概率次的贝努利分布试验。设成功的概率次的贝努利分布试验。设成功的概率为为为为P P，则在，则在，则在，则在n n次试验中成功了次试验中成功了次试验中成功了次试验中成功了x x次的概率为次的概率为次的概率为次的概率为记为记为记为记为.二项分布的均值为二项分布的均值为二项分布的均值为二项分布的均值为np,np,方差为方差为方差为方差为np(1-np(1-p).p).泊松分布：在排队系统中，比如到公交站的人数，泊松分布：在排队系统中，比如到公交站的人数，泊松分布：在排队系统中，比如到公交站的人数，泊松分布：在排队系统中，比如到公交站的人数，到银行的人数，常常假定单位时间内到达的客人到银行的人数，常常假定单位时间内到达的客人到银行的人数，常常假定单位时间内到达的客人到银行的人数，常常假定单位时间内到达的客人数满足如下条件：数满足如下条件：数满足如下条件：数满足如下条件：（1 1）单位时间内到达的顾客数的均值与到达时间）单位时间内到达的顾客数的均值与到达时间）单位时间内到达的顾客数的均值与到达时间）单位时间内到达的顾客数的均值与到达时间无关，这称为随机变量的平稳性。无关，这称为随机变量的平稳性。无关，这称为随机变量的平稳性。无关，这称为随机变量的平稳性。（2 2）任何两个到达的顾客之间是独立的，称为普）任何两个到达的顾客之间是独立的，称为普）任何两个到达的顾客之间是独立的，称为普）任何两个到达的顾客之间是独立的，称为普遍性。遍性。遍性。遍性。二项分布：重复了二项分布：重复了 n 次的贝努利分布试验。设成功的概次的贝努利分布试验。设成功的概60（3 3）前面到达顾客人数不影响后面到达顾客人数，）前面到达顾客人数不影响后面到达顾客人数，称为无后效性。称为无后效性。（4 4）所有有限时间内到达的顾客总数是有限的，）所有有限时间内到达的顾客总数是有限的，称为有限性。称为有限性。可以得出有可以得出有k k个顾客到达的概率为个顾客到达的概率为其中，其中，为单位时间到达的顾客数量的均值。为单位时间到达的顾客数量的均值。（3）前面到达顾客人数不影响后面到达顾客人数，称为无后效性。）前面到达顾客人数不影响后面到达顾客人数，称为无后效性。61（三）连续型随机变量及概率分布（三）连续型随机变量及概率分布例（略）例（略）对连续型随机变量对连续型随机变量X X，概率曲线记为，概率曲线记为f(x)f(x)，即随机，即随机变量变量X X的概率密度函数，简称密度函数；累积概的概率密度函数，简称密度函数；累积概率曲线记为率曲线记为F(x),F(x),即随机变量即随机变量X X的累积概率分布的累积概率分布函数，简称分布函数。函数，简称分布函数。命题命题1 1：设连续型随机变量：设连续型随机变量X X的取值范围为的取值范围为a,b,a,b,密度函数为密度函数为f(x),f(x),分布函数为分布函数为F(x),F(x),则有则有（1 1）随机变量随机变量X X落在区间落在区间中的概率为：中的概率为：（三）连续型随机变量及概率分布例（略）（三）连续型随机变量及概率分布例（略）62（2 2）密度函数在随机变量所有取值范围内的积分为）密度函数在随机变量所有取值范围内的积分为1.1.（3 3）（4 4）（5 5）（2）密度函数在随机变量所有取值范围内的积分为）密度函数在随机变量所有取值范围内的积分为1.63几个重要的连续随机变量分布几个重要的连续随机变量分布1.1.正态分布：若随机变量的密度函数为：正态分布：若随机变量的密度函数为：其中，其中，为正态分布的均值与标准差。为正态分布的均值与标准差。分布函数为：分布函数为：几个重要的连续随机变量分布几个重要的连续随机变量分布 1.正态分布：若随机变量的密度函正态分布：若随机变量的密度函64n n正态分布x xO O+-f(x)f(x)正态分布正态分布xO+-65标准正态分布：当标准正态分布：当时，正态分时，正态分布称为标准正态分布。一般正态分布做变换即可化布称为标准正态分布。一般正态分布做变换即可化为标准正态分布为标准正态分布标准正态分布：当标准正态分布：当 66标准正态分布密度函数(x)的曲线有以下特征：n n是偶函数，关于y轴对称，即n n当x=0时，取得最大值x取值离原点越远，(x)值越小。n n在x=1有两个拐点。n n曲线与x轴间所夹面积为1n n对分布函数有标准正态分布密度函数标准正态分布密度函数(x)的曲线有以下特征：的曲线有以下特征：67如果，则X的分布函数例例设设XNXN（0 0，1 1），求），求P|X|xP|X|x，并计算，并计算P|X|1.28P|X|1.28。设某种产品的重量设某种产品的重量X X服从服从N N（100100，1616）。如果产品的）。如果产品的重量在重量在9510595105之间属于合格品，求产品是合格品之间属于合格品，求产品是合格品的概率。的概率。已知小麦穗长服从已知小麦穗长服从N N（9.978,1.4419.978,1.4412 2），求下列概），求下列概率：率：（1 1）穗长小于）穗长小于6.536cm6.536cm。（2 2）穗长大于）穗长大于12.128cm12.128cm。（3 3）穗长在）穗长在8.573cm8.573cm与与9.978cm9.978cm之间。之间。如果如果，则，则X的分布函的分布函68n n从甲到乙地有两条路线，走第一条路所需时间服从N（50，100），走第二条路时间服从N（60，16），问：(1).若有70分钟可用，走哪条路好？(2).若只有65分钟呢？从甲到乙地有两条路线，走第一条路所需时间服从从甲到乙地有两条路线，走第一条路所需时间服从N（50，10069n n指数分布：若一个随机变量X的密度函数为则称随机变量服X从指数分布，记为其分布函数为：指数分布有许多性质（略）。指数分布：若一个随机变量指数分布：若一个随机变量X的密度函数为的密度函数为70均匀分布：如果随机变量落在某一区域的上的点的概率相等，则称这个随机变量服从均匀分布。三角分布。超几何分布。伽马分布F-分布t-分布均匀分布：如果随机变量落在某一区域的上的点的概率相等，则称这均匀分布：如果随机变量落在某一区域的上的点的概率相等，则称这71随机变量的期望值和方差随机变量的期望值和方差n离散随机变量的期望值对于离散随机变量X，期望值是这个随机变量的所有可能结果，用每一个结果发生的概率作为权重的加权平均。设随机变量X有n个取值，第i个取值等于xi的概率为f(xi)，则随机变量X的期望值EX等于离散随机变量的方差（Variance）随机变量的期望值和方差离散随机变量的期望值随机变量的期望值和方差离散随机变量的期望值72方差度量随机变量的不确定性，方差越大，结果的不确定越大。由于方差的单位和变量的单位不同，因此常用标准差（Standard deviation）表示随机变量的波动的大小。由于标准差的单位和变量相同，因此它比方差更有意义。标准差是对风险的一种测度，因此它在金融模型中是一个关键的概念。方差度量随机变量的不确定性，方差越大，结果的不确定越大。由于方差度量随机变量的不确定性，方差越大，结果的不确定越大。由于73n例：风险投资问题有一项风险投资，每次投资成功和失败的概率都是50。投入1元资本，如果成功，连本带利资本增值为2.2元，如果失败，投入的资金全部损失，资本变为0。为了避免所有的资本全部损失，每次只投入当前资本的一半。假设最初的资本为100万元，而这项投资的次数没有限制。问题：这项投资的前景如何？是一本万利，还是血本无归？例：例：风险投资问题风险投资问题有一项风险投资，每次投资成功和失败的概有一项风险投资，每次投资成功和失败的概74解1 设初始资本A=100万元，投资成功的资本增值率为K2.2第一次投资成功后的资本为：A/2+KA/2=(K+1)A/2第一次投资失败后的资本为：A/2第一次投资后的资本的期望值为：0.5(K+1)A/2+0.5A/2=0.5(K+2)A/2=0.5(K/2+1)A解解1 设初始资本设初始资本A=100万元，投资成功的资本增值率为万元，投资成功的资本增值率为K275第二次投资成功后的资本为：0.5(K+2)A/4+0.5(K+2)KA/4=0.5(K+2)(K+1)A/4第二次投资失败后的资本为：0.5(K+2)A/4第二次投资以后的资本期望值为：0.5*0.5(K+2)(K+1)A/4+0.5*0.5(K+2)A/4=0.52(K+2)2A/4=0.5(K/2+1)2A第n次投资以后的资本期望值为：0.5(K/2+1)nA=0.5*(1.1+1)nA=(1.05)nA当n无限增大时，资本会无限增加，即投资是一本万利的。第二次投资成功后的资本为：第二次投资成功后的资本为：76n解2设投资2n次，当n很大时，其中大约有n次成功，n次失败。其中对投资者最有利的是前n次都成功，后n次全失败。第1次成功后的资本为A/2+KA/2=(K+1)A/2第2次成功后的资本为(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)2A第n次成功后的资本为(K/2+1/2)nA解解2 设投资设投资2n次，当次，当n很大时，其中大约有很大时，其中大约有n次成功，次成功，n次失败次失败77第1次失败后的资本为(K/2+1/2)nA/2第2次失败后的资本为(K/2+1/2)nA/22第n次失败后的资本为(K/2+1/2)nA/2n=(K/4+1/4)nA=(0.8)nA当n无限增大时，2n次投资以后的资本趋向于0。即投资将会血本无归。解法1和解法2的结果显然是矛盾的，至少有一个是错的，哪一个是错的？错在哪里？第第1次失败后的资本为次失败后的资本为78连续随机变量的期望值设连续随机变量X的概率分布密度函数为f(x)，它的期望值为a,b是随机变量所在的变化范围，a可以是-，b可以是+。随机变量X的方差为随机变量X的标准差为连续随机变量的期望值连续随机变量的期望值79联合分布、边际分布与条件概率联合分布、边际分布与条件概率n在描述一些事物的运行规律，比如蚂蚁爬行所处的位置，飞机在空中的位置这样一些随机事件，就必须考虑多个随机变量构成的变量组。设是一随机变量组，则X的分布称为联合分布。设其密度函数为则分布函数为联合分布、边际分布与条件概率在描述一些事物的运行规律，比如蚂联合分布、边际分布与条件概率在描述一些事物的运行规律，比如蚂80例：假定某种疾病的发病人数与年龄及某个化验指例：假定某种疾病的发病人数与年龄及某个化验指标有关，现有标有关，现有18981898名患者资料见名患者资料见P72P72例例2.15.2.15.将表中的统计人数除以总人数1898人，得到患病人数关于年龄和化验指标的联合概率分布：化验指标化验指标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-9.9x xx x1 1x x2 2x x3 3x x4 4x x5 5年龄年龄y y1.000 1.000 0.006 0.006 0.061 0.061 0.124 0.124 0.321 0.321 0.488 0.488 18-2418-24y y1 10.038 0.038 0.000 0.000 0.000 0.000 0.000 0.000 0.011 0.011 0.027 0.027 25-3425-34y y2 20.085 0.085 0.000 0.000 0.000 0.000 0.007 0.007 0.033 0.033 0.044 0.044 35-4435-44y y3 30.151 0.151 0.000 0.000 0.006 0.006 0.023 0.023 0.048 0.048 0.073 0.073 45-5445-54y y4 40.255 0.255 0.004 0.004 0.018 0.018 0.047 0.047 0.072 0.072 0.113 0.113 55-6455-64y y5 50.319 0.319 0.002 0.002 0.025 0.025 0.028 0.028 0.112 0.112 0.152 0.152 6565以上以上y y6 60.152 0.152 0.000 0.000 0.011 0.011 0.019 0.019 0.044 0.044 0.077 0.077 例：假定某种疾病的发病人数与年龄及某个化验指标有关，现有例：假定某种疾病的发病人数与年龄及某个化验指标有关，现有1881n由表中的数据可以看出，如果某个患者的年龄在55-64岁之间，化验指标在6.0-7.9之间，他患病的概率为11.2。化验指标化验指标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-9.9x xx x1 1x x2 2x x3 3x x4 4x x5 5年龄年龄y y1.000 1.000 0.006 0.006 0.061 0.061 0.124 0.124 0.321 0.321 0.488 0.488 18-2418-24y y1 10.038 0.038 0.000 0.000 0.000 0.000 0.000 0.000 0.011 0.011 0.027 0.027 25-3425-34y y2 20.085 0.085 0.000 0.000 0.000 0.000 0.007 0.007 0.033 0.033 0.044 0.044 35-4435-44y y3 30.151 0.151 0.000 0.000 0.006 0.006 0.023 0.023 0.048 0.048 0.073 0.073 45-5445-54y y4 40.255 0.255 0.004 0.004 0.018 0.018 0.047 0.047 0.072 0.072 0.113 0.113 55-6455-64y y5 50.319 0.319 0.002 0.002 0.025 0.025 0.028 0.028 0.112 0.112 0.152 0.152 6565以上以上y y6 60.152 0.152 0.000 0.000 0.011 0.011 0.019 0.019 0.044 0.044 0.077 0.077 由表中的数据可以看出，如果某个患者的年龄在由表中的数据可以看出，如果某个患者的年龄在55-64岁之间，岁之间，82n设年龄为随机变量X，化验指标为随机变量Y，表中的数值记为f(x,y)，称为随机变量X和Y的联合概率分布。第一行数值表示不考虑年龄（x）时，化验指标（y）的概率函数，第一列数值表示不考虑化验指标（y）时，年龄（x）的概率函数。第一行和第一列称为边际概率（Marginalprobability)化验指标化验指标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-9.9x xx x1 1x x2 2x x3 3x x4 4x x5 5年龄年龄y y1.000 1.000 0.006 0.006 0.061 0.061 0.124 0.124 0.321 0.321 0.488 0.488 18-2418-24y y1 10.038 0.038 0.000 0.000 0.000 0.000 0.000 0.000 0.011 0.011 0.027 0.027 25-3425-34y y2 20.085 0.085 0.000 0.000 0.000 0.000 0.007 0.007 0.033 0.033 0.044 0.044 35-4435-44y y3 30.151 0.151 0.000 0.000 0.006 0.006 0.023 0.023 0.048 0.048 0.073 0.073 45-5445-54y y4 40.255 0.255 0.004 0.004 0.018 0.018 0.047 0.047 0.072 0.072 0.113 0.113 55-6455-64y y5 50.319 0.319 0.002 0.002 0.025 0.025 0.028 0.028 0.112 0.112 0.152 0.152 6565以上以上y y6 60.152 0.152 0.000 0.000 0.011 0.011 0.019 0.019 0.044 0.044 0.077 0.077 设年龄为随机变量设年龄为随机变量X，化验指标为随机变量，化验指标为随机变量Y，表中的数值记为，表中的数值记为f(83n n如果离散型随机变量如果离散型随机变量x x与与y y的联合概率为的联合概率为f(x,y),f(x,y),则则变量变量x x与与y y的边际概率为：的边际概率为：如果连续型随机变量x与y的联合密度函数为f(x,y),则变量x与y的边际概率密度为如果离散型随机变量如果离散型随机变量x与与y的联合概率为的联合概率为f(x,y),则变量则变量x84相互独立的随机变量相互独立的随机变量n n例：已知随机变量（X,Y）的联合分布如下表1/121/121/121/121/61/61/21/21/481/481/481/481/241/240 01/121/121/121/121/61/6-1-11/161/161/161/161/81/8-2-23 31 1-1/2-1/2x y x y 相互独立的随机变量例：已知随机变量（相互独立的随机变量例：已知随机变量（X,Y）的联合分布如下表）的联合分布如下表85n n经过简单的计算，可以发现对（经过简单的计算，可以发现对（X X，Y Y）的任意取）的任意取值（值（x,yx,y），有），有 f(x,y)=f(x)f(y),f(x,y)=f(x)f(y),但前述某疾病例子不但前述某疾病例子不存在这个情况。存在这个情况。随机变量独立随机变量独立：对二元随机变量：对二元随机变量(X(X，），如果其，），如果其联合分布函数可以表示为两个边缘分布函数的乘积，联合分布函数可以表示为两个边缘分布函数的乘积，则称随机变量与相互独立。则称随机变量与相互独立。充分必要条件：充分必要条件：离散型：离散型：连续型：连续型：f(x,y),f(x),f(y)f(x,y),f(x),f(y)分别表示联合密度函数与边缘密度函分别表示联合密度函数与边缘密度函数数经过简单的计算，可以发现对（经过简单的计算，可以发现对（X，Y）的任意取值（）的任意取值（x,y），有），有86条件概率条件概率n在一个随机事件（Y）已经发生的条件下，某一个随机事件（X）发生的概率，称为条件概率。记为f(x|y)。人数人数化验指标化验指标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-9.9x xx x1 1x x2 2x x3 3x x4 4x x5 5年龄年龄y y18981898121211511523523561061092692618-2418-24y y1 173730 00 00 02121525225-3425-34y y2 21611610 00 014146363848435-4435-44y y3 32862860 012124343929213913945-5445-54y y4 44844848 83535898913713721521555-6455-64y y5 56066064 4474753532132132892896565以上以上y y6 62882880 0212136368484147147条件概率在一个随机事件（条件概率在一个随机事件（Y）已经发生的条件下，某一个随机事件）已经发生的条件下，某一个随机事件87由下表看出，55-64岁的患者人数为606人，其中化验指标的6.0-7.9之间的患者人数为213人，所求的条件概率为：213/606=0.351。人数人数化验指标化验指标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-9.9x xx x1 1x x2 2x x3 3x x4 4x x5 5年龄年龄y y18981898121211511523523561061092692618-2418-24y y1 173730 00 00 02121525225-3425-34y y2 21611610 00 014146363848435-4435-44y y3 32862860 012124343929213913945-5445-54y y4 44844848 83535898913713721521555-6455-64y y5 56066064 4474753532132132892896565以上以上y y6 62882880 0212136368484147147年龄在5564岁之间的人数为606人化验指标在6.0-7.9之间、年龄在55-64岁之间的人数为213人由下表看出，由下表看出，55-64岁的患者人数为岁的患者人数为606人，其中化验指标的人，其中化验指标的88n以上的计算表明，条件概率f(x|y)等于联合分布概率f(x,y)除以边际概率f(y)由此得到，联合分布概率等于条件概率乘以边际概率：化验指标化验指标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-9.

展开阅读全文

数据、模型与决策课件

最新文档