《数据分析模型》PPT课件.ppt

上传人:jun****875 文档编号:8099914 上传时间:2020-03-27 格式:PPT 页数:80 大小:1.47MB
返回 下载 相关 举报
《数据分析模型》PPT课件.ppt_第1页
第1页 / 共80页
《数据分析模型》PPT课件.ppt_第2页
第2页 / 共80页
《数据分析模型》PPT课件.ppt_第3页
第3页 / 共80页
点击查看更多>>
资源描述
1 数据分析模型 怎样表述 解读 分析 发现规律 现实生活中的数据 数量繁多 杂乱无章 找出有代表性的数值或者利用图形表述 分析 解释相关的实际现象 利用统计方法通过大量数据探索 发现研究对象的数量规律 本书提高篇第7章 1 1薪金到底是多少1 2评选举重总冠军1 3估计出租车的总数1 4解读CPI1 5NBA赛程的分析与评价 全国大学生数学建模竞赛2008年D题 1 数据分析模型 1 1薪金到底是多少 日常生活中遇到的数据 一个班的考试成绩及按成绩的排名 一个年级全部男同学的身高 超市中各个品牌牙膏一个月的销量 公司里每位职工一个月的薪金 用几个数简明地表示一组数据整体的大小 n个数据的代表数 平均数 n个数据的算术平均值 n个数据的代表数 中位数 n个数据从小到大 或从大到小 排序位于正中的数 若n为偶数 取位于正中的2个数的平均值 众数 n个数据中出现次数最多的那个 或几个 数 3个代表数反映一组数据整体大小的不同侧面 某公司100位职工的月薪 千元 薪金到底是多少 平均数 8 6千元 中位数 6千元 第50 51人都是6000元 众数 5千元 5千元的人数最多 公司高层对外宣传 工会干部为职工争取福利 税务部门调查个人所得税的起征点 3个代表数的特点 平均数 平等利用每一数据的信息 反映数据整体大小 有方便的计算公式 应用最广 受少数特大或特小数据影响 会失去代表性 中位数 只取决于按大小排列的位置 不受特大或特小数据影响 能反映数据的中等水平 未充分利用信息 数据量大时计算较繁 众数 常作为选择 最多 最佳 的依据 未充分利用信息 并列第一 时无法做唯一抉择 如何选用代表数 与10年前同龄男生身高作对比 估计增长量 数据 某高三年级全部男同学的身高 定制校服尺寸的参考 数据 生产小组15个工人每人一天生产零件的数目 与其他小组比较 作为评选先进的参考 制定标准日产量 使多数人能超产 平均数 众数 平均数 中位数 数据 班上20名学生一次考试成绩 15人80分 2人90分 1人10分 1人15分 小李75分 如何选用代表数 与其他班级或本班以前成绩对比 小李衡量自己的标准 其他代表数 平均分74分 中位数80分 高于平均分 倒数第3名 跳水比赛的评分标准 7位裁判的分数去掉一个最高分和一个最低分 剩下5个分数的总和乘以动作难度系数 为最后得分 中位数和平均数的结合 哪种解读更有道理 某股份制公司50名职工和5位股东近3年的利润分配 公司老板 职工薪金比股东分红增长得更多 更快 可谓有福同享 哪种解读更有道理 工会负责人 2013年职工薪金增长到167 股东分红增长到200 应更顾及职工利益 职工 与股东人均分红相比 职工人均薪金增长得太慢 呼吁大幅度增加职工的薪金 哪种解读更有道理 k 0 1 2 2011 2012 2013 xk 职工薪金总额 yk 股东分红总额 xk斜率大于yk斜率 yk y0斜率大于xk x0斜率 斜率相差5倍 职工薪金增长快 股东分红增长快 股东人均分红增长快 数值随时间的变化可以用绝对增长或相对增长表示 二者说明同一问题的不同侧面 小结与评注 同样的一组数据可以有不同的表述和解读办法 取决于要说明什么问题 达到什么目的 3个常用的代表数 平均数 中位数和众数 具有各自的特点和用法 举重 1 2评选举重总冠军 依靠运动员全身力量完成的体育项目 按照运动员体重划分级别进行比赛 赛艇 拳击 摔跤 每个级别都有一个冠军 能评选出一个 总冠军 吗 56kg 62kg 69kg 77kg 85kg 94kg 105kg 105kg以上 1 2评选举重总冠军 男子举重比赛按运动员体重 上限 分为8个级别 问题 每个级别设3个项目 抓举 挺举 总成绩 每个级别 每个项目都产生一个冠军 同一项目 如抓举 的8个冠军中怎样选出 总冠军 不同级别冠军成绩按体重 折合 到某个标准级别 比较折合成绩 选出最高的作为总冠军 1 2评选举重总冠军 问题分析 比赛产生各级别冠军成绩的实际值 建立体重与举重成绩的数学模型 数据收集 利用举重比赛的世界纪录建立数学模型 多年积累下来的世界记录与某一次比赛成绩相比 更能避免偶然性 不同级别成绩的差别基本上由运动员体重决定 不掌握创造记录的运动员的实际体重 因为体重越大 举得越重 比赛时运动员体重都会调整到非常接近各级别的上限 105kg以上级未设上限 只在其余7个级别中选总冠军 数据收集 利用举重比赛的世界纪录建立数学模型 世界记录与体重数据的散点图 数据分析 大致呈线性关系 大级别成绩的增加变慢 线性关系有所改进 幂函数 幂次小于1 可能更合适 建立举重总成绩y与运动员体重w的数学模型 模型建立 模型1线性模型 最小二乘法编程计算k 2 7039 430 160 模型2幂函数模型 运动生理学 确定幂函数的幂次 举重总成绩y与运动员体重w的模型 s 肌肉截面积 l 身体尺寸 最小二乘法编程计算k 20 4711 模型3幂函数改进模型 举重总成绩y与运动员体重w的模型 最小二乘法 举重过程中力量的损失及身体尺寸的变化 50名顶尖运动员成绩的统计分析 举重总成绩y与运动员体重w的模型 线性模型 幂函数模型 幂函数改进模型 两个幂函数模型比线性模型改进不大 评选总冠军 wi i 1 2 7 从轻到重7个级别的体重 上限 yi 一次比赛中各级别冠军的实际成绩 以线性模型为例 评选总冠军 任取级别i 4 w4 77kg级 为标准使z4 y4 与实力成正比的指标 按7个级别冠军的折合成绩排名 第一者为总冠军 将体重折合成77kg级后级别i冠军的实际成绩 模型中系数k随世界纪录的刷新而改变 评选总冠军 折合成绩 评选2008年北京奥运会男子举重比赛总冠军 3个模型中都只有一个以因子形式出现的系数k 可以在构造折合成绩时消去 便于评选总冠军 小结与评注 举重成绩与体重关系的数学模型是评选总冠军方法的基础 通过世界纪录数据观察和机理分析分别建立线性模型 幂函数模型和幂函数改进模型 1 3估计出租车的总数 一些人喜欢记驶过身旁的汽车牌号 两难境地的决策 与朋友打赌的 骰子 共识 出现任何号码汽车的机会相同 随意记下驶过的10辆出租车牌号 0421 0128 0702 0410 0598 0674 0712 0529 0867 0312 估计这座城市出租车的总数 出租车牌号从某一个数字0101按顺序发放 1 3估计出租车的总数 问题分析 10个号码从小到大重新排列 x0 x 区间内全部整数值 总体 x1 x2 x10 总体的一个样本 根据样本和x0对总体的x作出估计 起始号码x0平移为0001 模型建立 总体 全部号码 0001 0002 x 样本 总体中的n个号码从小到大排列x1 x2 xn 建立由x1 x2 xn估计x的模型 基本假定 每个xi取自总体中任一号码的概率相等 x 出租车总数 1 3估计出租车的总数 模型1平均值模型 模型建立 总数是样本均值的2倍 模型2中位数模型 假定 样本的最小值与最大值在总体中对称 模型3两端间隔对称模型 x1 1 x xn 模型4平均间隔模型 把起始号码和样本排成数列 1 x1 x2 xn 相邻两数有n个间隔 x1 1 x2 x1 1 xn xn 1 1 n个间隔的平均值 模型5区间均分模型 将总体区间 1 x 平均分成n份 假定 样本中每个xi都位于小区间的中点 x xn应是小区间长度的一半 计算与分析 第1样本 0321 0028 0602 0310 0498 0574 0612 0429 0767 0212 第2样本 0249 0739 0344 0148 0524 0284 0351 0089 0206 0327 设定x0 0001 用5个模型估计出租车总数x 不合理 x 651 610 739 0739 不稳定 相差大 计算与分析 用全部样本 有统计依据 数值模拟 样本估计结果与总体对比 评价各个模型 用5个模型分别对每个样本估计总体x 画m个样本估计的x的直方图 分析x的分布 给定总体 1 2 x x 1000 从总体中取n 10个数为一个样本 共m 200个样本 对每个模型计算m个样本估计的x的平均值 标准差及平均值与真值x 1000间的误差 数值模拟 第1次模拟 第2次模拟 总体x 1000 每个样本n 10 m 200个样本 标准差大 标准差小 模型4 平均间隔模型 较优 模型1 数值模拟 第1次模拟的直方图 左低右高的非对称型 左右对称型 模型中起始号码已知 平移至1 限制了应用范围 小结与评注 5个模型中平均值和中位数模型用到一点统计 其他3个模型来自常识 后者竟然较前者更优 数值模拟是模型检验的重要方法 给定总体通过模拟产生样本 根据模型得到总体参数 进行比较和评价 问题 哪些模型可以推广到起始号码未知的情况 与 估计出租车的总数 相关的历史事实 二战中一支盟军的指挥部急需掌握德军坦克的数量 盟军俘获了若干辆德军坦克 得到它们的序列号码 情报人员获知这支部队的坦克号码按顺序编排 以俘获的坦克号码为样本 估计出坦克总量 英美情报机构通过捕获德军武器的序列编号 对军用轮胎 枪支 装甲车等众多装备的产量做出估计 战后将估计值与从档案中得到的实际产量进行比较 多数估计的误差在10 以内 1 4解读CPI CPI ConsumerPriceIndex 居民消费价格指数 每月9日左右国家统计局发布上月全国CPI数据 反映购买消费品和服务项目时价格变动趋势的数字 观察通货膨胀水平的重要指标 从数学建模的思路 按照数据分析方法解读CPI 按照时间顺序解读CPI 环比价格指数 以上月为基期进行对比 消除季节变化和节日对价格的影响 同比价格指数 反映当前价格的波动 以上年同月为基期进行对比 通常公布价格指数增长率 方便了解价格上涨幅度 2011 3环比增长率 0 2 2011 2环比增长率1 2 基期指数100 2011 3同比增长率5 4 全国2011年CPI各月份环比增长率 环比价格指数 pk 某年k月环比增长率 Pk 以上年12月为基期 本年k月的价格指数 pk为正Pk上升 pk为负Pk下降 pk涨幅回落Pk上升变缓 2011CPI环比 qk 某年k月同比增长率 同比价格指数 全国2011 2012年CPI各月份同比增长率 2012年比2011年每月价格上涨的幅度明显减少 qk j j年k月同比指数 环比价格指数与同比价格指数的关系 pk j j年k月环比指数 xk j j年k月价格指数 以j 2年12月为基期 从1月到k月以上年同一时期为基期进行对比 累计价格指数 全国2012年CPI各月份同比增长率和累计增长率 第k月的累计是1月至k月同比的平均值 k 1 2 12 几个月的价格指数以其各个月价格指数的平均值度量 年价格指数 每年1至12月同比的平均值 全国2004年至2013年CPI的增长 从2003年到2013年全国CPI增长35 按照分类结构解读CPI 与许多人对物价的亲身感受有较大差距 近10年CPI平均年增长率不过3 5 原因之一 CPI由国家统计局对全国居民家庭衣食住行各类消费品和服务价格综合加工得到 消费品和服务项目分8大类 约700个代表品种 权重根据居民家庭用于各种消费品和服务项目的开支占总消费支出的比重确定 CPI由价格及其权重二者共同决定 我国消费品和服务项目的类别及权重 2011年 按照分类结构解读CPI 居住次之 上世纪80年代食品权重约60 每次调整都下降 随着人们生活水平的提高及消费结构的变化 权重每5年 10年会有较大的调整 居住中并不包含近年飞涨的购房支出 官方的解释是购房属于投资而非消费 按照分类结构解读CPI 食品权重最大 教育 娱乐第三 vi 第i大类价格指数 v CPI总水平 wi 第i大类权重 v v的增长率 vi vi的增长率 wi vi vi 按照分类结构解读CPI 权重对CPI总水平的大小有很大影响 引起对权重数值合理性的研究和讨论 权重随时调整的具体情况不能为民众及时掌握 利用每个月公布的CPI数据校核权重是否变化 估算调整后的权重 成为关注者 研究者的课题 按照分类结构解读CPI 对权重的关注和讨论 几种校核与估算权重的方法 1 利用公布的 vi wi计算 v 检查与公布的 v是否相符 2013年CPI同比分类和总水平增长率 如果计算值与公布的 v相符 不能说明所有的wi没有改变 如果稍有不符 无法确认是否数字舍入误差所致 几种校核与估算权重的方法 公布的指数只有2位有效数字 对计算结果影响很大 1 利用公布的 vi wi计算 v 检查与公布的 v是否相符 2 利用公布的 vi及其对 v的影响计算权重 检查与原有的wi是否相符 几种校核与估算权重的方法 2013年1月食品同比上涨2 9 影响总水平约0 95 由2013 1 12公布的 v1和 v计算w1 原有w1 0 3179 2 利用公布的 vi及其对 v的影响计算权重 检查与原来的wi是否相符 几种校核与估算权重的方法 如果数据完整 可以对各个权重wi分别计算 校核 由于公布数据的有效数字所限 舍入误差对结果有不小影响 3 利用公布的n个月的 vi和 v作拟合 估计权重 vik vk i 1 8 k 1 n 用MATLAB命令w A b可得Aw b的最小二乘解 含8个未知数w1 w8的n 1个方程 几种校核与估算权重的方法 3 利用公布的n个月的 vi和 v作拟合 估计权重 几种校核与估算权重的方法 原始数据精度太低 1或2位有效数字 计算结果有较大差距 甚至出现负值 对权重加非负约束后结果仍相差较大 按照地区差别解读CPI 不同地区的经济发展和居民生活水平的差异较大 全国CPI环比 同比总水平与各地区情况不同 国家统计局还分 城市 和 农村 公布CPI数据 31个省 市 自治区统计局逐月公布当地CPI数据 可以用类似方法解读当地的CPI数据 从数据分析和数学建模角度看 资料较少且不够完整 只能根据查到的有限数据进行解读 小结与评注 CPI是当今社会的热门词汇 各种媒体特别是互联网上有大量经济政策方面的报道和评论 权重的几种校核与估算方法是编者的初步尝试 尚待进一步研究 1 5NBA赛程的分析与评价 全国大学生数学建模竞赛2008年D题 参考 工程数学学报 2008年增刊上参赛学生的优秀论文和命题人的文章 介绍建模过程 NBA是全世界篮球迷们最钟爱的赛事之一 姚易加盟以后更是让中国球迷宠爱有加 NBA共有30支球队 西部联盟 东部联盟各15支 大致按照地理位置 西部分西南 西北和太平洋3个区 东部分东南 中部和大西洋3个区 每区5支球队 对于2008 2009新赛季 常规赛阶段从2008年10月29日 北京时间 直到2009年4月16日 在这5个多月中共有1230场赛事 每支球队要进行82场比赛 附件1是30支球队2008 2009赛季常规赛的赛程表 附件2是分部 分区和排名情况 2007 2008赛季常规赛的结果 见 赛题原文 对于NBA这样庞大的赛事 编制一个完整的 对各球队尽可能公平的赛程是一件非常复杂的事情 赛程的安排对球队实力的发挥和战绩有一定的影响 从报刊上经常看到球员 教练和媒体对赛程的抱怨或评论 这个题目主要是要求用数学建模方法对已有的赛程进行定量的分析与评价 赛题原文 1 为了分析赛程对某一支球队的利弊 你认为有哪些要考虑的因素 根据这些因素将赛程转换为便于进行数学处理的数字格式 并给出评价赛程利弊的数量指标 3 分析赛程可以发现 每支球队与同区的每一球队赛4场 主客各2场 与不同部的每一球队赛2场 主客各1场 与同部不同区的每一球队有赛4场和赛3场 2主1客或2客1主 两种情况 每支球队的主客场数量相同且同部3个区的球队间保持均衡 试根据赛程找出与同部不同区球队比赛中 选取赛3场的球队的方法 这种方法如何实现 对该方法给予评价 也可以给出你认为合适的方法 赛题原文 2 按照1的结果计算 分析赛程对姚明加盟的火箭队的利弊 并找出赛程对30支球队最有利和最不利的球队 问题分析 决定球队整个赛季战绩的主要因素是球员的个人能力 特别是球星的作用 整体配合及教练水平等 赛程安排只对球队实力的发挥和战绩有一定的影响 问题1给出赛程影响球队战绩的因素 表为数量指标形式 并加以综合 建立评价赛程的模型 问题2用模型分析赛程对火箭队战绩的影响 找出赛程最有利和最不利的球队 问题分析 问题3常规赛每支球队82场比赛的构成 找出选取赛3场的2支球队的方法 与同部不同区 2区 每区5队的比赛中 有3队赛4场 2队赛3场 共 3 4 2 3 2 36场 与不同部的15支球队每队赛2场 共15 2 30场 与同区的4支球队每队赛4场 共4 4 16场 评价赛程的模型 1 分析赛程影响球队战绩的因素 力求合理 全面 背靠背比赛 连续两天比赛 的次数 相邻两场比赛间隔的均衡分配 连续客场比赛的次数 连续主场比赛的次数 连续与强队比赛的次数 尽量相互独立 不宜过多 比赛的总旅程 评价赛程的模型 1 分析赛程影响球队战绩的因素 连续3场 4场客场比赛 更精细的因素 背靠背比赛第2场是客场 把整个赛季各个对手的平均实力作为主要因素 一支球队各个对手的平均实力基本上与赛程无关 实力可用上赛季的排名或胜率衡量 2 给出赛程影响球队战绩的数量指标 预备工作 将赛程转换为便于进行数学处理的数字格式 用合适的数字表示强弱队 分解成各支球队的赛程 比赛日期转换为第几天比赛 用0 1表示主 客场 日期时间星期客队主队2008 10 2908 00星期三克里夫兰骑士波士顿凯尔特人2008 10 2908 30星期三密尔沃基雄鹿芝加哥公牛2008 10 2910 30星期三波特兰开拓者洛杉矶湖人2008 10 3007 00星期四新泽西网华盛顿奇才 比赛间隔的均衡分配用间隔天数的标准差表示 2 给出赛程影响球队战绩的数量指标 编程检索 背靠背比赛的次数连续客场比赛的次数连续与强队比赛的次数 常规赛5个多月每队比赛82场 对每一因素的原始指标ai作标准化处理 利用平移和伸缩将ai归一化到区间 0 1 内 直接用原始指标ai 构造综合指标会遇到困难 2 给出赛程影响球队战绩的数量指标 3 确定综合指标 建立赛程评价模型 对标准化的各指标加权平均 用层次分析法 AHP 得到权重 根据自己的知识直接给出权重 问卷调查 对各因素重要性打分 综合得到权重 客观判断 关键是确定权重 AHP 信息熵法见本书提高篇第8章 信息熵法 计算各指标的区分度 得到权重 回归分析 以最后战绩 排名或胜率 为因变量 以各分指标为自变量 建立线性回归模型 3 确定综合指标 建立赛程评价模型 利用上赛季的数据计算回归系数 作为各指标的权重 赛程不是影响战绩的主要因素 而不包含影响因变量主要因素的回归模型是没有意义的 此法不可取 4 求解模型 得出赛程对各队战绩的影响 将赛程评价模型用于2008 2009赛季30支球队常规赛的赛程 得到赛程对各队战绩影响的排序 两篇优秀论文得到的结果 若采用的指标不同 其结果也不同 选择赛3场球队的模型 每年赛程中唯一不确定之处 从同部不同区 2区 的每区5队中选择2队赛3场 其余3队赛4场 题目要求给出选择赛3场的球队的方法 每年NBA常规赛30支球队及分部 分区形式不变 如2008 2009赛季西部西南区火箭赛3场球队 西北区 爵士 掘金 开拓者 森林狼 雷霆 太平洋区 湖人 太阳 快船 勇士 国王 选择赛3场球队的模型 1 分析2008 2009赛程 找不到从5队中选2队的规律 2 转化为分配问题 在5 5矩阵X xij 中确定xij 0 1 使矩阵的每一行及每一列有且只有2个xij 1 如 有多种解法 结果不唯一 3 分配问题化为0 1规划模型求解 从NBA联盟的商业性运作和比赛的观赏性出发 应让实力相差较大的两队少赛一场 赛3场 求解0 1规划模型使目标函数最大 用上赛季两队之间的排名或胜率差衡量两队实力差 以每两队实力差之和为目标函数 设0 1变量xij 约束条件与分配问题相同 4 查阅2004 2005以来5个赛季赛程 发现选择规律 采取5年为周期的特定模式循环进行 2011 2012因劳资纠纷比赛减至66场 赛程被打乱 小结与评注 对一个方案 如赛程 的评价包括确定各项准则 指标 及其权重 计算综合准则 指标 等步骤 属于多属性决策 本书第8章有详细介绍 NBA完全赛程的编制非常复杂 除保证一定的公平性外 还有一些要考虑的因素 如尽可能每天都有强队与强队比赛 以提高电视收视率 两支球队间几场比赛的时间尽可能拉开 两支球队共用一个球场的比赛时间要错开等 小结与评注 与5支球队全赛4场相比 总共只少4场比赛 约8天时间 而整个赛季共82场比赛 160多天 NBA常规赛赛程中为什么规定与同部不同区的每区5支球队中的2队赛3场 是为了缩短赛季长度吗 如果每个赛季每支球队对手和比赛场次都不变 可以找一个固定的 对所有球队公平的赛程 每个赛季与同部不同区对手的比赛场次有变化 使整个赛程重新安排 给球员和观众带来新鲜感 死板 无趣
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!