《数据分析模型》PPT课件.ppt

资源描述

1 数据分析模型怎样表述解读分析发现规律现实生活中的数据数量繁多杂乱无章找出有代表性的数值或者利用图形表述分析解释相关的实际现象利用统计方法通过大量数据探索发现研究对象的数量规律本书提高篇第7章 1 1薪金到底是多少1 2评选举重总冠军1 3估计出租车的总数1 4解读CPI1 5NBA赛程的分析与评价全国大学生数学建模竞赛2008年D题 1 数据分析模型 1 1薪金到底是多少日常生活中遇到的数据一个班的考试成绩及按成绩的排名一个年级全部男同学的身高超市中各个品牌牙膏一个月的销量公司里每位职工一个月的薪金用几个数简明地表示一组数据整体的大小 n个数据的代表数平均数 n个数据的算术平均值 n个数据的代表数中位数 n个数据从小到大或从大到小排序位于正中的数若n为偶数取位于正中的2个数的平均值众数 n个数据中出现次数最多的那个或几个数 3个代表数反映一组数据整体大小的不同侧面某公司100位职工的月薪千元薪金到底是多少平均数 8 6千元中位数 6千元第50 51人都是6000元众数 5千元 5千元的人数最多公司高层对外宣传工会干部为职工争取福利税务部门调查个人所得税的起征点 3个代表数的特点平均数平等利用每一数据的信息反映数据整体大小有方便的计算公式应用最广受少数特大或特小数据影响会失去代表性中位数只取决于按大小排列的位置不受特大或特小数据影响能反映数据的中等水平未充分利用信息数据量大时计算较繁众数常作为选择最多最佳的依据未充分利用信息并列第一时无法做唯一抉择如何选用代表数与10年前同龄男生身高作对比估计增长量数据某高三年级全部男同学的身高定制校服尺寸的参考数据生产小组15个工人每人一天生产零件的数目与其他小组比较作为评选先进的参考制定标准日产量使多数人能超产平均数众数平均数中位数数据班上20名学生一次考试成绩 15人80分 2人90分 1人10分 1人15分小李75分如何选用代表数与其他班级或本班以前成绩对比小李衡量自己的标准其他代表数平均分74分中位数80分高于平均分倒数第3名跳水比赛的评分标准 7位裁判的分数去掉一个最高分和一个最低分剩下5个分数的总和乘以动作难度系数为最后得分中位数和平均数的结合哪种解读更有道理某股份制公司50名职工和5位股东近3年的利润分配公司老板职工薪金比股东分红增长得更多更快可谓有福同享哪种解读更有道理工会负责人 2013年职工薪金增长到167 股东分红增长到200 应更顾及职工利益职工与股东人均分红相比职工人均薪金增长得太慢呼吁大幅度增加职工的薪金哪种解读更有道理 k 0 1 2 2011 2012 2013 xk 职工薪金总额 yk 股东分红总额 xk斜率大于yk斜率 yk y0斜率大于xk x0斜率斜率相差5倍职工薪金增长快股东分红增长快股东人均分红增长快数值随时间的变化可以用绝对增长或相对增长表示二者说明同一问题的不同侧面小结与评注同样的一组数据可以有不同的表述和解读办法取决于要说明什么问题达到什么目的 3个常用的代表数平均数中位数和众数具有各自的特点和用法举重 1 2评选举重总冠军依靠运动员全身力量完成的体育项目按照运动员体重划分级别进行比赛赛艇拳击摔跤每个级别都有一个冠军能评选出一个总冠军吗 56kg 62kg 69kg 77kg 85kg 94kg 105kg 105kg以上 1 2评选举重总冠军男子举重比赛按运动员体重上限分为8个级别问题每个级别设3个项目抓举挺举总成绩每个级别每个项目都产生一个冠军同一项目如抓举的8个冠军中怎样选出总冠军不同级别冠军成绩按体重折合到某个标准级别比较折合成绩选出最高的作为总冠军 1 2评选举重总冠军问题分析比赛产生各级别冠军成绩的实际值建立体重与举重成绩的数学模型数据收集利用举重比赛的世界纪录建立数学模型多年积累下来的世界记录与某一次比赛成绩相比更能避免偶然性不同级别成绩的差别基本上由运动员体重决定不掌握创造记录的运动员的实际体重因为体重越大举得越重比赛时运动员体重都会调整到非常接近各级别的上限 105kg以上级未设上限只在其余7个级别中选总冠军数据收集利用举重比赛的世界纪录建立数学模型世界记录与体重数据的散点图数据分析大致呈线性关系大级别成绩的增加变慢线性关系有所改进幂函数幂次小于1 可能更合适建立举重总成绩y与运动员体重w的数学模型模型建立模型1线性模型最小二乘法编程计算k 2 7039 430 160 模型2幂函数模型运动生理学确定幂函数的幂次举重总成绩y与运动员体重w的模型 s 肌肉截面积 l 身体尺寸最小二乘法编程计算k 20 4711 模型3幂函数改进模型举重总成绩y与运动员体重w的模型最小二乘法举重过程中力量的损失及身体尺寸的变化 50名顶尖运动员成绩的统计分析举重总成绩y与运动员体重w的模型线性模型幂函数模型幂函数改进模型两个幂函数模型比线性模型改进不大评选总冠军 wi i 1 2 7 从轻到重7个级别的体重上限 yi 一次比赛中各级别冠军的实际成绩以线性模型为例评选总冠军任取级别i 4 w4 77kg级为标准使z4 y4 与实力成正比的指标按7个级别冠军的折合成绩排名第一者为总冠军将体重折合成77kg级后级别i冠军的实际成绩模型中系数k随世界纪录的刷新而改变评选总冠军折合成绩评选2008年北京奥运会男子举重比赛总冠军 3个模型中都只有一个以因子形式出现的系数k 可以在构造折合成绩时消去便于评选总冠军小结与评注举重成绩与体重关系的数学模型是评选总冠军方法的基础通过世界纪录数据观察和机理分析分别建立线性模型幂函数模型和幂函数改进模型 1 3估计出租车的总数一些人喜欢记驶过身旁的汽车牌号两难境地的决策与朋友打赌的骰子共识出现任何号码汽车的机会相同随意记下驶过的10辆出租车牌号 0421 0128 0702 0410 0598 0674 0712 0529 0867 0312 估计这座城市出租车的总数出租车牌号从某一个数字0101按顺序发放 1 3估计出租车的总数问题分析 10个号码从小到大重新排列 x0 x 区间内全部整数值总体 x1 x2 x10 总体的一个样本根据样本和x0对总体的x作出估计起始号码x0平移为0001 模型建立总体全部号码 0001 0002 x 样本总体中的n个号码从小到大排列x1 x2 xn 建立由x1 x2 xn估计x的模型基本假定每个xi取自总体中任一号码的概率相等 x 出租车总数 1 3估计出租车的总数模型1平均值模型模型建立总数是样本均值的2倍模型2中位数模型假定样本的最小值与最大值在总体中对称模型3两端间隔对称模型 x1 1 x xn 模型4平均间隔模型把起始号码和样本排成数列 1 x1 x2 xn 相邻两数有n个间隔 x1 1 x2 x1 1 xn xn 1 1 n个间隔的平均值模型5区间均分模型将总体区间 1 x 平均分成n份假定样本中每个xi都位于小区间的中点 x xn应是小区间长度的一半计算与分析第1样本 0321 0028 0602 0310 0498 0574 0612 0429 0767 0212 第2样本 0249 0739 0344 0148 0524 0284 0351 0089 0206 0327 设定x0 0001 用5个模型估计出租车总数x 不合理 x 651 610 739 0739 不稳定相差大计算与分析用全部样本有统计依据数值模拟样本估计结果与总体对比评价各个模型用5个模型分别对每个样本估计总体x 画m个样本估计的x的直方图分析x的分布给定总体 1 2 x x 1000 从总体中取n 10个数为一个样本共m 200个样本对每个模型计算m个样本估计的x的平均值标准差及平均值与真值x 1000间的误差数值模拟第1次模拟第2次模拟总体x 1000 每个样本n 10 m 200个样本标准差大标准差小模型4 平均间隔模型较优模型1 数值模拟第1次模拟的直方图左低右高的非对称型左右对称型模型中起始号码已知平移至1 限制了应用范围小结与评注 5个模型中平均值和中位数模型用到一点统计其他3个模型来自常识后者竟然较前者更优数值模拟是模型检验的重要方法给定总体通过模拟产生样本根据模型得到总体参数进行比较和评价问题哪些模型可以推广到起始号码未知的情况与估计出租车的总数相关的历史事实二战中一支盟军的指挥部急需掌握德军坦克的数量盟军俘获了若干辆德军坦克得到它们的序列号码情报人员获知这支部队的坦克号码按顺序编排以俘获的坦克号码为样本估计出坦克总量英美情报机构通过捕获德军武器的序列编号对军用轮胎枪支装甲车等众多装备的产量做出估计战后将估计值与从档案中得到的实际产量进行比较多数估计的误差在10 以内 1 4解读CPI CPI ConsumerPriceIndex 居民消费价格指数每月9日左右国家统计局发布上月全国CPI数据反映购买消费品和服务项目时价格变动趋势的数字观察通货膨胀水平的重要指标从数学建模的思路按照数据分析方法解读CPI 按照时间顺序解读CPI 环比价格指数以上月为基期进行对比消除季节变化和节日对价格的影响同比价格指数反映当前价格的波动以上年同月为基期进行对比通常公布价格指数增长率方便了解价格上涨幅度 2011 3环比增长率 0 2 2011 2环比增长率1 2 基期指数100 2011 3同比增长率5 4 全国2011年CPI各月份环比增长率环比价格指数 pk 某年k月环比增长率 Pk 以上年12月为基期本年k月的价格指数 pk为正Pk上升 pk为负Pk下降 pk涨幅回落Pk上升变缓 2011CPI环比 qk 某年k月同比增长率同比价格指数全国2011 2012年CPI各月份同比增长率 2012年比2011年每月价格上涨的幅度明显减少 qk j j年k月同比指数环比价格指数与同比价格指数的关系 pk j j年k月环比指数 xk j j年k月价格指数以j 2年12月为基期从1月到k月以上年同一时期为基期进行对比累计价格指数全国2012年CPI各月份同比增长率和累计增长率第k月的累计是1月至k月同比的平均值 k 1 2 12 几个月的价格指数以其各个月价格指数的平均值度量年价格指数每年1至12月同比的平均值全国2004年至2013年CPI的增长从2003年到2013年全国CPI增长35 按照分类结构解读CPI 与许多人对物价的亲身感受有较大差距近10年CPI平均年增长率不过3 5 原因之一 CPI由国家统计局对全国居民家庭衣食住行各类消费品和服务价格综合加工得到消费品和服务项目分8大类约700个代表品种权重根据居民家庭用于各种消费品和服务项目的开支占总消费支出的比重确定 CPI由价格及其权重二者共同决定我国消费品和服务项目的类别及权重 2011年按照分类结构解读CPI 居住次之上世纪80年代食品权重约60 每次调整都下降随着人们生活水平的提高及消费结构的变化权重每5年 10年会有较大的调整居住中并不包含近年飞涨的购房支出官方的解释是购房属于投资而非消费按照分类结构解读CPI 食品权重最大教育娱乐第三 vi 第i大类价格指数 v CPI总水平 wi 第i大类权重 v v的增长率 vi vi的增长率 wi vi vi 按照分类结构解读CPI 权重对CPI总水平的大小有很大影响引起对权重数值合理性的研究和讨论权重随时调整的具体情况不能为民众及时掌握利用每个月公布的CPI数据校核权重是否变化估算调整后的权重成为关注者研究者的课题按照分类结构解读CPI 对权重的关注和讨论几种校核与估算权重的方法 1 利用公布的 vi wi计算 v 检查与公布的 v是否相符 2013年CPI同比分类和总水平增长率如果计算值与公布的 v相符不能说明所有的wi没有改变如果稍有不符无法确认是否数字舍入误差所致几种校核与估算权重的方法公布的指数只有2位有效数字对计算结果影响很大 1 利用公布的 vi wi计算 v 检查与公布的 v是否相符 2 利用公布的 vi及其对 v的影响计算权重检查与原有的wi是否相符几种校核与估算权重的方法 2013年1月食品同比上涨2 9 影响总水平约0 95 由2013 1 12公布的 v1和 v计算w1 原有w1 0 3179 2 利用公布的 vi及其对 v的影响计算权重检查与原来的wi是否相符几种校核与估算权重的方法如果数据完整可以对各个权重wi分别计算校核由于公布数据的有效数字所限舍入误差对结果有不小影响 3 利用公布的n个月的 vi和 v作拟合估计权重 vik vk i 1 8 k 1 n 用MATLAB命令w A b可得Aw b的最小二乘解含8个未知数w1 w8的n 1个方程几种校核与估算权重的方法 3 利用公布的n个月的 vi和 v作拟合估计权重几种校核与估算权重的方法原始数据精度太低 1或2位有效数字计算结果有较大差距甚至出现负值对权重加非负约束后结果仍相差较大按照地区差别解读CPI 不同地区的经济发展和居民生活水平的差异较大全国CPI环比同比总水平与各地区情况不同国家统计局还分城市和农村公布CPI数据 31个省市自治区统计局逐月公布当地CPI数据可以用类似方法解读当地的CPI数据从数据分析和数学建模角度看资料较少且不够完整只能根据查到的有限数据进行解读小结与评注 CPI是当今社会的热门词汇各种媒体特别是互联网上有大量经济政策方面的报道和评论权重的几种校核与估算方法是编者的初步尝试尚待进一步研究 1 5NBA赛程的分析与评价全国大学生数学建模竞赛2008年D题参考工程数学学报 2008年增刊上参赛学生的优秀论文和命题人的文章介绍建模过程 NBA是全世界篮球迷们最钟爱的赛事之一姚易加盟以后更是让中国球迷宠爱有加 NBA共有30支球队西部联盟东部联盟各15支大致按照地理位置西部分西南西北和太平洋3个区东部分东南中部和大西洋3个区每区5支球队对于2008 2009新赛季常规赛阶段从2008年10月29日北京时间直到2009年4月16日在这5个多月中共有1230场赛事每支球队要进行82场比赛附件1是30支球队2008 2009赛季常规赛的赛程表附件2是分部分区和排名情况 2007 2008赛季常规赛的结果见赛题原文对于NBA这样庞大的赛事编制一个完整的对各球队尽可能公平的赛程是一件非常复杂的事情赛程的安排对球队实力的发挥和战绩有一定的影响从报刊上经常看到球员教练和媒体对赛程的抱怨或评论这个题目主要是要求用数学建模方法对已有的赛程进行定量的分析与评价赛题原文 1 为了分析赛程对某一支球队的利弊你认为有哪些要考虑的因素根据这些因素将赛程转换为便于进行数学处理的数字格式并给出评价赛程利弊的数量指标 3 分析赛程可以发现每支球队与同区的每一球队赛4场主客各2场与不同部的每一球队赛2场主客各1场与同部不同区的每一球队有赛4场和赛3场 2主1客或2客1主两种情况每支球队的主客场数量相同且同部3个区的球队间保持均衡试根据赛程找出与同部不同区球队比赛中选取赛3场的球队的方法这种方法如何实现对该方法给予评价也可以给出你认为合适的方法赛题原文 2 按照1的结果计算分析赛程对姚明加盟的火箭队的利弊并找出赛程对30支球队最有利和最不利的球队问题分析决定球队整个赛季战绩的主要因素是球员的个人能力特别是球星的作用整体配合及教练水平等赛程安排只对球队实力的发挥和战绩有一定的影响问题1给出赛程影响球队战绩的因素表为数量指标形式并加以综合建立评价赛程的模型问题2用模型分析赛程对火箭队战绩的影响找出赛程最有利和最不利的球队问题分析问题3常规赛每支球队82场比赛的构成找出选取赛3场的2支球队的方法与同部不同区 2区每区5队的比赛中有3队赛4场 2队赛3场共 3 4 2 3 2 36场与不同部的15支球队每队赛2场共15 2 30场与同区的4支球队每队赛4场共4 4 16场评价赛程的模型 1 分析赛程影响球队战绩的因素力求合理全面背靠背比赛连续两天比赛的次数相邻两场比赛间隔的均衡分配连续客场比赛的次数连续主场比赛的次数连续与强队比赛的次数尽量相互独立不宜过多比赛的总旅程评价赛程的模型 1 分析赛程影响球队战绩的因素连续3场 4场客场比赛更精细的因素背靠背比赛第2场是客场把整个赛季各个对手的平均实力作为主要因素一支球队各个对手的平均实力基本上与赛程无关实力可用上赛季的排名或胜率衡量 2 给出赛程影响球队战绩的数量指标预备工作将赛程转换为便于进行数学处理的数字格式用合适的数字表示强弱队分解成各支球队的赛程比赛日期转换为第几天比赛用0 1表示主客场日期时间星期客队主队2008 10 2908 00星期三克里夫兰骑士波士顿凯尔特人2008 10 2908 30星期三密尔沃基雄鹿芝加哥公牛2008 10 2910 30星期三波特兰开拓者洛杉矶湖人2008 10 3007 00星期四新泽西网华盛顿奇才比赛间隔的均衡分配用间隔天数的标准差表示 2 给出赛程影响球队战绩的数量指标编程检索背靠背比赛的次数连续客场比赛的次数连续与强队比赛的次数常规赛5个多月每队比赛82场对每一因素的原始指标ai作标准化处理利用平移和伸缩将ai归一化到区间 0 1 内直接用原始指标ai 构造综合指标会遇到困难 2 给出赛程影响球队战绩的数量指标 3 确定综合指标建立赛程评价模型对标准化的各指标加权平均用层次分析法 AHP 得到权重根据自己的知识直接给出权重问卷调查对各因素重要性打分综合得到权重客观判断关键是确定权重 AHP 信息熵法见本书提高篇第8章信息熵法计算各指标的区分度得到权重回归分析以最后战绩排名或胜率为因变量以各分指标为自变量建立线性回归模型 3 确定综合指标建立赛程评价模型利用上赛季的数据计算回归系数作为各指标的权重赛程不是影响战绩的主要因素而不包含影响因变量主要因素的回归模型是没有意义的此法不可取 4 求解模型得出赛程对各队战绩的影响将赛程评价模型用于2008 2009赛季30支球队常规赛的赛程得到赛程对各队战绩影响的排序两篇优秀论文得到的结果若采用的指标不同其结果也不同选择赛3场球队的模型每年赛程中唯一不确定之处从同部不同区 2区的每区5队中选择2队赛3场其余3队赛4场题目要求给出选择赛3场的球队的方法每年NBA常规赛30支球队及分部分区形式不变如2008 2009赛季西部西南区火箭赛3场球队西北区爵士掘金开拓者森林狼雷霆太平洋区湖人太阳快船勇士国王选择赛3场球队的模型 1 分析2008 2009赛程找不到从5队中选2队的规律 2 转化为分配问题在5 5矩阵X xij 中确定xij 0 1 使矩阵的每一行及每一列有且只有2个xij 1 如有多种解法结果不唯一 3 分配问题化为0 1规划模型求解从NBA联盟的商业性运作和比赛的观赏性出发应让实力相差较大的两队少赛一场赛3场求解0 1规划模型使目标函数最大用上赛季两队之间的排名或胜率差衡量两队实力差以每两队实力差之和为目标函数设0 1变量xij 约束条件与分配问题相同 4 查阅2004 2005以来5个赛季赛程发现选择规律采取5年为周期的特定模式循环进行 2011 2012因劳资纠纷比赛减至66场赛程被打乱小结与评注对一个方案如赛程的评价包括确定各项准则指标及其权重计算综合准则指标等步骤属于多属性决策本书第8章有详细介绍 NBA完全赛程的编制非常复杂除保证一定的公平性外还有一些要考虑的因素如尽可能每天都有强队与强队比赛以提高电视收视率两支球队间几场比赛的时间尽可能拉开两支球队共用一个球场的比赛时间要错开等小结与评注与5支球队全赛4场相比总共只少4场比赛约8天时间而整个赛季共82场比赛 160多天 NBA常规赛赛程中为什么规定与同部不同区的每区5支球队中的2队赛3场是为了缩短赛季长度吗如果每个赛季每支球队对手和比赛场次都不变可以找一个固定的对所有球队公平的赛程每个赛季与同部不同区对手的比赛场次有变化使整个赛程重新安排给球员和观众带来新鲜感死板无趣

展开阅读全文