数据处理方法与依据

上传人:y****n 文档编号:249302874 上传时间:2024-10-28 格式:PPT 页数:31 大小:594.50KB
返回 下载 相关 举报
数据处理方法与依据_第1页
第1页 / 共31页
数据处理方法与依据_第2页
第2页 / 共31页
数据处理方法与依据_第3页
第3页 / 共31页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,LOGO,数据处理的方法与工具,吕士钦,太原理工大学,1 概述,近几年,数学建模竞赛的规模越来越大,水平越来越高;赛题难度也越来越大,对学生数据处理能力要求也越来越高,最困难的有两个方面:,(1)无数据建模问题;,(2)海量数据问题。,无数据建模问题,例如:,(1)20,10B:2010年上海世博会影响力的定量评估,;,(2)2008B:,高等教育学费标准探讨,;,往往为综合评价类模型,赛题来自于实际问题,开放程度比较高,需要据相关多因素信息及收集到数据对实际对象进行客观、公正、合理的全面评价。,无数据建模问题,数据收集手段与方法:,(1)权威机构或相关部门发布;,(2)通过搜索引擎在Internet搜索;,(3)通过,问卷、实验,等自主采集;,例如:,公交车门的高度是按照成年男子与车门顶部碰头的机率不超过1%设计的,山西省欲采购一批公交车,请问应将车门高度设计成多高比较合适?,无数据建模问题,问题的关键在于获取山西省成年男子的身高情况,我们优先考虑的方法是(1)(2),在无法通过前两种方法获取的情况下,可以通过(3)获得。显然取样,进而可以获得山西成年男子身高X的样本均值和样本方差,剩下的就是求解一个简单的概率问题而已:,P(X=99%,海量数据建模问题,20,00A,:DNA序列分类;,20,00B,:钢管订购和运输;,20,01A,:血管的三维重建;,20,01B,:公交车调度;,20,02B,:彩票中的数学;,20,03A,:SARS的传播;,20,04A,:奥运会临时超市网点设计;,海量数据建模问题,20,04B,:电力市场的输电阻塞管理;,20,05A,:长江水质的评价和预测;,20,05B,:DVD在线租赁;,20,06A,:出版社的资源配置;,20,06B,:艾滋病疗法的评价及疗效的预测,尤其是:,2011年夏令营:,测井曲线自动分层问题(10M),海量数据建模问题,显然大批量数据是很难手工处理的,需要我们借助于计算机以及一些数据处理软件来完成,需要掌握基本的计算机使用与编程能力。,实在无法完成大批量数据处理的情况下,,随机截取,典型性数据也不失为一种合理的解决办法。,海量数据建模问题,数学建模中常用软件:,World,MATLAB,Mathematica,Lindo,Execl,SPSS,C&C+,Lingo,海量数据建模问题,软件学习的关键:,(1)数据的读入;,(2)异常数据处理;,(3)数据规范化与归一化;,(4)常见问题与软件功能的对应。,(5)绘图与可视化输出。,(1)数据的读入,数据的读入:,a)复制、粘贴;,b)功能函数。,Matlab中textread():,a=textread(data.txt,%*s%*s%f%*s,headerlines,3,delimiter,),headerlines是文件头有多少行delimiter就是词跟词之间的分隔符。%s是字符串的意思,%f是浮点数的意思而在它们中间加上*,表示跳过这个词。%*s%*s的意思就是跳过前两个词。,(1)数据的读入,Matlab中imread():,该函数用于读取图片文件中的数据。,filename=e.bmp;,imgRgb=imread(filename);%读入一幅彩色图像,imshow(imgRgb);%显示彩色图像,Matlab中xlsread():,该函数用于读取Execl文件中的数据。,(1)数据的读入,Lingo中file():,该函数用于文本文件的读入。,Lingo中,TEXT,():,该,函数输出数据(文本文件),。,Lingo中,OLE,(),该,函数与电子表格软件(如EXCEL)连接,;,Lingo中,ODBC,(),该,函数与数据库连接,。,(1)数据的读入,FILE和TEXT:文本文件输入输出,MODEL:,SETS:,MYSET/FILE(myfile.txt)/:FILE(myfile.txt);,ENDSETS,MIN=SUM(MYSET(I):,SHIP(I)*COST(I);,FOR(MYSET(I):,CON1 SHIP(I)NEED(I);,CON2 SHIP(I)SUPPLY(I);,DATA:,COST=FILE(myfile.txt);,NEED=FILE(myfile.txt);,SUPPLY=FILE(myfile.txt);,TEXT(result.txt)=STATUS(),SHIP,DUAL(SHIP),RANGED(SHIP),DUAL(CON1),RANGEU(CON2);,ENDDATA,END,myfile.txt文件的内容、格式:,Seattle,Detroit,Chicago,Denver,COST,NEED,SUPPLY,SHIP,12,28,15,20,1600,1800,1200,1000,1700,1900,1300,1100,(1)数据的读入,c)计算机语言编程,文本文档中写着:,1 Intel_Pentium_E_2140 495 0,2 AMD_Athlon64_X2_3600+465 0,3 Intel_Celeron_420 480 0,.,要求将这些读入C程序中,(编号,名称,价格,已售出量组成),#include stdio.h,struct Hardware_database,int number;,char name40;,int price;,int sales;,CPU50;,int main(int argc,char*argv),int i;,FILE*CPU_record;,PU_record=fopen(c:CPU_Data.txt,r);,for(i=1;feof(CPU_record)=0;i+),fscanf(CPU_record,%d%s%d%dn,printf(Press AnyKey to Back);,getchar();,fclose(CPU_record);,return 0;,(2)异常数据处理,(2)异常数据处理,a)散点图。Matlab中可由plot()实现,在SPSS中可通过点选菜单的方式实现。画散点图还可以帮助我们找出数据的规律。,(2)异常数据处理,b)3,检测法,(2)异常数据处理,(2)异常数据处理,C)聚类分析法,(2)异常数据处理,异常数据处理:,剔除 均值替代 回归替代,异常数据的处理由SPSS、SAS、mintab实现比其他软件更方便。,(3)数据规范化,如果不对这些指标作相应的无量纲处理,则在综合评价过程中就会出“,大数吃小数,”的错误结果,从而导致最后得到错误的评价结论。,无量纲化处理又称为指标数据的,标准化,或,规范化,处理。,常用方法,:标准差法、极值差法和功效系数法等。,(3)数据规范化,(3)数据规范化,(3)数据规范化,极大型指标:,总是期望指标的取值越大越好;,极小型指标:,总是期望指标的取值越小越好;,中间型指标:,总是期望指标的取值既不要太大,也不要太小为好,即取适当的中间值为最好;,区间型指标:,总是期望指标的取值最好是落在某一个确定的区间内为最好。,在将数据无量纲化之前,在有些问题下,特别是综合评价模型中,还需要将数据根据处理目标一致化。一般说来,数据指标一般说来,在评价指标中可能包含有,:,(3)数据规范化,(3)数据规范化,例:,长江水质的综合评价模型,谢 谢 !,太原理工大学数学学院,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!