资源描述
数学建模方法浅谈,孟大志北京工业大学dzhmeng07Tel:13701377108,李大潜院士倡导:问题驱动的应用数学。数学建模的目的是科学研究与数学应用。应用数学方法:数学建模和科学与工程计算构成了数学应用的两大支柱。,引子:大学生的问题:数学建模=数学引模?,目前的数学建模教学:介绍建模五步法(一节课);工具训练(两节课);讲解案例(二十节课);练习(十节课),如何建模?,一、数学建模的本质方法是什么?,类比、引用和借鉴是很有效的方法:现状!,数学建模方法=创造性的本质方法+模型类比方法,但是:,例一、Web中的问题,网络已经成为现代人的一种生活方式。在网上,每天有成千上万的多媒体文件在传输(例如,路透社每天收到网上文本文件达20万)。试建立数学模型,使得可以对这些文件进行自动分类,以便人们阅读和使用。,没有可类比的案例时怎么办?,例二、中国菜系研究,中国是一个美食及其文化非常丰富的国家,因为国土辽阔,人口众多。中国著名的菜系:苏菜、闽菜、川菜、鲁菜、粤菜、湘菜、浙菜、徽菜。请用数学建模方法研究这些菜系的特点。,1、模型?数学?数学模型?,从基本概念的理解出发:模型?+数学?数学模型?如何建模?,问题:如何从数学模型的概念出发构造方法,1)社会科学模型经济与管理科学模型、军事模型(越战)、政治模型、社会学模型等等。,1.1什么是模型,这是一个通过举例或指认回答的简单问题。,例选举模型:多数选举法、累计选举法等等,是特种社会活动的模型。,例经济学模型:市场模型、竞争模型、企业战略模型、股票模型、金融模型,等等。,这些模型共同特点是:分析对象的结构,表达方式易于理解,抽象度低。,建筑模型,交通模型,电路模型,服装模型等等。表达:建筑设计图、交通网络、电路图、服装模版等。,2)工程技术模型,3)生命科学模型新陈代谢模型、光合作用模型、血液循环模型、DNA双螺旋模型、蛋白质结构模型等等。,4)化学模型苯环、化学健理论、反应平衡等等;,5)物理模型基本粒子、原子模型、晶体模型、光学的衍射等等。,用专业理论抽象出的结构,并用专业语言表示的模型。,1.2模型是什么?,模型:以特定目的对事物原型抽象出结构并适当表示。,抽象出结构:不是一般概念的抽象,而是结构的抽象;,适当的表示:使用不同知识与方法,需要不同的语言表示。,特定目的:目的不同,关注的结构(事物的内部联系)不同;,例.飞机模型目标不同,模型不同,目的:空气动力学研究抽象结构:外型结构,除去内部构造;,目的:机舱设计抽象结构:内部空间结构,除去外部结构;,不同目的关注的内容不同,抽象的结构不同。,表示:专业图形和航空语言表示。,例.地图是结构的抽象!,概念的抽象(不是模型!):楼群、居住小区、公共场所与设施、商区、政府机关、河流、湖泊、公交线路、各级公路、快速路、高速路、立交桥等等。,目的:城市交通研究,抽象出结构:小区、商区、立交桥、道路、交叉路口等概念的关联和区分忽略细部特征、概念的部分内涵、人口结构等等。,模型表示:城市交通地图,1.3核心是结构,理解原型的结构,抽象并表示结构是核心问题。,什么是结构?,抽象定义:集合的结构是集合的子集族。,例图书馆,字符集:中文字、英文字母、数字等等各种字符的全体。,书、文章、多媒体文本等形成子集族集合的文本结构。,文本按知识类型分类,形成不同层次的子集族国际图书分类法图书馆的藏书结构专业模型。,例.语言的不同结构产生不同的文学信息,唐诗清明时节雨纷纷路上行人欲断魂借问酒家何处有牧童遥指杏花村,宋词清明时节雨纷纷路上行人欲断魂。借问酒家何处有牧童遥指杏花村。,剧本(元曲)清明时节雨纷纷路上行人(欲断魂):借问酒家何处有?牧童(遥指):杏花村。,时间环境地点人物语言另人物动作语言,抽象出结构:,七言唐诗,比较规整,适于言志“诗言志”,宋词,错落有序,用语活跃,适于抒情“词抒情”,元曲时间、地点、情景、人物、动作、言语等。用语白话,易懂。,百姓故事,结构的不同表示可以表现出文学基调不同:,用音高表示:,唏唏唏唏,唏啦嫂发米来斗,嫂啦米啦嫂米,规则,变化,结构主义学派(Bourbaki):数学=集合+结构,2.数学是什么?,这是一个困难的问题,并没有唯一的答案。,布巴基学派认为有三种母结构:序结构、代数结构和拓扑结构;其他数学结构都是母结构的组合或复合,形成复杂结构。不同的数学就是结构不同。,例如所谓实数直线R,就是由全体实数构成的一维欧氏空间我们将看到,R是一个完备的阿基米德全序域它是由代数结构(域)、序结构(全序)、拓扑结构(完备性结构)形成的分支结构,2.1数学的普适性,原型:具体的元素与部件具体的结构,数学:抽象的元素抽象的结构,数学研究的内容决定了数学的普适性!,3.什么是数学模型,“定义”:模型原型结构的适当表示;数学:集合+结构,数学是研究结构的,数学模型:原型结构的数学表示。“定义”如何建模?,3)推导模型公式完善模型的假设,并表示成适定的形式。,4)求解模型选择正确的解法,特别是数值计算与分析。,5)回答问题解释数学解,分析鲁棒性和近似假定,确定解对于问题的作用。,2)选择建模方法利用经验、技巧和文献选择解决问题的一般性求解方法。,1)提出问题列出所有变量、单位和所有假设,并表示。用数学表达式给出问题的目标。,1.目前的方法,一般建模程序,MarkM.Meerschaert的著作“MathematicalModeling”中,提出数学建模的五步法:,二、结构主义数学建模,以上方法并没有解决抽象什么、怎么抽象,“抽象”是最抽象,学生在没有经验的条件下束手无策。,通常的教学重点在于讲案例,学生没有本质的建模方法的情况下,于是“荐模”和“引模”成为主要方法。,结构化建模方法:提供分析的方法分析结构的方法,学习原型结构的表示方法建立专业模型,学习数学结构,产生建模的可操作程序。,结构化建模方法不是排斥“五步法”,而是充实“第二步”的具体可行的方法。,2.结构化数学建模程序,数学语言表示的结构,数学模型,专业语言描述结构,专业模型,分析出原型的结构,并用数学语言表示其结构。,一般流程:,有些问题专业模型难,有些问题数学模型难。,对原型确定目的,2010年赛题:上海世博会影响力的定量评估2010年上海世博会是首次在中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始,世博会正日益成为各国人民交流历史文化、展示科技成果、体现合作精神、展望未来发展等的重要舞台。请你们选择感兴趣的某个侧面,建立数学模型,利用互联网数据,定量评估2010年上海世博会的影响力。,三、结构主义建模例子,用结构主义的观点分析问题“问题”的结构:背景、条件或限制、问题的目标,理解背景:背景帮助你理解问题的全貌,特别是开拓性。(高教收费问题的引起)分析条件:条件的内涵容易清晰,往往外延模糊,从而对于建模假设很有意义。明确目标:目标明确,特别是多目标的主次和关联性识别。,对问题理解的关键1(背景的概念):什么是互联网数据?,在互联网上自然传播的数据,包括传播的文本、多媒体数据类等;在互联网上发生的数据:点击率等,由设备或终端的行为转换成的数据。互联网自身以外形成的文本和多媒体数据,本身并不是在互联网上自然传播:图书馆的电子书,统计局的统计数据,银行数据等,应该不是互联网数据。,对问题理解的关键2(条件的多种选择,外延):“选择感兴趣的某个侧面”,这是问题中的简化性条件,因为问题涉及的方面太多,所以只要从某个方面去证明自己的结论。对问题理解的关键3(目标的内涵限定):“定量评估”,两类互联网数据都要量化,特别是网络上自然传播的文本,需要量化分析。,分析:从条件理解的关键2,显然在世博会影响的评估中涉及许多领域或视角:国家形象,宏观经济,百姓好恶,旅游发展等领域,视角:同地其他活动比对,历届世博会比对,与大型全国性活动比对,以及拓展性与预测性视角等。这种模糊或多选择,给你界定自己研究领域与视角的选择,需要对背景的深入理解。这是开放性问题的特点。一个显然的理解:开放性没有标准答案,因此结论平凡显然不好,结论的价值与新颖是关键。,从目标理解的关键3,两类互联网数据:发生的和自然传播的。第一类例如点击率,显然的理解是关注度,“点击”本身没有内容,点击对象是分析、挖掘的重点:正面的和负面的网页与文档,并且设计各个领域。第二类是在网络上自然传播的各类文档(包括多媒体)。显然,除了文档的数量与篇幅反应关注度以外,文档的内容可以是:正面的和负面的网页与文档,并且设计各个领域。,总体分析结论:显然,通过条件、目标的理解我们可以得到影响力评估的两个主要内容:关注度和影响力内涵的评估。选择一两个重点领域和某个适当的视角进行比对,形成评估方法。,具体分析:目标的“量化”要求,对于关注度显然是统计模型进行分析;而影响力内涵的评估模型是什么呢?,必须建立文本的理解与分析模型,基于文本分类的模型。理解与分析:理解基于分类,理解就是分类!,Web中的问题:在网上,每天有成千上万的多媒体文件在传输。试建立数学模型,使得可以对这些文件进行自动分类,以便人们阅读和使用。,如何建立文本分类的数学模型?,在线文本自动分析,原型的目标:在线电子文本的计算机自动分类与辅助理解。,两类“分类模型”的目标:检索性分类国际图书分类法,目的是查询;,理解性分类基于语意、概念层、主题层的细分类,目的是分析和理解。,)建立专业模型,原型的结构分析,文本章节段落语意团句或短语词字符,文本的结构:,原型有两层结构:文本的结构,文本集合的结构。,分析:文本集合的结构依赖于文本的结构;文本集合的结构是原型对于目的的主要结构;因此文本的结构的表示依赖文本集合的结构。,原型的专业模型(源于关键词和摘要的作用的理解),模型1.以词频为特征的分类模型,词:有语意的初级字符串单位语言的细胞;,词在文本中的频率与不同类文本间频率差别是分类的基本特征和基本的结构性差别。,模型2.以语意团为特征,重在语意差别的分类。,模型3.混合模型,语言能力模型:乔姆斯基的语法结构模型是另一类语言模型,目的是一般语言的生成结构。,文本集的结构分析:分类是在文本的集合中进行,因此是原型的用于分类目标的主要结构。,联想到数学中的结构,例如代数结构,是在集合中定义代数运算加法和数法:元素间的运算关系,两个文本的合并还是文本加法封闭;一个文本的倍数仍然是文本数乘封闭!,分析文本集的结构,首先是文本之间的相互关系:两个文本合并是什么?还是文本!,)同构分析,同构:此时问题的原型的结构直接和数学结构联系起来!建立原型结构的数学表示则建立了数学模型。,文本的集合应该有一个“线性空间”的结构;文本的分类是在线性空间中的“向量的分类”!,具有高等代数的知识,对于线性代数的结构有清楚的理解和关注,则容易发现:,以上分析导至文本向量的概念:,每个文本对应地定义一个文本向量,用于分类,分量如何定义?,显然,分量是“分类特征”的具体表示:,基于词频以及用于区分文本的量化的表示分析!,模型1的数学模型:向量空间的结构+词频特征。,)同构表示与数学建模,根据专业模型,词频及具有分类的特征信息,因此可以仿照熵的定义:,假设TF(w(i),dj)是词w(i)在文本dj中出现的次数,|D|是D中文本总数,DF(w(i)是指在D中至少出现一次w(i)的文本数。则每一个文本djD,和一个特征词w(i)存在一量:,这里熵的形式,一来用类似信息熵的定义,符合“分类”的特征信息的概念:好的分类,信息增益;二来,词频的作用大于词在文本集合中出现的作用。,记d(i)j=TFIDF(w(i),dj),则每一个文本djD,存在一个分量适当排序的文本向量:,文本集合的数学模型文本的特征向量的空间,分类问题是N维线性空间中的向量的分类问题。,许多方法可以用于求解,例如SVM分类器对于数据压缩很有效。,文本自动分类:理解文本的类属性,子空间分类.文本自动聚类:发现文本集合中的新模式,新概念.,文本向量:由文本的实意词的特征值或特征模式为分量的向量.以信息熵的形式构造.,特征子空间:具有某种共同意义的分量组成的子空间.,文本向量空间:全部文本向量的高维线性空间.,应用事例:思想史研究中,“五四”运动的讨论的主要思想是什么?,发现在“自由主义”的特征词所在的子空间中,文本的投影数量最大!,有了文本分类的向量模型,我们可以按照关键词搜索,建立网络文档在各个领域的分类集合,进一步还可以用分类模型分开正面与负面的文本。在此基础上进行统计比对,就得到量化的影响力评估。特别值得注意的是,进一步使用文本向量分析方法,可以建立多因素评估的方法。这类方法很多。文本分类与理解的研究已经很热,实际上有许多现成的程序支持这种方法的使用。,四、数学模型的发展,随着核心学科的转变,数学的应用对象发生改变,数学模型发生改变,数学的内容、意义和方法也将发展与变化。,1、中心学科的转变对数模创新的刺激,二十世纪是物理学世纪:理论力学、电动力学(场论)、统计力学、量子力学与相对论。形成理论物理,同时推动了数学的发展。,流形上的函数及其场方程的模型:代数方程组和微分方程组。,理论力学的Lagrange和Hamilton方程组;电动力学的Maxwell方程组;统计物理的热力学基本方程和统计分布函数;量子力学的Shrdinger、Dirac、Heisenberg方程;相对论的爱因斯坦的引力场方程。,二十一世纪形成以生物为核心的多中心:,陈省身:二十世纪的数学家要关注物理,二十一世纪的数学家要关注生物学。,杨振宁:我们应该关注生物学,生物学还没有理论,但是积累了大量的数据,期待理论的建立。,2、系统生物学二十一世纪的核心学科,生物学世纪的学科进展:分子生物学:生物分子的化学,反应、结构与生物化学功能;生物组学:DNA序列与基因组学,蛋白质组学,代谢组学,信号转导网。产生高通量表达数据!,系统生物学:理解生物体以及生物过程,并非只是在生命的各个层次上的研究,而是各层结构的整合才涌现出生物功能。,系统生物学是生物学的第一个理论化的学科,它将引导生物学从实验科学走向理论指导下的实验、计算、理论的科学。正象二十世纪的理论物理的产生时代!,基本方法:海量数据的计算为基础,系统的数学建模为核心理论方法,以系统干扰为特征的实验。,以数学建模为核心的生物理论;以高通量数据为主要对象的科研领域;以整体论为主方法的实验与理论体系;多学科综合研究的新科学:数学、计算机、生物和控制论;相同起点、条件的平等竞争的科研领域。,系统生物学将推动现代数学的发展!,二十一世纪的中心学科转变,生物学世纪:数学模型是什么?数学方法是什么?计算方法是什么?,全新的模型、计算和数学需求刺激了数学家们重新关注:什么是数学模型?什么是生物的计算?什么是新的数学?,3、复杂系统建模与复杂网络,随着中心学科的转变,系统建模成为现代数学模型的主流。,系统:集合(具体元素)+结构。一切系统的基本结构都是网络;一切系统的核心结构都是逻辑网络;一切系统的逻辑网络中普遍存在高阶逻辑。,为什么二十一世纪研究复杂网络?,二十一世纪涌现的新现象:万维网是怎样“链”接的?计算机病毒是怎样传播的?传染病是怎样扩散或“消失”的?流言的传播速度有多快?城市交通涌堵的机理是什么?金融和股票市场是如何变化的?什么是“系统生物学”?等等、等等、?,中国淮扬菜肴网,顶点食品边菜肴中两种食品之间的相互作用每道菜肴局域世界(完全图)通过公共顶点连接构成中国淮扬菜肴网。329道菜肴,242个顶点(食品),1713条边。完全类似于中药方剂网的讨论。,网络与复杂网络将成为二十一世纪的新的数学模型!,欢迎批评指正,欢迎讨论!谢谢大家!,系统生物学是二十一世纪的新的核心学科!,WatsonandCrick,说明:1商业上用“商圈”来描述商店的覆盖范围。影响商店选址的主要因素是商圈内的人流量,以及购物欲望。2为简化,假定鸟巢(国家体育场)容量10万人,水立方(国家游泳中心)容纳4万人,国家体育馆可容纳6万人。每个看台容1万人,出口对准一个商区,各商区面积相同,图中白色为人行道路。,
展开阅读全文