数学建模讲座之统计学基本概念与方法(曹春玲教授).ppt

资源描述

统计学基本概念与方法,caoclQQ:864575536,2.参数估计,1.预备知识,3.假设检验,4.方差分析,5.回归分析,统计学(Statistics)是一门收集与分析数据，并且根据数据进行推断的艺术与科学。大英百科全书,(数理)统计学中的数据都是随机数据。统计学的任务就是在随机性中去寻找规律。,统计学理论主要包含三个部分：1.数据收集，2.数据分析，3.由数据做出决策。,(一).统计学的基本概念,统计学中把所研究的对象全体称为总体，总体中的每一个元素称为一个个体。,总体与个体都用数量指标来表示,1.总体与个体(population),即使面临的是一个定性的实际问题，也必须把有关的资料定量化。,一.预备知识,但同时在直观上又认为、或者希望做到：抽取出的每个个体(样本)都充分蕴涵总体信息。,从总体中取出一个个体，称为从总体中得到一个样本。,2.样本(sample),统计学的目的就是从样本去得出总体的信息。,由于各种原因与实际条件的限制，不可能得到一个总体中所有个体的数据。即样本总是总体的一小部分。,被研究的对象全体,具有代表性的部分个体,总体,样本,.,独立同分布的样本称为简单随机样本。,总体被认为是一个服从某种概率分布F的随机变量。,样本是和总体随机变量有相同分布F的随机变量，样本的个数称为样本容量，n。,总体分布F可以是未知的，非参数统计学,总体分布F的类型已知，但是含有一些未知的参数。参数估计,(二).数理统计学的主要内容,1.抽样理论：介绍如何收集数据。主要抽样方法，样本容量的确定，抽样误差，敏感问题等,2.参数估计：如何根据数据得到总体参数信息。点估计、区间估计，Bayes估计等,3.假设检验：如何对关于总体的一些假设做出决策。正态总体参数的检验，分布拟合检验，秩检验，列联表，统计决策等理论,4.方差分析与回归分析：变量之间的效应关系。方差分析分类变量与数值变量的效应关系回归分析研究数值变量之间的效应关系,5.多元分析：研究若干个变量之间的关系聚类分析、判别分析、主成分分析、因子分析、典型相关分析等等,例1.1希望了解某所高校学生月消费情况。,解决方法：从这所大学里随机地调查有代表性的一些学生，根据收集到的数据去得出这所大学学生每个月支出费用的有关信息。,1.如何得到样本？,不同家庭背景学生的比例应该各占多少？样本容量应该取多少才合适？被调查者拒绝调查怎么办？,抽样调查,2.如何确定总体的分布？,这里的总体是这所大学的学生月支出费用，我们不妨认为学生月支出费用是一个服从正态分布的随机变量。,根据经验或者是所讨论的问题的实际背景，总体的分布类型一般可以事先确定下来。,(不同学校对应的这两个参数也就不相同),即，总体随机变量XN(,2)，而这个学校相应的两个参数与2是未知的。,Remark当不知道或者难以确定总体的分布类型时，在统计学中常常采用下面两种办法来近似得到总体分布的有关信息。,(1).直方图的方法,只适用连续总体，得到的是总体密度函数近似。,把收集到的n个数据x1，x2，xn从小到大排列：x(1)x(2)x(n)；其次取区间(a，b)，包含全部数据ax(1)，x(n)b；,把(a，b)等分成若干小区间，计算每个小区间中包含的数据的频率。,x(1)x(n),根据这些频率做出相应的小区间上的矩形，则当n充分大时，这些小区间上矩形的面积将近似于总体的概率密度函数下曲边梯形的面积。,(2).经验分布函数的方法,构造一个分布函数，得到的是总体分布函数F(x)的近似。,Fn(x)=,0，xx(1)，x(k)xx(k+1)1，xx(n),这个函数实际上是观察值x1，xn中小于x的频率，即Fn(x)=x1，xn中小于x的个数/n,kn,O,x,y,x(1),x(2),x(3),1/n,2/n,可以证明，经验分布函数Fn(x)将依概率、甚至是几乎处处收敛到F(x)。,3.如何从样本得出总体的信息？,样本是一组与总体独立、同分布的随机变量，我们得到的数据是样本观察值，而不是样本。,调查一个学生得到了一个数据，相当于对总体分布做了一次随机试验而观察到了这个随机变量的具体取值。,一共有n个数据，相当于对总体分布做了n次独立重复试验，而得到了这个总体随机变量在这些试验中的具体取值。,利用样本观察值去估计出总体的未知参数,直观上可以利用调查到的n个学生的月支出x1,x2,xn的算术平均：,去估计这所学校学生的平均月支出费用。,它的合理性在哪？还有没有其它的办法？这些不同的方法各有什么样的优缺点？,数理统计学最重要的内容之一,参数估计,事先提出一个假设，利用样本观察值去检验这个假设是否可以被接受,假设检验,假定学校要制定相关一些政策，如奖学金、贷款、勤工俭学等；或者后勤服务、商业经营的价格等等。,共同关心的一些问题，比如说：0？这里0是一个已知的常数。,数理统计学最重要的内容之一,应该如何去做这个检验？,一种想法是：既然已经通过参数估计得到了这个学校学生月平均支出(即总体的参数)的估计值，自然就可以用它代替假设里的去做检验：当估计值比0大就接受这个假设，否则就拒绝,但是这样的风险很大：样本总是随机得到的，因此估计值与真实值之间不可避免地存在着随机误差。,传统的方法是：给出一个区域(拒绝域)，如果估计值落在这个区域内，就拒绝原来的假设，否则就接受。,除了对总体参数的检验外，还有一些重要的假设检验问题，例如：,关于总体分布的检验,检验得到的样本数据是不是来自于某个事先给出的总体,独立性的检验,检验一些分类变量之间是否是独立的，例如：抽烟与肺癌，睡觉打鼾与心脏病,分布拟合检验,关于数据差异的检验,主要希望了解两组或多组数据间的差异究竟是来自于随机性，还是总体间的确存在差异？,例如：小儿麻痹症、SARS疫苗的研制，越战期间美国的征兵计划，,以及我们在科学研究、工程实践、社会调查等等得到的数据,讨论数值变量之间的效应关系问题,比如说，想了解儿子身高与父亲身高之间的关系。在每个被调查的家庭中同时获得这两个变量的观察值，分析它们是否有某种(函数)关系，,一元线性回归,多元线性回归,例如，钢的去碳量与不同矿石、融化时间、炼钢炉体积等等是否有关？关系如何？,数理统计学重要应用之一,回归与相关分析,讨论分类变量与数值变量之间的关系,比如说产品质量与不同操作人员之间的关系。是否某些人生产出的产品质量偏高？如果偏高，这种差异是否是纯属偶然原因，,单因素方差分析,数理统计学重要应用之一,方差分析,双因素方差分析,希望了解操作人员和设备这两个因素联合对质量的关系。各自单独是否有影响？交互效应如何？,简单的说，从概率论的角度出发，可以把上述数理统计学的过程理解成：,有一个含有未知信息的概率分布F,针对F做了n次独立重复的试验与观察，得到n个独立同分布于F的随机变量的取值,根据样本的具体观察值，去推断出总体F所包含的未知信息，或作出进一步的决策等,例1.2.如何分析与处理变量的关系？,分类变量：如性别、信仰、职业等等，顺序变量：如名次(第一、第二，)，数值变量：如收入、比例、产量等等,简单复杂,Remark可以把复杂的变量简化为简单变量，反之不行数值变量顺序变量分类变量,变量组合与相应的统计分析方法,因变量y,自变量x分类变量顺序变量数值变量分类变量卡方分析回归与相关顺序变量秩方法数值变量方差分析回归与相关,把两个变量分别作为横轴和纵轴描出散点,散点图(Scatterplot),散点图在简化数据的同时，能够保留原始数据的信息。,(三).变量的统计图表示,例1.3.下面是24对夫妻的数据，有两个变量：结婚时间和一年内的吵架次数。,结婚年数524136583739争吵次数10201615968510786,结婚年数101513201625221415191720争吵次数534241334332,结婚时间与吵架次数的散点图,(2).时间序列图,特殊散点图，以时间作为横轴的变量,时间序列图能够反映出一个变量随着时间而变化的趋势。,总体X的分布函数F含有未知的参数，所有可能的取值范围称为“参数空间”，记为。从这个总体中抽取了一组样本X1，Xn，相应的样本观察值是x1，xn。应该如何估计出的具体数值？,点估计就是利用样本构造一个合理的统计量：g(X1，Xn)；用它的观察值g(x1，xn)去作为作为的估计值。,二.参数估计,你可以用这组数据中的任何一个，或者样本均值，或者是样本中位数等，作为的估计值。,例2.1甲同学在一个体重仪上称她的体重，假定这个体重仪没有系统误差，每次称量的结果是真实重量加上一个随机误差k。一般认为kN(0,2)，因此n次称量的结果Xk=+kN(,2),矩估计：用样本的有关矩去作为总体有关矩的估计。即样本均值作为总体期望的估计；样本方差作为总体方差的估计；样本中位数(或众数)作为总体中位数(或众数)的估计等。,极大似然估计：所有情况中“看起来最象”的那个估计,常用的点估计方法,例2.2.假定盒子里黑、白球共5个，但是不知道黑球具体数目。现在随机有放回抽取3个小球，发现是两个黑球和一个白球。问盒子里最可能有几个黑球？,解：盒子里黑白球所有的可能有六种：5白，4白1黑、3白2黑，2白3黑，1白4黑，5黑,以p记盒子里黑球所占的比例，则p全部可能的值是：0，1,12345555,定义三个统计量X1，X2，X3表示抽样结果：取到黑球记为1，否则记为0。因此X1，X2，X3独立同分布于参数p的两点分布。例题中的三个样本观察值x1，x2，x3有两个取值是1，一个取值为0。,而样本的联合分布律显然是L(x,p)=px1+x2+x3(1-p)3-x1-x2-x3=p2(1-p),它的含义是：当盒中黑球比例为p时，随机事件“有放回取出的三个小球中有两个黑球、一个白球”的概率。,对应于参数空间中不同的p，样本分布L(x,p)=p2(1-p)所对应的这些概率是：,p0，1L(x,p)0，0,12345555,4121816125125125125,既然“三个小球中包含两个黑球”是已经发生了的随机事件，因此使得这个事件发生概率取最大的那个值就是未知参数p最有可能的取值。即p的极大似然估计就是3/5。,三.假设检验,(一).假设检验的思想,它是如下的一种统计推断：,对于一个统计模型，我们提出一个假设，根据抽取到的样本，来作出是接受还是拒绝这个假设。,小概率事件在一次试验中不应该发生。,有一种饮料由Tea和Milk混合而成，按照顺序的不同，分为TM、MT两种，,有位女士声称她有能力品尝出是TM还是MT。,为了检验她的说法是否可信，准备8杯饮料，TM和MT各一半，并且把这一点告诉她。现在随机的让这位女士品尝，指出哪些是TM，最终的结果是她全部说对了。,女士品茶,R.A.Fisher的推理过程如下：,引进一个假设，,H0：这位女士没有鉴别能力,如果H0是正确的，她只能随机从8杯饮料中猜测4杯说是TM。全部猜对的概率为：=0.014,现在她正确的说出了全部的TM，要解释这种现象，只能有下面两种可能：,11C8470,H0不成立，即：她的确有鉴别能力；(2)H0成立，意味着一件概率为0.014的随机事件在一次试验中发生了。,Fisher认为，随机试验的结果(或样本)构成不利于假设H0的显著性证据，因此应该否定H0。,这种推理过程就称为：显著性检验,显著性是统计意义上的显著，意思是一个小概率事件是否发生。,一个概率不到2%的随机事件在一次试验中发生了，这是比较稀奇或者说不太可能的。,思考假如这位女士只说对了3杯？,一个人纯粹靠随机的猜测，能够说对至少3杯的概率(即H0成立的情况下，出现这种试验结果的可能性)：=0.243,显然我们不会对一个概率接近25%的随机事件在一次试验中发生而感到惊讶。试验结果并没有提供不利于H0的显著性证据，因此不能否定零假设，而应该接受H0，即应该认为这位女士没有鉴别能力。,1+C43C4117C8470,(二).假设检验的基本过程,例3.2.当包装机器正常工作时，每袋葡萄糖的重量应该是一个服从均值0.5kg，标准差0.015kg的随机变量。有一天随机地抽取了9袋包装好的产品，测量出它们的平均重量是0.511kg，问这台包装机器是否正常工作？,(假定即使工作异常标准差也不会改变),1.提出一个统计假设,根据题意每袋产品重量XN(,0.0152)，如果机器正常工作，应该是=0.5，反之应该是0.5。,因此首先提出统计假设：,假设检验的任务就是要根据抽取出的样本，来决定是接受零假设，还是拒绝零假设(接受对立假设)。,H0：=0(=0.5)H1：0(0.5),2.选取一个合适的检验统计量,它的分布当零假设成立时应该是已知的，而且一般是从待检验的总体参数的良好的点估计中去寻找。,在例题中需要检验的是总体期望，因此考虑样本均值，,零假设成立时(=0.5)则有：,3.利用零假设成立时检验统计量的分布构造出一个小概率事件,这个小概率就是给定的显著性水平(也称检验水平)，而这个小概率事件就是零假设的拒绝域，并且拒绝域必须和对立假设有关：零假设的拒绝域相当于对立假设的接受域。,在例题中由于样本均值是总体期望的一个良好的点估计，因此零假设成立(=0.5)时，偏差应该比较小，不能够太大。,而如果比较大时，自然我们会认为零假设不成立，所以应该接受对立假设。所以零假设(=0.5)的拒绝域的形式就是：,根据检验统计量的分布，有：,这个常数z0就可以取为u/2,统计量|z|=某个常数z0,4.代入样本观察值，如果使得这个小概率事件发生，就否定零假设而去接受对立假设。否则说明样本没有提供否定零假设的显著性证据，因此应该接受零假设。,在这个例题里，检验统计量|z|=2.2，H0：=0(=0.5)H1：0(0.5)的显著水平的拒绝域就是2.2u/2。,30.0110.015,假设检验默认的显著水平是=0.05,(1)如果取=0.05，则2.2常数z0=1.96，说明一个概率为0.05的随机事件发生了，样本提供了机器异常的显著证据，应该否定零假设；(2)如果取=0.01，则2.2常数z0=2.575，说明一个概率0.01的随机事件没有发生，样本没有提供机器异常的显著证据，应该接受零假设。,在不同的显著水平下，可以导致最终得出的检验结论完全不同。这个现象说明了显著水平对于H0的保护：越小越不容易否定零假设。,(三).卡方检验,如果一组样本X1，Xn来自分布F，需要检验是如下问题：H0：F=F0H1：FF0,从理论上来说无论F是离散还是连续分布，卡方检验都可以处理；不过它更适用于离散的总体，对于连续的总体F，采用Kolmogrov柯莫哥洛夫检验更好。,K.Pearson的拟合优度检验思想,在实数轴上取m个点把R1分成m+1个部分，以vi表示落在第i个区间里的样本个数，pi是总体随机变量X在这个区间中的概率：,x,t1t2t3tm,x(1)x(n),当零假设H0：F=F0成立时pi可以计算出：pi=F0(ti)-F0(ti-1)，1im+1；这里F0(t0)=0，F0(tm+1)=1n充分大时，频率vi/n与概率pi应该相当接近，因此如果零假设成立则统计量：,应该偏小，反之则可以否定零假设H0：F=F0。1900年K.Pearson证明了极限分布K22(m)，因此H0的一个水平拒绝域近似为K22(m)。,总体X只可能取有限个值ai，1ik。相应地，样本X1，Xn中取值为ai的个数为vi，1ik。需要检验：H0：PX=ai=pi，1ik,取检验统计量：,则H0的一个水平检验的拒绝域为K22(k-1),例3.3.Mendel(孟德尔)的遗传学例子,Mendel研究豌豆时发现豌豆有两种特性：圆与皱、黄与绿，他观察了556颗豌豆：,圆黄皱黄圆绿皱绿(总数)31510110832(556),而根据他的遗传学理论，Mendel认为这些组合关系应该有理论上的概率：,圆黄皱黄圆绿皱绿(概率)9/163/163/161/16(1),解.总体分布的k=4，对应K2统计量为：,0.052(3)=7.815，0.902(3)=0.584，0.952(3)=0.352甚至在水平0.90下都可以接受零假设，即认为Mendel的遗传学理论是正确的。,从p-值的角度拟合优度p=P2(3)0.47这个值是0.9254，理论分布与实际数据相当吻合。,四.方差分析,方差分析针对方差相同的多个正态总体，检验它们的均值是否相同。即，同时判断多组数据均值之间差异是否显著,方差分析(AnalysisofVariance，ANOVA)：研究一个(或多个)分类自变量如何影响一个数值因变量的统计分析方法。,方差分析的特点方差分析与一般的假设检验不同要比较均值是否相同，可以使用第三章假设检验的方法，但是只能处理两个均值。方差分析处理的是多个均值的情况。,方差分析的目的.判断某些因素对于我们感兴趣的因变量是否具有“显著”的影响，.如果因素间有交互效应，寻找最佳搭配方案。,常见的方差分析主要有：单因素方差分析，双因素方差分析，多因素方差分析。,方差分析与回归、相关分析不同回归与相关处理的是两个数值变量的问题，相应的散点在x轴上具有顺序(从小到大)，而方差分析的数据在x轴上可以任意交换位置。,考察小麦产量(y)对于品种和施肥量的关系。,Fisher的农业试验,选择了：两个不同的小麦品种，三个不同的施肥等级；一共23=6种搭配做试验，建立模型。,y11=0+1+1+11y12=0+1+2+12y13=0+1+3+13y21=0+2+1+21y22=0+2+2+22y23=0+2+3+23,yij是小麦产量，1、2是品种效应，1、2、3是施肥等级的效应，0是其它因素的平均效应。,ij是随机误差，i.i.dN(0,2),品种是否对产量有影响H01：1=2施肥量是否对产量有影响H02：1=2=3,把这个模型写成矩阵的形式：Y=X+,在方差分析中，同一个因素的不同水平看成是模型里的不同变量，而不能看成是同一个自变量在不同试验里的取值。(否则需要y对x有线性相依关系),i.i.dindependentandidenticallydistributed独立同分布i.i.d.r.vindependentidenticallydistributedrandomvariables独立同分布随机变量,五.回归与相关分析,回归与相关分析是用于讨论数值变量之间关系的统计分析方法。,回归分析研究一个(或多个)自变量的变化如何影响因变量，相关分析研究这两个数值变量的相关程度。,Regression,y=33.73+0.516x(单位：英寸),直观上在一个总体中有两个特征(X,Y)，观察了n次得到平面上的n个点(x1,y1)，(xn,yn)。,x,y,o,如果一条曲线y=f(x)基本上通过这些点，或者这些点的大多数与这条曲线偏离很小，则称曲线是对观察值的拟合曲线，或者称为是y对于x的回归曲线。,“回归”的含义,在理论上，假定(X,Y)有联合分布，二阶矩存在，则当X取某个值x时Y有一个确定的条件分布F(|x)，这个分布的数学期望即条件期望E(Y|x)存在，E(Y|x)就称为Y对于x的回归(函数),如果X是一维随机变量，则E(Y|x)就称为一元回归函数(主要是回归直线)；当X是多维随机变量时就是多元回归(曲面),Remark采用条件期望E(Y|x)而不是其它的函数y=g(x)作为Y对于x的回归，原因是在均方误差的意义下条件期望是最优的。,如果E(Y|x)就是x的线性函数，即：E(Y|x)=0+x11+xkk，线性回归模型就定义成：,yi=0+1xi1+kxik+i，1ini独立同分布于N(0,2),y=0+x11+xkk就称为是回归方程,这时不再把x看成是随机变量X的观察值，而看成是一般的数量变量，因此线性回归模型也是一种线性模型：Y=X+，E=0,其他统计方法,蒙特卡罗、概率分布、随机模拟、分布拟合度检验统计分类等等,蒙特卡罗方法(Monte-Carlo方法,MC)该算法又称计算机随机性模拟方法，也称统计试验方法。这一方法源于美国在第一次世界大战进行的研制原子弹的“曼哈顿计划”。该计划的主持人之一、数学家冯诺伊曼用驰名世界的赌城摩纳哥的MonteCarlo来命名这种方法。MC方法是一种基于“随机数”的计算方法，能够比较逼真地描述事物的特点及物理实验过程，解决一些数值方法难以解决的问题。MC方法的雏型可以追溯到十九世纪后期的蒲丰(Buffon)随机投针试验，即著名的蒲丰问题。MC方法通过计算机仿真(模拟)解决问题，同时也可以通过模拟来检验自己模型的正确性，几乎是比赛时必用的方法。,(2006年B题),艾滋病疗法评价及疗效预测,艾滋病是当前人类社会最严重的瘟疫之一，从1981年发现以来的20多年间，它已经吞噬了近3000万人的生命。,艾滋病的医学全名为“获得性免疫缺损综合症”，英文简称AIDS，它是由艾滋病毒（医学全名为“人体免疫缺损病毒”,英文简称HIV）引起的。这种病毒破坏人的免疫系统，使人体丧失抵抗各种疾病的能力，从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用，当CD4被HIV感染而裂解时，其数量会急剧减少，HIV将迅速增加，导致AIDS发作。,艾滋病治疗的目的，是尽量减少人体内HIV的数量，同时产生更多的CD4，至少要有效地降低CD4减少的速度，以提高人体免疫能力。,迄今为止人类还没有找到能根治AIDS的疗法，目前的一些AIDS疗法不仅对人体有副作用，而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。,现在得到了美国艾滋病医疗试验机构ACTG公布的两组数据。,ACTG320（见附件1）是同时服用zidovudine（齐多夫定），lamivudine（拉美夫定）和indinavir（茚地那韦）3种药物的300多名病人每隔几周测试的CD4和HIV的浓度（每毫升血液里的数量）。,193A（见附件2）是将1300多名病人随机地分为4组，每组按下述4种疗法中的一种服药，大约每隔8周测试的CD4浓度（这组数据缺HIV浓度，它的测试成本很高）。4种疗法的日用药分别为：600mgzidovudine或400mgdidanosine（去羟基苷），这两种药按月轮换使用；600mgzidovudine加2.25mgzalcitabine（扎西他滨）；600mgzidovudine加400mgdidanosine；600mgzidovudine加400mgdidanosine，再加400mgnevirapine（奈韦拉平）。,请你完成以下问题(附件的数据量很大，不便在此书写，可在相关网站上获取)：,（1）利用附件1的数据，预测继续治疗的效果，或者确定最佳治疗终止时间（继续治疗指在测试终止后继续服药，如果认为继续服药效果不好，则可选择提前终止治疗）。,（2）利用附件2的数据，评价4种疗法的优劣（仅以CD4为标准），并对较优的疗法预测继续治疗的效果，或者确定最佳治疗终止时间。,(3)艾滋病药品的主要供给商对不发达国家提供的药品价格如下：600mgzidovudine1.60美元，400mgdidanosine0.85美元，2.25mgzalcitabine1.85美元，400mgnevirapine1.20美元。如果病人需要考虑4种疗法的费用，对（2）中的评价和预测（或者提前终止）有什么改变。,以下在解决第一个问题时，先对附件1的原始数据分析整合，借助MATLAB软件，拟合出CD4、HIV及CD4与HIV之比随时间（周次）,基本思路,变化的函数关系及图形。,在拟合函数的过程中，考虑到在每个周次上被检测的人数不同，在,拟合关系函数（CD4值和HIV值）时，以每个周次上被检测的人数为权重。,的函数关系和,、,，再逐次拟合出“修正”函数,以确保拟合获取的函数更符合真实情况.,具体地，先以权重最大的五个点（周次），拟合出CD4、HIV与时间,CD4,HIV,病人经过30周左右的治疗的状况达到最好，如果继续用药，HIV虽然可以维持在较低的水平，但CD4将缓慢减少，为了防止并发症的出现，可以考虑适当调整治疗方案。,针对第二个问题,首先分别获取四种疗法的CD4值关于治疗时间的函数表达式.为了更具有可比性,把四种疗法中CD4的初始值(即第0周的值)化成同一个值,得到可比的函数关系及图形。,4321,从图中可以直观地看到，四种疗法的优劣次序为:4,3,2,1。值得注意的是,虽然第四种疗法明显优于前三种疗法，但是大约在治疗30周之后CD4的下降速度加快。,模型的初步建立,（1）假设在ACTG320和193A治疗中，CD4和HIV不受病人的年龄、性别以及是否有其它疾病的影响；,为讨论问题的方便，根据医疗规律和市场因素，作如下基本假设：,（2）在关于附件2记录4种疗法的评价中，不考虑药品价格对4种疗法优劣评价的影响；,（3）在分析附件2记录4种疗法时，不考虑HIV对人的影响因素；,（4）只针对不发达国家的艾滋病人来分析，当病人需要考虑4种疗法的费用时，对这4种疗法的评价和预测有何改变；,（5）假设题目所提供的4种疗法的药品的价格是不发达国家最近的市场价格。,通过对附件1的观察、分析，可以发现被测试CD4的病人多集中在第0、4、8、24、40、48周。这些检测时间应该是病理（CD4浓度）变化的显著点。其余周次CD4浓度的检测样本小，可以按就近原则分别归到第0、4、8、24、40、48周，具体分法如下：,第02周归为第0周；第36周归为第4周；,第715周归为第8周；第1630周归为第24周；,第3145周归为第40周；第4657周归为第48周。,划分治疗时间段以后，再计算出各测试周次的CD4平均浓度(见下表).,对附件1、2中数据抽查检验及医学知识知，CD4、HIV随时间变化的基本特征符合二次函数，故在以下讨论中，均按二次函数拟合。利用上表的数据进行曲线拟合，得到函数表达式（左图）,由上表可知，第48周的测试病人数目仅为23人，人数较少。测试所得的CD4的平均浓度不具有代表性，把这个数据去掉，重新拟合曲线，得到修正后的函数表达式（右图）,下面分析HIV浓度的情况。,分析附件1又可以得知，测试HIV的病人多集中在第0、4、8、24、40、45周，依据上述的分析思想，具体划分周次方法仍为：,第02周归为第0周；第36周归为第4周；,第715周归为第8周；第1630周归为第24周；,第3141周归为第40周；第4246周归为第45周。,然后计算各测试周次的HIV平均浓度，并制成下表。,由上表可知，第40周测试HIV的病人数目比以前减少，第45周时数目已降至23人，此时HIV值突然变高（按医学常理，应该是疗效好的人，因HIV的含量很低，AIDS症状不明显或消失，已不必再加以检测，而继续检测者则是治疗效果不好者，故HIV值突变）。,第45周测试人数太少，不具有代表性，故可以不予考虑。根据表中的数据，拟合得到函数表达式,拟合成二次函数得到,与周次,利用以上两表中各周次CD4和HIV的平均浓度，可以计算相应周次的CD4和HIV的比值，见下表。,将表中的CD4/HIV的值,比值关于时间的函数图象见右图。,由题目得知，HIV的测试成本很高。因此，在很多情形下可以只检测CD4，再根据关系式,来获得HIV的估算值。,结论：CD4检测函数,的最大值点为,，此时，,HIV检测函数,的最小值点为,，此时，,这说明，第33.0826周时，CD4的平均含量达到最大值191.1431，此后CD4的含量会减少；第25.55周时，HIV的平均含量达到最小值2.4048，此后HIV的平均含量会增加。可以预见，继续治疗的效果将会不尽人意。,从题目和相关资料得知，爱滋病的治疗目的是尽量减少人体内HIV的数量，同时产生更多的CD4，至少要有效地控制CD4减少的速度。因此，最佳的治疗效果出现在第25.5533.0826周中。再由式,计算出CD4/HIV的最大值出现在第31.1317周。这也从一个侧面说明着病人经过大约32周的治疗，身体的多种测试指数达到最好水平。,首先，选择5个最具代表性的周次（医学检测规律周次），即第0、4、8、24、40周，求每周次的CD4和HIV的平均含量及相应人数，得到一个最具代表性的CD4和HIV含量与周次的关系并使用计算机，应用Matlab软件拟合得到函数。,模型的改进和验证,以上采用了将数据集中在几周次上的处理数据方法获得了函数关系及其图象。方法简明，并具有一定说服力。但是，把不在第0、4、8、24、40周的CD4及HIV检测数据就近归在了这些周上，这势必产生一定的偏差。为了更能准确地求出CD4和HIV与时间的函数关系，下面采取不同的数据处理办法重新拟合曲线，以修正原模型的不足，并检验方法一的处理结果。也在一定意义上体现着处理数据的多样性、互补性。,再把已处理的5个测试周的测试人数分别减去这5个测试周中人数最少的一周的人数。得到第0周为33794243人，第4周23194137人，第8周20894114人、第24周1379443人，第40周94940人。,用调整后的数据取代原有数据，重新选出5个最多人数的周次拟合。,这样反复几次，得到拟合函数,直至剩余的有效数据不足5个为止。最后，令CD4的含量表达式为,其中,分别表示获得该函数关系的每个数据检测人数，如,。,表10-20是先后8次拟合曲线过程中剩余数据的变化情况。每次拟合函数所使用数据以及CD4含量随时间变化关系见表320,每次拟合函数所使用数据以及CD4含量随时间变化关系见下表。,根据上表各组数据，用Matlab进行拟合得到的函数关系分别为,同理，HIV的含量随时间变化关系如下表。,利用Matlab分别拟合上述数据组成的函数关系式5,结果如下.,加权平均可得HIV的含量表达式,。,但是，通过比较运用前后两种数据处理办法所获得的CD4含量表达式和HIV的含量表达式，发现这两组表达式差别不大。这也验证了CD4/HIV的表达式,结论：可以肯定地说，后一种数据处理方式更加合理，其结果也更加可信。,的可信性。在后面只有CD4检测数据而没有HIV数据的情况下，假如使用HIV函数表达式时，完全可以利用公式,来导出。,附件2所记录四种治疗方案的比较和评价,按照第1、2、3、4种疗法把测试的1300多名病人分成四组（由于是随机分组的，所以不需要考虑一些特殊情况的存在）。再分别将各种疗法的数据按就近原则将周次划分为六个。分别为：0周、8周、16周、24周、32周、40周，求得各周的CD4的平均值，在每一组中，计算出各周次（把相近的周次累加求平均值所得）CD4的平均值，各种疗法相关数据依次见以下四个表。,疗法1,疗法2,疗法4,疗法3,根据各表的数据，拟合出各疗法对应的CD4的含量与时间的函数关系分别为,疗法3,疗法1,疗法2,疗法4,注意到四种疗法第0周的CD4含量平均值各不相同，这不利于对不同疗法的治疗效果进行相对比较。为此，记各种疗法的初始CD4含量平均值分别为,将疗法1、2、3、4各周CD4的平均含量分别减去,得到CD4的差值，所有差值加上后重新拟合曲线得到对比图。,4321,应用Matlab软件拟合出这四种疗法的CD4含量差值和时间的二次函数图象，再分别加上常数绘制比较图如下。,由上述4种疗法的各检测周的CD4平均含量变化可知：,总体来说疗法4为最优疗法，其次为疗法3，疗法2，疗法1。,前面已经知道，疗法4在前17.5周的治疗期间疗效显著，但继续治疗的效果不理想。可以考虑从第17.5周以后改用疗法3，以期减少疗效降低的速率。,疗法3治疗效果比较稳定，副作用小，适于长期使用。,疗法2虽然副作用也比较小，但是效果不及疗法3。,疗法1效果不明显。,导函数分别为,结合药品价格对附件2中4种疗法的评价,艾滋病的治疗是为了增加CD4的含量（同时减少HIV的含量），至少要有效控制CD4的减少速度。因此，在对病人治疗的时候CD4值随时间的变化率体现的就是即时的治疗效果。,前面已经知道，四种疗法对应的CD4的含量与时间的函数关系分别为,四种疗法的药费关于时间的函数,分别为,于是治疗费用通过公式,2,1,3,4,计算得,画出四个函数图象如图。,从总体上观察四条曲线,疗法4的“价效比”最低。,四个函数中第4种治疗的相对药费最低。,通过观察消费表和治疗效果，参考部分网络资料，了解到不发达国家的人均月收入都在1000元人民币以下。受实际支付能力所限，采用第3种疗法或者第1种疗法也许是无奈的选择。不过，第2种疗法一般不会考虑，因为它的“价效比”最高，患者得不偿失。,对于相同的疗效,如果患者的经济条件允许的话，当然应该采用疗法4进行治疗。但是，从下表可以看到，疗法4的实际月支出是109.5美元，相当于876元人民币。这对于普通的工薪阶层来说，是一笔相当大的开销。,从以上关于艾滋病疗法的讨论中可以看到，即便是疗效最好的第四种疗法，其治疗效果也很有限，这说明人类和艾滋病抗争的路程仍然漫长。,结束语,近年来全球艾滋病流行趋势出现了新动向，西方发达国家艾滋病的发展速度正在明显放缓。而很多发展中的国家却因资金不足等种种原因，形成了艾滋病蔓延的趋势。我国政府本着对国家、对民族、对人民高度负责的精神，已经将艾滋病防治工作纳入政府工作的重要议事日程，正在动员组织全社会力量，做好防治工作。,本模型的构建思路，可以用于其它药品疗效的预测和评价。,返回,参考书籍数学模型，姜启源编，高等教育出版数学模型与计算机模拟，江裕钊、辛培情编，电子科技大学出版社(1989)数学模型选谈(走向数学从书)，华罗庚，王元著，王克译，湖南教育出版社(1991)数学建模-方法与范例，寿纪麟等编，西安交通大学出版社(1993)数学模型，濮定国、田蔚文主编，东南大学出版社(1994),数学模型，朱思铭、李尚廉编，中山大学出版社(1995)数学模型，陈义华编著，重庆大学出版杜(1995)数学模型建模分析，蔡常丰编著，科学出版社(1995)数学建模竞赛教程，李尚志主编，江苏教育出版社(1996)数学建模入门，徐全智、杨晋浩编，成都电子科大出版社(1996).,数学建模，沈继红、施久玉、高振滨、张晓威编，哈尔滨工程大学出版社1996数学模型基础，王树禾编著，中国科学技术大学出版社(1996).数学模型方法，齐欢编著，华中理工大学出版社(1996)数学建模与实验，南京地区工科院校数学建模与工业数学讨论班编，河海大学出版社(1996)数学模型与数学建模，刘来福、曾文艺编，北京师范大学出版杜(1997),问题解决的数学模型方法，刘来福，曾文艺编著、北京师范大学出版社(1999)数学建模的理论与实践，吴翔，吴孟达，成礼智编著，国防科技大学出版(1999)数学建模案例分析，白其岭主编，海洋出版杜(2000)数学实验(高等院校选用教材系列)，谢云荪、张志让主编，科学出版杜(2000)数学实验，傅鹏、龚肋、刘琼荪，何中市编，科学出版社(2000)数学模型引论，EA。Bender著，朱尧辰、徐伟宣译，科学普及出版社(1982).,杂志数学建模MathematicModelling大学应用数学杂志UMPAJournal美国数学会的web杂志http:/www.ams.org/mathweb/mi-journals.html#ejrnls美国数学学会期刊http:/www.ams.org/jams/美国数学学会杂志http:/www.ams.org/journals/,数学建模和数值分析杂志JournalMathematicalModellingandNumericalAnalysis-Rairo数学建模和分析杂志Journalofmathematicalmodellingandanalysis美国工业和应用数学会评论SIAMReview大学生数学和应用杂志TheJournalofUndergraduteMathematicsandApplications,预祝同学们在比赛中取得好成绩！谢谢！,

展开阅读全文

数学建模讲座之统计学基本概念与方法(曹春玲教授).ppt

最新文档