数学建模题目及其答案(疾病的诊断)

资源描述

优质文档数学建模疾病的诊断现要你给出疾病诊断的一种方法。胃癌患者简洁被误诊为萎缩性胃炎患者或非胃病者。从胃癌患者中抽取5人编号为1-5，从萎缩性胃炎患者中抽取5人编号为6-10，以及非胃病者中抽取5人编号为11-15，每人化验4项生化指标：血清铜蓝蛋白、蓝色反响、尿吲哚乙酸、中性硫化物、测得数据如表1所示：表1. 从人体中化验出的生化指标No.123456789102282452001701002551301501201601341341671501671251001171331000.20.10.120.070.200.070.060.070.10.050.110.40.270.080.140.140.120.060.260.1011121314151851701651351001151251421081170.050.060.050.020.070.190.040.080.120.02依据数据，试给出鉴别胃病的方法。论文题目：胃病的诊断摘要在临床医学中，诊断试验是一种诊断疾病的重要方法。好的诊断试验方法将对临床诊断的正确性和疾病的治疗效果起重要影响。因此，对于不同疾病不断发觉新的诊断试验方法是医学进步的重要标记。传统的诊断试验方法有生化检测、DNA检测和影像检测等方法。而本文那么通过利用多元统计分析中的判别分析及SPSS软件的协助较好地解决了临床医学中胃病鉴别的问题。在临床医学上，既提高了临床诊断的正确性，又对疾病的治疗效果起了重要效果，同时也减轻了病人的负担。判别分析是在分类确定的条件下，依据某一探究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其根本原理是遵照必须的判别准那么，建立一个或多个判别函数，用探究对象的大量资料确定判别函数中的待定系数，并计算判别指标。首先，由判别分析定义可知，只有当多个总体的特征具有显著的差异时，进展判别分析才有意义，且总体间差异越大，才会使误判率越小。因此在进展判别分析时，有必要对总体多元变量的均值进展是否不等的显著性检验。其次，利用判别分析中的费歇判别和贝叶斯判别进展判别函数的建立。最终，利用所建立的判别函数进展回判并测得其误判率，以及对其修正。本文利用SPSS软件实现了对总体间给类变量的均值是否不等的显著性检验并依据样本建立了相应的费歇判别函数和贝叶斯判别函数，最终进展了回判并测得了误判率，从而获得了在临床诊断中模型，给临床上的诊断试验供应了新方法和新建议。关键词：判别分析；判别函数；Fisher判别；Bayes判别一问题的提出在传统的胃病诊断中，胃癌患者简洁被误诊为萎缩性胃炎患者或非胃病患者，为了提高医学上诊断的精确性，也为了削减因误诊而造成的病人死亡率，必需要找出一种最精确最有效的诊断方法。为诊断疾病，必需从人体中提取4项生化指标进展化验，即血清铜蓝蛋白、蓝色反响、尿吲哚乙酸、中性硫化物。但是，从人体中化验出的生化指标，必需要确定一个精准的指标来判定疾病所属的类型。设想，运用判别分析法，利用SPSS软件对各个变量进展系统的分析，使该问题得到有效地解决。二、问题的分析由题意可知，目的就是为了建立一种模型，解决医学上的这种误诊问题。在该问题中，必需确定血清铜蓝蛋白、蓝色反响、尿吲哚乙酸、中性硫化物与胃癌、萎缩性胃炎的关系。衡量该四项指标的数学要点势必是相应的标准差、方差、均值等，同时，会建立一个或几个函数分析其间关系的正相关或负相关，即其具有必须的相关性，然后利用所给数据求解出必须的数学模型表达式，便可求解出胃病的鉴别方法。三、符号的说明X1：血清铜蛋白X2：蓝色反响X3：尿吲哚乙酸X4：中型硫化物N：被调查的样本数Wilks的lambda：组内平方和与总平方和之比当全部观测的组均值相等时，Wilks的lambda值为1；当组内变异与总变异相比小时，Wilks的lambda值接近于0。因此，Wilks的lambda值大，表示各个组的均值根本相等；Wilks的lambda小表示组间有差异。在判别分析中，只有组均值不等时，判别分析才有意义F：F值，F分布中的统计检定值df：自由度sig.：统计显著性，即出现目前样本的机率P：p值四、问题的假设1.该四项生化指标是分别可以测得的。2.每个生化指标都不是其他三个指标的线性组合，即两两之间无相关性。3.被抽取的三类人员中彼此没有任何血缘关系。4.除了此题探究的疾病外，被调查的人员无任何疾病。五、模型的建立依据以上的分析，回忆所学的学问，发觉该问题符合判别分析法的要求，因此可以用判别分析法来求解，其中，判别分析法可以分为：距离判别法、Fisher判别法、Bayes判别法等。SPSS软件是统计分析软件之一，它可以进展各种统计分析工作。另外，它所具有的强大的图形输出功能，使运行该软件不仅可以得到各种数字分析结果，还可以得到各种直观、清楚、美丽的统计图形。从而利用软件SPSS，将全部的数据输入进去，便可以得到协方差矩阵、自由度、p值、均值、标准差等与该问题相关的有利于分析问题的数据及图形。此时此刻主要利用Fisher判别法、Bayes判别法来处理该问题。Fisher判别法的根本思想：从个总体中抽取具有个指标的样品观测数据，借助方差分析的构造一个线性判别函数：，其中系数确定的原那么是使得总体之间区分最大，而使每个总体内部的离差最小。有了线性判别函数U后，对于一个新的样品，将它的个指标值代入以上线性判别函数式中求出值，然后依据判别必须的规那么，就可以判别新的样品属于哪个总体。Bayes判别法的根本思想：设有个总体，其各自的分布密度函数互不一样的，假设个总体各自出现的概率分别为先验概率，。假设确定假设将原来属于总体的样品错判到总体时造成的损失为，。在这样的情形下，对于新的样品判定其来自哪个总体。通过这两种方式利用软件SPSS来求解，得出的数据在分析比拟后，就可以得出结果。六、模型的求解1.spss操作步骤如下1建立数据文件在数据窗口中输入上入待分析的数据。2按依次单击分析分类判别菜单项，如图-1所示，系统弹出判别分析的对话框，如图-2所示图-1 先选择菜单进入判别分析对话框注：X1：血清铜蛋白X2：蓝色反响X3：尿吲哚乙酸X4：中型硫化物3选择参加判别分析的变量及其他相关设置1分组变量框：从左侧选入分类变量“类型”于分组变量框中。2定义范围按钮：定义分类变量的取值范围。单击分类变量按钮，系统弹出一个对话框，如图-3所示。最小值输入1，最大只输入3.完成设置后，单击接着按钮，返回判别分析主对话框，见图-2.图-2 判别分析的主对话框图-3 指定分类变量范围对话框3自变量列表框：从左侧的变量列表将参加判别分析的变量“X1X4”于其中，如图-4所示。4一起输入变量单按钮：表示选择全部变量参加判别分析，如图-4所示。图-44判别分析的统计输出设置。单击统计量按钮，系统弹出一个对话框，如图-5所示。图-5 判别分析的统计输出设置1描述性框：描述统计量选项组，包括3个复选框项，复选均值复选框和单变量复选框。如图-5所示均值复选框：各类中个变量的均值、标准差和各自变量总样本的均值、标准差；单变量复选框：变量均值的单因子差异假设试验。2 函数系数框：判别函数系数选项组，复选Fisher复选框和未标准化复选框，如图-5所示。 Fisher复选框：给出贝叶斯判别函数的系数。未标准化复选框：给出未标准化的Fisher判别函数的系数。5指定判别分析的有关参数及有关输出结果设置。单击分类按钮，系统弹出一个对话框，如图-6所示。图-6 指定参数与结果对话框1先验概率框：先验概率选项组，包括两个单项选择项，单项选择全部组相等框如图-6所示。全部组相等框：个二类先验概率相等。2输出框：分类结果选项组，包括三个复选项，复选个案结果、摘要表和不考虑该个案时的分类复选框如图-6所示。个案结果复选项：对每个样品输出判别函数值、实际类、预料类和后验概率。摘要表复选项：输出分类小结，给出正确分类的样品数、错分样品数和错分率。不考虑该个案时的分类复选项：穿插验证的判别分类结果。3运用协方差矩阵框：分类运用的协方差矩阵，单项选择在组内单项选择项如图-6所示。在组内单项选择项：运用合并类内协方差矩阵。4图框：复选合并组、分组和区域图复选框如图-6所示。合并组复选项：使出包括各个类的散点图。分组复选项：每类输出一个散点图。区域图复选项：输出领域图。全部设置完成后，单击接着按钮返回判别分析主对话框。图-7 建立新变量对话框6单击保存按钮，系统弹出一个对话框，复选预料组成员、判别得分和组成员概率复选项如图-7所示。1预料组成员复选项：依据判别函数的值，按后验概率计算预料分类结果。2判别得分复选项：建立判别函数值变量。3组成员概率复选项：建立新变量，说明每一个样品属于某一类的概率。全部设置完成后，单击接着按钮返回判别分析主对话框。7上述设置完成后，单击确定按钮进展判别分析，得到输出结果。七、模型的结果1描述性输出分析案例处理摘要未加权案例N百分比有效15100.0解除的缺失或越界组代码0.0至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计0.0合计15100.0图-8图-8表示有效样本及样本变量的实际状况。组均值的均等性的检验Wilks 的 LambdaFdf1df2Sig.x1.888.758212.490x2.4268.074212.006x3.4427.564212.007x4.7861.633212.236图-9由图-9可知显著水平X2、X3最大，而X1、X4显著水平最小。但是由于判别变量间可能相互关联，仅单独检验是不够的。但是通过将X1和X4分别与X2和X3联合后发觉，他们对判别的提高有很大的奉献。组统计量类型均值标准差有效的 N列表状态未加权的已加权的1x1188.600057.1384355.000x2150.400016.5015255.000x3.1380.0593355.000x4.2000.1332355.0002x1163.000053.8052055.000x2115.000014.8155355.000x3.0700.0187155.000x4.1360.0753755.0003x1151.000033.8008955.000x2121.400013.0115355.000x3.0500.0187155.000x4.0900.0678255.000合计x1167.533348.475131515.000x2128.933321.049151515.000x3.0860.052211515.000x4.1420.100941515.000图-10上表图-10表示各组变量的描述统计状况，给出了各个类型的均值、标准差等统计量。通过这些数据，可以大致了解3种类型在这4个指标上的差异。2判别函数的检验特征值函数特征值方差的 %累积 %正那么相关性12.768a93.593.5.8572.192a6.5100.0.402a. 分析中运用了前 2 个典型判别式函数。图-11Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1 到 2.22315.7758.0462.8391.8473.605图-12“特征值”图-11表格给出了两个典型判别函数所能说明的方差变异，其中第一个函数说明了全部变异的93.5%，其次个函数说明了余下的6.5%。因而其次个函数的相对重要性远远小于第一个函数。“Wilks的lambda”图-12表格用来检验各个判别函数有无统计学上的显著意义，依据该表反响的值，这些数据说明，其次个判别函数对判别组仍有显著奉献犯错概率为60.5%。 3典型判别式函数摘要标准化的典型判别式函数系数函数12x1.382.011x2.567-.861x3.673.633x4.296.515构造矩阵函数12x3.670*.314x1.208*.178x2.673-.696*x4.296.390*判别变量和标准化典型判别式函数之间的会聚组间相关性按函数内相关性的肯定大小排序的变量。*. 每个变量和随意判别式函数间最大的肯定相关性图-13图-14 “标准化的典型判别式函数系数”表格图-13是两个判别函数中各个变量的标准化系数，由此可以判定各个函数主要受那些变量的影响；“构造矩阵”图-14给出的是判别变量和标准化判别函数之间的相关性数据，同样可以用来判定各个函数受那些判别变量的影响最大。对于判别函数1，变量X2、X3的判别意义最大，而对判别函数2变量X3、X4的判别意义最大。4未标准化系数和质心函数典型判别式函数系数函数12x1.008.000x2.038-.058x317.95416.880x43.0625.327(常量)-8.2045.228非标准化系数组质心处的函数类型函数1212.095-.0532-.873.5053-1.221-.452在组均值处评估的非标准化典型判别式函数图-15 图-16非标准化系数在运用时可以干脆通过原始变量进展计算，如图-15所示。“组质心处的函数”图-16表格给出的是各类别的重心在平面上的坐标，如类型一的坐标是2.095，-0.053.只要依据这里的典型判别函数未标准化的，计算出每个观测的平面坐标，再计算它们和各类重心的距离，就可以判定其类型归属。(5) Fisher判别函数分类函数系数类型123x1.127.104.101x2.715.569.611x368.59924.7232.328x44.742-1.376-7.537(常量)-71.993-43.041-45.525Fisher 的线性判别式函数组的先验概率类型先验用于分析的案例未加权的已加权的1.33355.0002.33355.0003.33355.000合计1.0001515.000图-17图-18 Fisher判别函数的输出如图-17、图-18所示。依据分类函数系数表格可得出各类型的Fisher判别函数为：将某待诊者的四项生化指标分别带入到上述各类型对应的Fisher判别函数，得到三个对应的Fisher函数值，依据Fisher后验概率最大这一判别规那么，即所得函数值最大，可以判定某待诊者所属的类型。6典型判别的散点图图-19图-20图-21以上三图给出的是胃癌、萎缩性胃炎、非胃病三种类型的判别函数值的散点图。第一个图形表示将类型1，即胃癌的5个样本分别代入两个典型判别函数，得到5对判别函数值，从而构成散点图，其中，横坐标是第一典型判别函数值，纵坐标是其次典型判别函数值。在用SPSS软件进展判别分析时，都可以得到类似的判别函数值散点图。以上三点图比拟直观地反映了各组观测的分类状况和各组的重心。图-22上图给出了三种类型的典型判别函数值总的散点图，同样是把各类的样品分别代入两个典型判别函数，计算得到15对判别函数值，从而构成这样的散点图，其中，横坐标是第一典型判别函数值，纵坐标是其次典型判别函数值。从图中可以看出，三种类型在图中有各自的分布领域，说明所建立的判别函数的判别精度不太好。7每个个体的判别结果遵照案例依次的统计量案例数目最高组其次最高组判别式得分P(Dd | G=g)实际组预料组pdfP(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2初始111.2732.9942.5972.00513.0742.6101.474211.3692.9491.9942.0478.0201.8341.335311.5572.9981.1702.00114.9292.709-.944413*.1142.5974.3361.2376.180.347-1.821511.6582.999.8382.00115.4612.974-.309622.4702.4871.5123.3302.290.233-.033722.4752.6751.4873.3252.950-1.9311.113823*.9072.516.1962.480.340-1.130-.019922.4412.5641.6361.2433.321.401.6181022.5352.6161.2523.3842.195-1.939.8441132*.9992.611.0033.383.936-.897.4601233.9102.664.1882.3301.585-.910-.7541333.3172.7782.2972.1905.111-.356-1.6961433.5082.6191.3542.3812.328-2.304-.0251533.8972.614.2182.3861.147-1.639-.244穿插验证a112*.0004.58338.0671.41638.741212*.0054.91314.9501.05920.424311.3904.9974.1192.00117.190413*.3944.8554.0892.1457.639511.0044.99915.5392.00130.588621*.1484.8246.7743.16310.019722.5214.5353.2253.4653.502823*.9754.566.4892.4291.044921*.1934.9186.0843.05911.5801022.6994.5072.1983.4922.2581132*.9694.723.5463.2672.5411233.8744.6011.2222.3882.0961333.3284.6124.6262.2806.1891432*.5894.5262.8193.4743.0291532*.6314.5182.5773.4812.726对初始数据来说，平方 Mahalanobis 距离基于典那么函数。对穿插验证数据来说，平方 Mahalanobis 距离基于视察值。*. 错误分类的案例a. 仅对分析中的案例进展穿插验证。在穿插验证中，每个案例都是遵照从该案例以外的全部其他案例派生的函数来分类的。图-23上表中的案例数目列，是全部个体的编号。实际组列是每个个体事实上所在的类型。在最高组具有最大辨别率下的预料组列，是遵照计算结果的类型。可以看到编号4经过判别分析后被判到了第三种类型中，即非胃病；编号8经过判别分析后被判到了第三种类型中，即非胃病；编号11经过判别分析后被判到了其次种类型中，即萎缩性胃炎。上表中的最高组具有最大辨别率下的PDd | G=g列和df列，是在样本属于该类型而判别不是相应类型的条件概率及其自由度。表中PD=d | G=g列是判别样本属于相应类型，而样本的确是相应类型的后验概率。从表中可以看出后验概率还是比拟大的。表中的最高组下的到质心的平方 Mahalanobis 距离列，是相应个体距类别重心的马氏距离的平方。上表中的其次最高组具有其次大辨别率下的组列，是把相应判为相应类型的状况。表中的其次最高组下的PD=d | G=g是判别样本属于相应类型，而样本的确是相应类型的后验概率。表中其次最高组下的到质心的平方 Mahalanobis 距离列，与表中最高组下的定义一样。表中最终一列是两个典那么判别函数之值。分类结果b,c类型预料组成员合计123初始计数140152041530145%180.0.020.0100.02.080.020.0100.03.020.080.0100.0穿插验证a计数122152221530325%140.040.020.0100.0240.040.020.0100.03.060.040.0100.0a. 仅对分析中的案例进展穿插验证。在穿插验证中，每个案例都是遵照从该案例以外的全部其他案例派生的函数来分类的。b. 已对初始分组案例中的 80.0% 个进展了正确分类。c. 已对穿插验证分组案例中的 40.0% 个进展了正确分类。图-24由图-24可以得出该模型的判别正确率为80%，较低。八模型的评价与改良方向在此模型下，我们是假设把全部存在的判别变量都选入判别函数，并说明如何通过计算标准化判别函数系数，分辨出不重要的判别变量，但最终的判别正确率不太高，因此我们必需对模型进展改良。依据图-11和图-13可计算各个指标对整个判别函数总体的判别系数。对X1，其判别系数为：0.935*0.382+0.065*0.011=0.357885；对X2，其判别系数为：0.935*0.567+0.065*-0.861=0.47418；对X3，其判别系数为：0.935*0.673+0.065*0.633=0.6704；对X4，其判别系数为：0.935*0.296+0.065*0.515=0.310235。依据以上平均判别系数的数据，可以发觉X3的平均判别系数最大，判别意义最大；X4的平均判别系数最小，即其判别意义最小。因此，我们在此过程中可以考虑将X4舍去。通过以上类似过程，我们可以得到每个个体的判别结果如图-25和图-26所示，那么最终的判别正确率为93.3%。遵照案例依次的统计量案例数目最高组其次最高组判别式得分P(Dd | G=g)实际组预料组pdfP(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2初始111.0432.9966.3062.00417.4522.7882.365211.6542.815.8482.1274.5641.223.434311.4152.9961.7603.00213.9222.526-1.253411.1332.4424.0313.4004.232.641-1.485511.6562.999.8452.00115.1142.924-.192622.4112.4591.7791.2852.731.420.385722.4742.6261.4933.3742.524-2.049.877822.9822.547.0363.447.438-.957.244922.5642.4541.1443.4541.145-.054-.2091022.5492.6251.1983.3752.219-1.926.8431132*.9532.523.0963.472.304-1.043.1461233.8712.533.2762.448.623-.593-.2931333.3382.6852.1722.2394.281-.094-1.4721433.4592.6371.5572.3632.681-2.354-.3511533.8822.531.2522.468.504-1.451-.036穿插验证a111.0003.93126.3602.06931.563211.1913.5154.7462.3265.665311.3183.9923.5243.00514.081413*.2563.6794.0492.2925.737511.0013.99915.5272.00130.175621*.1603.8815.1733.0989.559723*.3823.5173.0612.4833.199822.9893.536.1233.455.447923*.5273.5762.2272.2713.7361022.5793.5331.9673.4662.2361132*.9423.567.3923.425.9691233.9163.503.5122.473.6371333.2303.4864.3122.3205.1511433.4453.5182.6722.4822.8161532*.6233.5911.7643.4072.508对初始数据来说，平方 Mahalanobis 距离基于典那么函数。对穿插验证数据来说，平方 Mahalanobis 距离基于视察值。*. 错误分类的案例a. 仅对分析中的案例进展穿插验证。在穿插验证中，每个案例都是遵照从该案例以外的全部其他案例派生的函数来分类的。图-25由上图可知，编号11经过判别分析后，被判到了其次种类型，即萎缩性胃炎。分类结果b,c类型预料组成员合计123初始计数150052050530145%1100.0.0.0100.02.0100.0.0100.03.020.080.0100.0穿插验证a计数140152122530235%180.0.020.0100.0220.040.040.0100.03.040.060.0100.0a. 仅对分析中的案例进展穿插验证。在穿插验证中，每个案例都是遵照从该案例以外的全部其他案例派生的函数来分类的。b. 已对初始分组案例中的 93.3% 个进展了正确分类。c. 已对穿插验证分组案例中的 60.0% 个进展了正确分类。图-26因此最终可以建立改良后的判别函数如图-27所示。分类函数系数类型123x1.129.103.096x2.718.568.606x366.86925.2255.077(常量)-71.901-43.033-45.293Fisher 的线性判别式函数图-27依据分类函数系数表格可得出各类型的Fisher判别函数为：将某待诊者的三项生化指标分别带入到上述各类型对应的Fisher判别函数，得到三个对应的Fisher函数值，依据Fisher后验概率最大这一判别规那么，即所得函数值最大，可以判定某待诊者所属的类型。虽然，该模型并不能100%的判定出待诊者所属的类型，但是，利用该模型能够对待诊者做出简洁、快速、较为精确的判定，能够解决医学上此时此刻所面临的问题。同时，也成为医学上一种新的诊断方式，与传统的诊断方式相比，精确率得到了大幅提高，治疗效果也会更为显著。参考文献1 张建同、孙昌言，以Excel和SPSS为工具的管理统计，清华大学出版社，2005年；2 王力宾、顾光同，多元统计分析：模型、案例及SPSS应用，经济科学出版社， 2010年；3 张力， SPSS在生物统计中的应用其次版，厦门大学出版社， 2008年；4 贾丽艳、杜强， SPSS统计分析标准教程，人民邮电出版社， 2010年；5 倪雪梅，精通SPSS统计分析，清华大学出版社，2010年；6

展开阅读全文

数学建模题目及其答案(疾病的诊断)

最新文档