葡萄酒的评价-全国数学建模大赛优秀论文

上传人:沈*** 文档编号:205159963 上传时间:2023-04-28 格式:DOC 页数:28 大小:2.60MB
返回 下载 相关 举报
葡萄酒的评价-全国数学建模大赛优秀论文_第1页
第1页 / 共28页
葡萄酒的评价-全国数学建模大赛优秀论文_第2页
第2页 / 共28页
葡萄酒的评价-全国数学建模大赛优秀论文_第3页
第3页 / 共28页
点击查看更多>>
资源描述
2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 重庆工商大学 参赛队员 (打印并签名) :1. 伍家棋 2. 杜静 3. 黄丹 指导教师或指导教师组负责人 (打印并签名): 日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):葡萄酒的评价摘要酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定的程度上反映葡萄酒和葡萄的质量。本论文主要研究葡萄酒的评价、酿酒葡萄的分级以及酿酒葡萄与葡萄酒的理化指标之间的相互关系问题。对于问题一:我们从假设检验的角度出发分析,对两组的评分进行均值和方差运算,并在零假设成立的前提下通过使用Matlab做T检验,得出两组评酒员对于红葡萄酒的评价结果无显著性差异,而对于白葡萄酒的评价结果存在显著性差异的结果。再建立可信度模型,计算结果如下表, 第一组红葡萄酒第二组红葡萄酒第一组白葡萄酒第二组白葡萄酒 0.1005070.056413 0.0649410.041433由表可得第二组的可信度更高。对于问题二:根据葡萄酒质量的综合得分,将其划分为优、良、合格、不合格四个等级,并对酿酒葡萄的理化指标进行主成分分析,得出对葡萄影响较大的理化指标:红葡萄主要理化指标DPPH自由基、葡萄总黄酮、PH值、花色苷、蛋白质、黄酮醇、固酸比、果梗比白葡萄主要理化指标氨基酸、干物质含量、可溶性固形物、果穗质量、总糖、苹果酸、还原糖、总酚、葡萄总黄酮、酒石酸、黄酮醇并根据酿酒葡萄的理化指标和葡萄酒的质量,利用模糊综合评价模型对葡萄酒进行了分类,结果如下: 等级数级数红酒数量红葡指标白酒数量白葡指标次品43103普通311474良好212201916优质11225对于问题三:先对酿酒葡萄的理化指标和酒样品的质量进行偏相关分析,得到了它们的偏相关系矩阵。利用通径方法建立了数学模型,得出了它们之间的线性回归方程:对于问题四:在前面主成分分析和葡萄酒分级的基础上,建立Logistic回归模型,并利用最大似然估计法求出线性回归方程的参数,得出线性回归方程。运用SPSS软件,通过matlab编程运算,求出受它们综合影响的线性回归方程。在验证时,随机从上面选取理化指标,将它们带入P的计算式中,通过所求P值判断此时葡萄酒质量所属级别,得出了不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的结论。最后,对模型进行了改进和推广。关键词 T检验 主成分分析 Logistic回归模型一、问题的重述葡萄酒作为体现时尚品味的元素,同名茶、咖啡一样备受追捧。在物质社会的今天,人们酿造葡萄酒的品质还是有待鉴定的,因此,确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。此外,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据,现需要用数学建模方法研究解决以下问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,并判断哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题的分析针对问题一:分析评酒员的评价结果有无显著性差异,需要从反面来论证,要从假设性检验角度来分析问题。由于样本容量较大,近似地服从正态分布。因此,本论文采用了使用Matlab做T检验,从而确定两组评价有无显著性差异。为了确定哪一组的结果更可信,建立了一种可以替代可信度的模型。又考虑到该样本涉及到的是正态分布,则数据的离散程度是对其影响最大的因素,所以采用用标准差与平均值的比值作为可信度模型来衡量可信度的高低。针对问题二:该问题要求我们根据酿酒葡萄的理化指标和葡萄酒的质量来对酿酒葡萄进行分级,故我们要对酿酒葡萄的理化指标和葡萄酒的质量进行综合评价,但是在进行综合评价以前我们有分别要对它们二者分别进行分析。在第一问中,我们已经对葡萄酒的整体进行了打分,因此,葡萄酒的质量实际上已经分好类了,那么我们就需要对酿酒葡萄的理化指标进行分析。但是,由于影响酿酒葡萄的理化指标的因素有30个,要使问题得到简化,我们只需取其几个主要的影响因素,因此,采用主成分分析法来分析主要影响因素。然而,葡萄酒的质量的单位系与酿酒葡萄的理化指标的单位系不同,因此不能直接加减来判断,所以,我们采用了模糊综合评价模型来对酿酒葡萄进行分级。针对问题三:对酿酒葡萄的理化指标和酒样品的质量进行偏相关分析,得到了它们的偏相关系矩阵。利用通径方法建立了数学模型,得出了它们之间的线性回归方程针对问题四:基于前面主成分分析和葡萄酒分级的基础,建立Logistic回归模型,并利用最大似然估计法求出线性回归方程的参数,得出线性回归方程。运用SPSS软件,通过matlab编程运算,求出受它们综合影响的线性回归方程。在验证时,随机从上面选取理化指标,将它们带入P的计算式中,通过所求P值判断此时葡萄酒质量所属级别,得出了不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的结论。三、基本假设1、各个样品酒中原产地相似,酿酒葡萄的产地对葡萄酒的质量影响相同;2、酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系;3、葡萄酒的酿造工序和贮藏条件相同;4、各评酒员的资质较高,在对葡萄酒品平时都是客观的,不存在主观偏好;5、仪器对样本理化指标和所含芳香物质的测试不存在随机误差,附件所给的数据真实、准确、可靠;6、酒样品容量较大时,认为各组样本服从正态分布且相互独立;7、两种葡萄酒和酿酒葡萄的分级标准相同,且葡萄酒分为优、良、合格、不合格四个级别;8、假设附件1中,酒样品为一级指标,外观、口感、香气分析和整体评价为二级指标,澄清度、色调、纯正度、浓度、持久性和质量为三级指标;四、符号定义:表示澄清度,色调等指标个数,;:表示评酒员的个数,;:表示第b个评酒员对a指标的评分;:表示酒样品数,;:表示第种酒样品评分的均值;:表示总体均值;:表示两组对应红(白)酒的均值差;:表示对均值差()做t检验时的统计量;:表示拒绝域;:表示总体可信度的指标;:表示酿酒葡萄的理化指标数,;:表示第种酒样品的第中理化指标的值;:表示对标准化后的值;:表示相关系数矩阵的第个特征值;:表示主要理化指标的贡献率;:表示主要理化指标的累计贡献率;:表示主要理化指标的综合评价函数,;:表示显著性水平;:表示方差;:表示相关系数矩阵的特征向量;:表示子集中含有个评判因素;:表示个因数的权数分配;五、模型的建立与求解5.1、问题一模型的建立与求解5.1.1显著性差异的T检验针对于如何确定有无显著性差异,我们从假设检验的角度出发,通过使用Matlab做T检验,分析它们的均值与方差来确定显著性。1、对数据均值进行分析计算 均值即每种酒样品的平均得分,它表示每个评酒员对每种酒样品评定的质量的具体值,其公为: , (5.1.1) 其中,a表示附件1中的三级指标;b表示评酒员的个数。将各种葡萄酒样品各个评分代入式子(5.1.1),运用excel计算可得出如下结果:表1 第一组红葡萄酒整体均值酒样品1234567891011121314平均得分62.780.380.468.673.372.271.572.381.574.270.153.974.673酒样品15161718192021222324252627平均得分58.774.979.359.978.679.177.177.285.67869.273.873表2 第二组红葡萄酒整体均值酒样品1234567891011121314平均得分68.17474.671.272.166.365.36678.268.861.668.368.872.6酒样品15161718192021222324252627平均得分65.769.974.565.472.675.872.271.677.171.568.27271.5表3 第一组白葡萄酒整体均值酒样品1234567891011121314平均得分8274.278.379.47168.477.570.472.974.372.363.365.972酒样品1516171819202122232425262728品均得分72.47478.873.172.277.876.47175.973.377.181.364.881.3表4 第二组白葡萄整体均值酒样品1234567891011121314平均得分77.975.875.676.981.575.574.272.380.479.871.472.473.977.1酒样品1516171819202122232425262728平均得分78.467.380.376.776.476.679.279.477.476.179.574.37779.62、对数据方差进行分析计算 方差即各个数据与平均数之差的平方的平均数,它表示两组葡萄酒质量的波动大小,其公为: , (5.1.2) 其中,m表示酒样品数;表示组数,=1,2.将以上各种葡萄酒样品的均值代入式子(5.1.2),可求得各组的方差,结果如下:表5 两组红、白葡萄酒的方差第一组红葡萄酒第一组白葡萄酒第二组红葡萄酒第二组白葡萄酒53.9141025623.3078703715.8243910.054853、成对数据进行T检验根据表1、表2、表3和表4显示的结果,我们可将两组中红、白酒样品分别形成相应的成对数据,形式如下表:表6 两组酒样品的成对数据及差值酒样品号1227x1x2x27y1y2y27x-y(d)d1d2d27首先,假设:,且独立,则,其中,;然后,T检验问题为: 零假设 ,即; 对立假设,即.此时,用T统计量 , (5.1.3)其中, ,表示酒样品数,(红酒,白酒);在零假设成立的前提下,此统计量服从分布。这时,零假设的()显著水平的拒绝域是如下的样本区域: . (5.1.4)将表1和表2中的数据代入式子(5.1.3)中,可求得红葡萄酒的统计量t值,通过查表法将m值代入(5.1.4)可以求得显著水平的拒绝域。结果为:=2.04569 =2.04106所以可得评酒员对红葡萄酒的评价没有显著性差异。同理,我们可计算出白葡萄酒的统计量t值,即=-2.66648,不在拒绝域内,所以,结果可得两组评酒员对白葡萄酒的评价存在显著性差异。5.1.2可信度模型的建立及求解针对可信度的问题,我们用H表示可信度。在一定程度上,当平均值相等时,标准差能反映一个总体的离散程度,即标准差越大,离散程度越大,则表明这个总体的水平不稳定;标准差越小,反之水平越稳定。基于标准差和平均值的性质,我们用标准差与平均值比值的大小来表示一个总体可信度的高低。因而,我们建立一个可信度模型:,其中,H表示标准差与平均值的比值,即.可见,H值越大时它的可信度越低,H值越小时可信度越高。由此,可算得两组红葡萄酒样本的标准差与平均值的比值,如下表:表7 两组红、白葡萄酒的均值标准差与平均值的比值第一组红葡萄酒第二组红葡萄酒第一组白葡萄酒第二组白葡萄酒 0.1005070.056413 0.0649410.041433由以上表格显示的结果可得出如下结论:对于两组中的红葡萄酒,有:,所以第二组对红葡萄酒的评价结果的可信度更高;对于两组中的白葡萄酒,有:,所以第二组对白葡萄酒的评价结果的可信度更高;综上所述:第二组更可信。5.2、问题二模型的建立和求解5.2.1对酿酒葡萄的质量进行分类该问题要求我们根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,而在第一问中我们已经对葡萄酒进行了综合评分,现将其结果分为优、良、合格、不合格四类,。对其质量进行等级分类,结果如下表格:表8 红葡萄酒质量的等级分类等级(均值)酒样品优(75以上)9、20、23良(7075)2、3、4、5、14、17、19、21、22、24、26、27合格(6570)1、6、7、8、10、12、13、15、16、18、25不合格(65以下)11 表9 白葡萄酒质量的等级分类等级(均值)酒样品优质(75以上)1、2、3、4、5、6、9、10、14、15、18、19、20、21、22、23、24、25、26、27、28良 (7075)7、8、11、12、13合格(6570)16不合格(65以下)5.2.2对酿酒葡萄的理化指标进行主成分分析1、建立主成分分析数学模型样本观测数据矩阵为:, 其中,将酿酒葡萄的理化指标带入X中,求得了X的矩阵。将个观测变量综合成为个新的变量(综合变量),即简写为:,()其中,为综合评分函数,为主成分系数,为各样品酿酒葡萄的理化指标,n为127个葡萄样品,p为130个理化指标,为理化指标的观测数据矩阵。第一步:对原始数据进行标准化处理 , ; 又: 第二步:计算样本相关系数矩阵,为方便,假定原始数据标准化后仍用表示,则经标准化处理后的数据的相关系数为: 第三步:用雅克比方法求相关系数矩阵的特征值()和相应的特征向量。解特征方程,求出特征值。因为R是正定矩阵,所以其特征值都为正数,将其按大小顺序排列,即.特征值是各主成分的方差,它的大小反映了各个主成分的影响力。第四步:选择重要的主成分,并写出主成分表达式主成分分析可以得到个主成分,但是由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取个主成分,而是根据各个主成分累计贡献率的大小选取前个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重,即=,其中,表示主成分的贡献率,贡献率越大,说明该主成分所包含的原始变量的信息越强。又累计贡献率为: ,所以,特征值大于1且累计贡献率达80%-95%的特征值所对应的1,2,()其中整数即为主成分的个数。第五步:计算主成分得分根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分,具体形式可如下:又 , 2、运用SPSS软件计算数据根据SPSS软件算出葡萄酒质量的等级与酿酒葡萄的理化指标的相关度(附录二),由附录中分析得出:30种酿酒葡萄的理化一级指标对葡萄分级有一定影响,它们在葡萄中的含量决定葡萄的质量。以27种红(28种白)葡萄的30个理化指标构成27(28)30的矩阵,利用MATLAB软件进行主成分分析(MATLAB主成分分析的源代码见附录1),经过有限次剔出后确定保留的成分,再用相关矩阵的特征值与特征向量特征值算得主成分、主成分个数及主成分贡献率,由以上数据得出综合评分。 红葡萄的理化指标经过有限次剔出后,保留了8个主成分: x10、x13、x19、x4、x2、x15、x21、x25,分别代表DPPH自由基、葡萄总黄酮、PH值、花色苷、蛋白质、黄酮醇、固酸比、果梗比(主成分按照贡献率降幂排列);理化指标的综合评分(分数越低,排名越靠后)是:表10 红葡萄主要成分的综合评分红葡萄样品1234567排名25222169512主成分综合分-0.7986-0.3447-0.33790.51510.33690.56030.3001红葡萄样品891011121314排名2023171723主成分综合分-0.3156-0.46752.21290.4172-0.02471.63120.7737红葡萄样品15161718192021排名112726151684主成分综合分0.3125-3.0269-1.06080.0410.00880.36840.6661红葡萄样品222324252627排名131419241810主成分综合分0.13390.0811-0.1872-0.7932-0.06970.3187同理可算出,白葡萄的相关信息:白葡萄的理化指标经过有限次剔出后,保留了11个主成分,:x1、x22、x18、x23、x16、x6、x17、x11、x13、x5、x15,分别代表氨基酸、干物质含量、可溶性固形物、果穗质量、总糖、苹果酸、还原糖、总酚、葡萄总黄酮、酒石酸、黄酮醇(主成分按照贡献率降幂排列);理化指标的综合评分(分数越低,排名越靠后)是:表11 白葡萄主要成分的综合评分白葡萄样品1234567排名616232028213主成分综合分0.56040.1665-0.3528-0.2285-2.1077-0.25661.002白葡萄样品891011121314排名725199171511主成分综合分0.55-0.8539-0.03380.46450.07120.26720.394白葡萄样品15161718192021排名4851327242主成分综合分0.86770.53840.70390.3253-1.550.53091.3999白葡萄样品22232425262728排名1411012182622主成分综合分0.28791.61360.44330.34710.0026-1.4436-0.27265.2.2采用模糊综合评价模型来对酿酒葡萄进行分级1、多层次模糊综合评判模型的建立:(1) 对评判因素集合U,将其划分成2个子集,并使它们满足: (5.2.1)这样,就得到了第二级评判因素集合: (5.2.2)其中,表示酿酒葡萄的质量,酿酒葡萄的理化指标在(5.2.2)式中,Ui=Uik(i=1,2,m;k=1,2,nk)表示子集Ui中含有nk个评判因素。其中 =(外观,香气、口感、整体评价)=(酿酒葡萄的主要理化指标)(2)对于每一个子集Ui中的nk个评判因素,按单层次模糊综合评判模型进行评判,如果中的诸因数的权数分配为,其评判决策矩阵为,则得到第i个子集Ui的综合评判结果: (5.2.3)(3)对U中的m个评判因素子集Ui(i=1,2,m),进行综合评判,其评判决策矩阵为: (5.2.4) 如果U中的各因数子集的权数分配为A,则可得综合评判结果: 因此,可以分别求出白葡萄和红葡萄相对于葡萄质量的综合得分,然后根据它们的综合得分对它们进行分级。2、使用SPSS实现等级的划分将葡萄酒质量与酿酒葡萄的理化指标综合评分分配优、良、合格、不合格四个等级,结果如下表:表12 红、白葡萄酒的分级样品等级数红酒数量(27)红葡指标数量白酒数量(27)白葡指标数量不合格3103合格11474良12201916优1225用SPSS软件计算出主成分相关系数,结合成分各自比重算出酿酒葡萄的主成分之和与葡萄酒质量的等级的相关度,公式:;再由的关系式,得出权重p,如下表:表13 酿酒红葡萄的主成分之和与红葡萄酒质量的等级的相关度红葡萄DPPH自由基葡萄总黄酮PH值花色苷相关度(r)0.610.6080.5690.499成分比重f(标准化)0.174103630.150950.1428570.142408红葡萄蛋白质黄酮醇固酸比果梗比相关度(r)0.4820.4510.4220.258成分比重f(标准化)0.1054290.1029560.0962120.085085相关度(R)0.510131055权重P (%)理化指标p33.7806评酒质量1-p66.2194表14 酿酒白葡萄的主成分之和与白葡萄酒质量的等级的相关度白葡萄主成分氨基酸干物质含量可溶性固形物果穗质量总糖苹果酸相关度(r)0.5940.4340.4250.4130.3951.358成分比重f(标准化)0.1647070.141080.1100330.1053530.07990.079557白葡萄主成分还原糖总酚葡萄总黄酮酒石酸黄酮醇相关度(r)0.3520.350.3440.3380.307成分比重f(标准化)0.0762470.0676860.0622080.0575280.055701酒和葡萄理化指标和的相关度(R)0.497412权重理化0.332181评酒0.667819对比酿酒葡萄的理化指标主成分与葡萄酒质量的排名的综合评分及排名,用上小节计算的权重p,加权算术得到综合评分(见下表),并利用权数算得酿造葡萄的分级。表15 红葡萄酒与酿酒葡萄样品排名的综合评分样品酿酒红葡萄排名葡萄酒评分综合评分1343.66262317.26372418.264221014.055191516.35623913.7371669.388888.00952618.9110271116.401121510.40121114.3813261216.7314251619.04151727.07161149.611722215.24181336.3819122117.9620202523.3121241920.6922151816.9923142722.612492016.2825475.9926101714.6427181314.69表16 红样品综合等级频数样品等级数不合格合格良优综合等级频数25174表17白葡萄酒与酿酒葡萄样品排名的综合评分样品酿酒葡萄排名品酒评分综合排名1634.002161716.6732328.98420610.655281317.986212221.67731410.35872418.359251216.3210191012.991192318.3512172824.3513152723.0114112017.011541511.351682620.0217544.3318131816.3419272122.992024913.9821286.0122141615.34231117.6824101916.01251257.332618710.6527262525.33282217.98表18 白样品综合等级频数白样品等级数不合格合格良优综合等级频数291515.3问题三模型的建立与求解对于本问题分析酿酒葡萄与葡萄酒的理化指标之间的联系,我们采用的通径分析法,通过建立通径分析模型来求解它们之间的联系。5.3.1偏相关分析由附件2知道,本实验的数据分别给出28个白葡萄样品和6个白葡萄酒样品的理论化指标,对其中多次测量的理化指标,我们采用的是取其平均值的方法进行处理。在28个不同的葡萄酒样品中,白葡萄酒的理化指标()的实验数据如下表所示:表19 白葡萄酒的理化指标品种编号单宁总酚酒总黄酮白藜芦醇DPPH色泽白葡萄酒L*(D65)a*(D65)b*(D65)酒样品11.6201.2640.1050.30900.035102.110-0.5102.110酒样品21.2331.1040.5100.21540.033101.850-0.5903.160酒样品32.0091.8203.6690.34840.047101.790-0.4802.940酒样品42.0171.4851.1320.11190.053101.700-0.8704.050酒样品51.5951.5371.4140.31270.041101.820-1.1504.370酒样品61.2891.1760.0790.17570.042102.070-0.5802.640酒样品71.3741.2023.9310.37110.052101.860-0.2602.260酒样品81.5130.4720.5770.58440.039102.100-0.6802.610酒样品91.8441.2870.1000.19930.040101.730-0.7903.880 根据上述取得的样本数据,通过使用excel进行数据的相关系数的拟合,求得的偏相关系数矩阵如下所示:同理,我们可以分别求得红色葡萄酒的理论指标()的偏相关系矩阵、红葡萄的理论指标()的偏相关系矩阵、白葡萄的理论指标()的偏相关系矩阵,具体结果见附录3。5.3.2通径分析模型其中yi和xi均为标准化的样本数据值。则回归系数的最小二乘估计满足的正则方程组为:正则方程组将分解为对的直接作用及xj通过其它xk(k=/j)对y的间接作用原理。所以对的作用是通过1条直接路和条间接路来实现的,总作用等于各路径系数之和,即同样的第2,3,4,方程分别表示了对的作用机理。分析模型中决定系数 5.3.2通过使用SPSS求理化指标间的通径系数通过使用SPSS可得葡萄的等级与红葡萄酒的各个理化指标之间的关联度大小:(如下表)表20 红葡萄与红葡萄酒的理化指标之间的关联度花色苷单宁总酚酒总黄酮白藜芦醇R1R2R3R4R50.7000.9830.9820.9810.978DPPH半抑制体积L*(D65)a*(D65)b*(D65)芳香物质R6R7R8R9R100.9720.9400.9280.9760.570通过比较关联度的大小就可以得出红葡萄酒的各个理化指标与酿酒红葡萄的密切关系程度。当然,同理可以计算出白葡萄和白葡萄酒的理化指标的关联度大小:(如下表)表21 白葡萄与白葡萄酒的理化指标的关联度单宁总酚酒总黄酮白藜芦醇DPPH半抑制体积R1R2R3R4R50.9740.9740.9740.9720.971L*(D65)a*(D65)b*(D65)芳香物质R6R7R8R90.8450.9700.9770.519通过比较关联度的大小就可以得出白葡萄酒的各个理化指标与酿酒白葡萄的密切关系程度。最终求得各理化指标间的线性回归方程为;5.4、问题四模型的建立与求解本问题是为了分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,由前面我们已经知道酿酒葡萄的综合得分,并对其进行了分级处理。但是,酿酒葡萄的综合得分只是一种感性认知,不能决定葡萄酒的质量,故此我们要综合考虑两者的影响。我们从反应变量出发分析,附录2和附录3中给出的是分类变量,因此不适宜用线性回归分析,因此我们选用Logistic回归模型来进行统计分析。5.4.1 Logistic回归方程为; 其中,P,分别称为随机误差,概率优势,回归常数和偏回归系数。所以得P的计算式为:5.4.2 运用SPSS软件求解Logistic回归方程的参数(1)理化指标与葡萄酒质量的影响程度通过SPSS软件的AnalyzeRegressionLinear过程,输出葡萄的理化指标与葡萄酒质量之间关系的相关表,如下图:图1 红葡萄理化指标对葡萄酒质量的影响(平均数)第二列中,常数项估计值=64.053,其余是偏回归系数估计值。第六列t统计量对应的概率P值都是大于显著性水平0.05,接受原假设(回归系数与0不存在显著性差异),认为回归系数为0,被解释变量(葡萄酒的质量)与解释变量(葡萄的理化指标)之间的线性关系不显著的。于是,多元线性回归方程为:y=64.053-5.118*10-5x1+0.018x2-0.182x3+0.033x4+0.458x5-0.58x6-2.234x7-0.132x8由该回归方程可以明显观察出各理化指标的相关系数都比较小,印证了不显著的线性关系。图2 红葡萄酒理化指标对葡萄酒质量的影响第二列中,常数项估计值=76.436,其余是偏回归系数估计值第六列t统计量对应的概率P值都是大于显著性水平0.05,接受原假设(回归系数与0不存在显著性差异),认为回归系数为0,被解释变量与解释变量的线性关系不显著的。多元线性回归方程:y=76.436-0.014x1+0.974x2-1.435x3+0.822x4+0.711x5+7.784x6-0.105x7-0.023x8-0.085x9 由该回归方程可以明显观察出各理化指标的相关系数都比较小,印证了不显著的线性关系。同理,利用上述方法可以分析出白葡萄的理化指标与白葡萄酒的质量之间的线性关系是不显著的,白葡萄酒的理化指标与白葡萄的质量之间的线性关系(如下图)也是不显著的:图3白葡萄酒的理化指标与白葡萄的质量之间的线性关系多元线性回归方程为:Y=62.227+0.001x1+0.018x2+4.844x3-0.331x4+0.487x5+0.550x6-0.458x7+0.027x8-0.002x9+6.111x10-0.749x11图4葡萄酒的理化指标的综合权重、多元回归线性方程:Y=1312.310+0.15x1-1.432x2-0.445x3-0.811x4+24.638x5-12.069x6-3.351x7-2.606x8(2)论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的计算过程在(1)的基础上对回归分析作进一步分析,实现多重共线性检验。同样利用SPSS软件输出结果如下图:图5 红葡萄的理化指标与红葡萄酒质量之间的共线性诊断从第二列条件指数看,第8、9个条件指数都大于10,说明变量之间存在多重共线性。从方差比看,第9个特征根解释氨基酸13%,解释蛋白质数99%,解释花色苷53%,解释苹果酸41%,则可以认为这些变量存在多重共线性,需要重新建立回归方程(本文没有必要再求出具体的新回归方程式子),即原建立的回归方程并不能准确地反映出红葡萄酒质量随红葡萄的理化指标的变化规律。图6利用向后筛选策略剔除掉一些不合适的理化指标新建立回归模型,由表知经过7步完成回归方程的建立,最终模型为第7个模型。模型7中F检验的概率P值=0.2420.05,接受原假设(剔除的理化指标的偏回归系数与0无显著性差异),即认为剔除的这些理化指标变量对被解释变量(红葡萄酒的质量)的线性解释没有显著性贡献,不应保留在回归方程中。最后,回归方程的DW检验值1.769, 表示残差序列存在正相关,说明回归方程没能够充分说明被解释变量的变化规律,可能方程中遗漏了一些重要的解释变量(理化指标)。图7 红葡萄酒的理化指标与红葡萄酒质量之间的共线性诊断从第二列条件指数看,第6到10个条件指数都大于10,说明变量之间存在多重共线性。从方差比看,第10个特征根解释氨基酸58%,解释总酚数22%,解释果皮颜色a 74%,解释苹果颜色b 38%,则可以认为这些变量存在多重共线性,需要重新建立回归方程。图8利用向后筛选策略剔除掉一些不合适的理化指标新建立回归模型,由表知经过8步完成回归方程的建立,最终模型为第8个模型。模型8中F检验的概率P值=0.2060.05,接受原假设(剔除的理化指标的偏回归系数与0无显著性差异),即认为剔除的这些理化指标变量对被解释变量的线性解释没有显著性贡献,不应保留在回归方程中。回归方程的DW检验值2.242, 表示残差序列存在正相关,说明回归方程没能够充分说明被解释变量(红葡萄酒质量)的变化规律,可能方程中遗漏了一些重要的解释变量(理化指标)。同理,可以利用上述的方法检验能否用白葡萄和白葡萄酒的理化指标来评价白葡萄酒质量,检验的结果为否。其过程中求得的分析依据的相关图如下:图9 白葡萄的理化指标对葡萄酒质量的影响共线性诊断图10 重建回归方程的系数表图11 白葡萄酒理化指标对葡萄酒质量的影响共线性诊断图12 重建回归方程的系数矩阵所以,综上所述,虽然酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量有影响,但是影响程度不是很显著,经过论证,不能只用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量。 六、模型的优缺点与改进6.1 模型的优点 本文模型注重效率的提高,通过大量的特征信息的提取,并结合有效的算法,使其完全可以满足实时系统的要求,为葡萄酒酿造行业提供了方便可行得的鉴定葡萄酒等级的方法,具有实际的意义和较高的应用价值。1、采用T检验分析评酒员评价结果的显著性差异,通过计算均值、方差将大量数据简化,使得计算量小,具有代表性,便于理解。通过可信度模型的分析,验证了评酒员评价结果的可靠性,该模型用比值体现可信度,使得原本模糊的问题简单明了,并且可以通过MATLAB快速求解。2、模型二研究对酿酒葡萄的分级。采用了主成分分析法和模糊综合评价模型,利用降维的思想,把多指标转化为少数几个综合指标。兼以spss软件进行数据分析,能比较精确地找出了酿酒葡萄理化指标主要影响成分,进而对酿酒葡萄进行分级。3、模型三研究的是酿酒葡萄与葡萄酒的理化指标之间的联系。考虑了多个影响因素,通过拟合得到线性回归方程。模型三的建立是相当完善的。4、模型四研究对研究对现实生活更有意义。我们建立了更符合客观情况的logistic回归模型讨论酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证了模型的准确性,可靠性。6.2 模型的缺点1、数学模型的建立与求解得到的结果会与它在生活中的有些实际情况不相符合.除了我们为简化模型做出的假设对问题结果的影响外,模型的导入数据也可能与实际的情况出现一定的偏差,而导致不能很好的解决实际问题。2、我们的系统分析与评价模型,由于其选择的评价指标不同、各项指标的权重比例不同的影响,可能使我们的评价结果与实际的客观事实有所偏差。 3、为了模型的简洁性,我们忽略了一些次要的因素,因此存在一定误差。4、比较、判断过程较为粗糙,不能用于精度要求较高的决策问题。6.3模型的改进针对方案合理性的评价模型问题,我们建议在进行建立模型求解的过程中,多收集与评价目标有关的实际合理指标的资料,以及权重的合理比例。此外,我们还可以对评价结果进行验证,再来调整方案,这样更加符合实际问题。当软件发展到一定程度,模型二可以进一步改进,将所有指标考虑进去或者更精确地提取主要因子,对目标进行精确分类及评价。七、模型的推广与改进7.1模型的推广整个模型的建立、方案的确定、数据的分析过程,都有一定的难度.尤其是数据的分析,数据量较大,并且关联度强。对于酿酒葡萄与葡萄酒的理化指标之间的联系方面的问题的解决,我们也考虑了多方面的因素,同时也对一些变量做了定量的假设,与实际情况有些不同,通过改进,该模型的准确度就越高。因此,该模型适用于数据结构复杂且数据与数据之间有直接或间接联系的比较分析模型。问题二中所建的模型方法为主成分分析法,这个模型可推广到产业关联度、高校学科比较模型、股票研究,城市综合实力评价的一类问题中。问题四中的logistic回归模型模型可以应用到各个领域的判断预测中。八、参考文献1龚光鲁,概率论与数理统计,北京:清华大学出版社,100-150,2006.52黄应绘、苏继伟等主编,统计学实验,四川:西南财经大学出版社,10-13,2009.73蔡锁章. 数学建模原理与方法, 北京:海洋出版社,2000.64张杰,运筹学模型,沈阳:东北大学出版社,1-50,20055闫志朝Excel函数、图表与数据分析北京:机械工业出版社,55-70,20066边馥萍,侯文华,梁冯珍,数学模型方法与算法,北京:高等教育出版社,20057周誓达,线性代数与概率论,北京:中国人民大学出版社,70-81,2005.58汪国强,数学建模优秀案例选编,广州:华南理工大学出版社,21-232,19989程铁辕,李明春等,主成分分析法在浓香型白酒酒质评价中的应用研究,中国酿造,226:89-90,201110张丽芝,贺兰山东麓红葡萄酒等级划分客观标准的初步研究,中国食物与营养,18:29-32,2012九、附录附录1 MATLAB主成分分析源代码dataset=263.8621.611442.754680.266575268.7642.072182.617560.182597261.1961.597692.350370.182114248.7082.096092.852790.257724253.3651.694572.94920.189702268.4341.568192.781130.13252258.7412.146532.691110.136469244.1922.021562.226070.298066219.7381.612241.885990.166298244.7021.914772.259450.187569245.2862.124992.352820.161602251.961.837142.535190.240271251.1641.741672.629610.211887251.8242.001332.626650.211991257.682.148782.656860.203846stdr=std(dataset); %求个变量的标准差n,m=size(dataset); %定义矩阵行列数sddata=dataset./stdr(ones(n,1),:); %将原始数据采集标准化sddata %输出标准化数据p,princ,eigenvalue,t2=princomp(sddata);%调用前三个主成分系数p3=p(:,1:3); %提取前三个主成分得分系数,通过看行可以看出对应的原始数据的列,每个列在每个主成分的得分p3 %输出前三个主成分得分系数sc=princ(:,1:3); %提取前三个主成分得分值sc %输出前三个主成分得分值e=eigenvalue(1:3); %提取前三个特征根并转置M=e(ones(m,1),:).0.5; %输出前三个特征根并转置compmat=p3.*M; %利用特征根构造变换矩阵per=
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!