资源描述
单击此处编辑标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,HACCP在蜂产品原料控制中的应用用2种聚类法对蜂产品原料氯霉素检测的关键限值的科学确认,四川检验检疫局食检处,2002年初,因氯霉素(CAP)残留超标我国蜂产品全线退出欧盟市场,并在多国发生连锁反应,2004年7月欧盟才解除对我国包括蜂产品在内的动物源性食品的禁令。,目前中国蜜蜂养殖业的兽药残留监控体系仍处于逐步规范之中,加上蜜源种类多、分布广、放蜂环境复杂和养蜂员素质差异大等特点,蜂产品的质量风险时时存在。,要符合欧盟、美国、日本等国的兽药残留要求,使产品顺利出口,需要将危害分析与关键控制点(Hazard Analysis Critical Control Point,HACCP)理论与蜂产品生产的实践紧密结合。,HACCP是一种确保食品安全的系统方法,是一种识别、预防、控制或减少食品安全危害的有效手段。,关键控制点(CCP)是能进行有效控制危害的加工点、步骤或程序。判定关键控制点就是针对已辨明的危害,在本步骤或随后的步骤中有相应的预防措施,而且能在此步将显著危害发生的可能性消除或降低到可接受水平。,加工步骤,确定本步引入、控制或增加的危害,潜在的食品安全危害显著吗?,应用什么预防措施来防止危害?,本步骤是关键控制点吗?,原料验收,兽药残留(以氯霉素为例),显著,加强原料验收检验,是,CAP是蜂产品中的禁用药,此兽药残留是与原料自身有关的危害,为化学危害,控制CAP在原料的检测和验收中尤为重要。我们用下表对这一步骤进行分析。,对蜂产品原料验收环节的危害分析表,关键限值是指区分食品安全可接受与不可接受之间的界限。,关键限值的选择必须有科学性和可操作性。,如果过严,造成即使没有发生影响到食品安全危害而就要求去采取纠正措施;,如果过松,又会产生不安全的产品。,一个好的关键限值应该直观、易于监测、仅基于食品安全、能使只出现少量被销毁或处理的产品就可采取纠正措施、不是GMP或SSOP措施以及不能违背法规。,我们拟用两种聚类法为关键控制点建立关键限值,这对蜂产品出口的生产加工企业有相当的参考价值和实际意义。,在各国氯霉素检测水平中欧盟最严,欧盟规定进口蜂产品中的CAP残留不得超过0.3ppb,其推荐方法是气质联用法(GC-MS)和液相串联质谱法(LC-MS/MS),它们具有灵敏度高、选择性好、可靠度高的特点,是动物源性食品中氯霉素残留检测的最佳方法。,但是高昂的仪器费使该法在现阶段难以推广应用于原料蜜的收购和筛检,企业只能采用ELISA法对原料进行检测。受背景干扰的影响,有些本来不含CAP的产品在ELISA法中也会出现数值,不少实际合格的蜂产品被判为不合格,造成加工企业和蜂农的经济损失。,所以本文要研究的问题就是寻找一个合适的用ELISA法检测的关键限值作为原料检测的判定标准,使在此数值下的蜂产品用LC-MS/MS法(检测限为0.3ppb)检测的结果都合格,从而提高蜂产品的出口合格率。,在研究方法上,根据88组国内蜂产品生产商ELISA法检验结果与相应的秦皇岛蜂产品实验室LC-MS/MS法检验结果的数据样本,我们首先用层次聚类方法对0.3ppb的标准进行分析,然后用较先进的基于相似合成算法的聚类方法对国内蜂产品生产商检验氯霉素含量的标准做进一步分析,最后结合两种方法得出蜂产品生产商用ELISA法检验氯霉素含量的判定标准(即原料检测氯霉素这个CCP点的关键限值)。,1 数据样本说明,本文的研究目标是88个数据样本,每个数据样本包含国内蜂产品生产商检验结果(,X,1,)、秦皇岛实验室检验结果(,X,2,)2项指标。,其中,国内蜂产品生产商检验结果是样本中氯霉素的具体含量,秦皇岛实验室检验对于低于其检验标准的样本不显示具体检验数值,对于高于其检验标准的才给出具体检验数值。,表1 目标样本数据一览表,样本,编号,氯霉素含量,样本,编号,氯霉素含量,样本,编号,氯霉素含量,X,1,X,2,X,1,X,2,X,1,X,2,17,0.6809,0.264,48,0.163,0.108,73,0.1568,0.101,18,0.651,0.272,49,0.2241,0.101,74,0.2223,0.107,19,0.5356,0.235,66,0.2134,0.103,75,0.2553,0.101,24,0.1247,0.15,72,0.1544,0.108,为叙述方便,以下简称国内蜂产品生产商检验结果合格、秦皇岛实验室检验结果不合格的样本为目标样本。具体的,目标样本数据见表1。,2,层次聚类法对检验标准的分析,用层次聚类法(hierarchical clustering)对检验标准分析的思路是:将可能的检验标准加入88组实际数据样本中,用层次聚类方法对样本聚类,当某一加入的检验标准与最多的目标样本聚在一类时,该检验标准最接近合理的检验标准。,我们选定的可能的检验标准分别是0.05、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7。为了使研究更加合理,我们分别将102组数据样本分成2、3、4、5类,对不同聚类结果进行比较(见表2),并用能实现层次聚类分析的SPSS11.0软件分析结果。,表,2,对样本聚类,目标样本,/,检验标准,聚类数,目标样本,/,检验标准,聚类数,目标样本,/,检验标准,聚类数,5,4,3,2,5,4,3,2,5,4,3,2,17,3,2,2,2,74,2,1,1,1,0.35,5,4,3,2,18,3,2,2,2,75,2,1,1,1,0.4,5,4,3,2,19,4,3,3,2,0.05,1,1,1,1,0.45,4,3,3,2,24,1,1,1,1,0.1,1,1,1,1,0.5,4,3,3,2,48,2,1,1,1,0.15,2,1,1,1,0.55,4,3,3,2,49,2,1,1,1,0.2,2,1,1,1,0.6,4,3,3,2,66,2,1,1,1,0.25,2,1,1,1,0.65,3,2,2,2,72,2,1,1,1,0.3,5,4,3,2,0.7,3,2,2,2,73,2,1,1,1,从表1可知,样本17、18、19的工厂检验值较高,明显超过0.3,而其余样本的工厂检验值较小。,因此,聚类时所有的目标样本不可能聚在一类,对样本17、18、19聚类分析的参考价值不如其它样本。,从表2可知,当将样本分成2、3、4类时,除去样本17、18、19外的目标样本都被分在第一类;当将样本分成5类时,它们主要在第二类。,再看对可能的检验标准0.050.7的分类:当将样本分成2、3、4类时,0.050.25的数据样本都在第一类,当将样本分成5类时,它们主要集中在第二类。,与可能的检验标准0.30.7相应的样本的聚类结果与目标样本的聚类结果差别明显。这说明,合理的检验结果应该在0.250.3之间。,3,基于相似合成算法的聚类方法对检验标准的分析,以上层次聚类在方法上存在不完善的地方,这可能会影响到分析结果。其不足包括:,类别个数的确定主观性强。如上面的分析中,到底将数据样本分成几类才能最恰当地反映它们之间的相似程度未知,只能通过建模者的主观判断进行试错分析。,层次聚类方法将所有数据样本作为学习集,从中寻找数据样本反映的规律。但是数据样本中包含的信息除了反映共性规律外,还有反映个性特征的信息。将所有数据样本作为学习集得到的聚类结果可能可以很精确地反映学习集的情况,但是对于新加入的、具有同一规律性的数据样本就可能不适用,即聚类结果不具有良好推广能力,出现“过拟合”。如果这样,那么基于层次聚类的分析结果的可信度就值得怀疑。,基于相似合成算法的聚类方法可以解决以上2个问题。,3.1,基于相似合成算法的聚类方法简介,由Lorence提出的相似体合成算法(Analog Complexing,以下简称AC),1,是对模糊对象的预测、聚类和分类的一种序列模式识别方法,最先提出AC算法是为了解决对模糊经济对象的预测问题。应用AC算法进行预测时,一般需要待研究的过程满足以下假设:,(1)系统由多维过程所描述;,(2)多维过程的观察值很多(长期序列);,(3)多维过程是充分有代表性的,即由基本的系统变量形成数据集;,(4)过程的行为一般将在一段时间内相似地重复。,AC包含3个步骤,2,:1)待选模式的产生;2)待选模式的变换;3)相似模式的选取。,3.1.1 待选模式的产生,3.1.2 待选模式的变换,根据工作原理,对于长度为,k,的某参照模式,在数据样本中可能有一个或几个长度为,k,的相似模式。但是由于系统是动态的,不同时期的相似模式可能具有不同的平均值和标准方差。因此,需要用一种变换来描述这些差异,将模式变换到同一基准点上从而使各模式具有可比性。即为了下面将进行的模式间相似性的度量,必须寻找待选模式到参照模式的变换。一般取线性变换为:,3.1.3 相似模式的选取,模式相似度,这一步的主要目的是识别模式形状间的相似性,其度量我们称为模式相似度。一般地,第,i,个待选模式与参照模式间的距离可定义为:,模式间的相似度可由距离来度量,如定义第,i,个模式与参照模式的相似度,s,i,为:,显然距离值越大,模式相似度就越小。,相似模式的选取,模式相似度计算出来以后,我们就可以根据相似度大小来选取相似模式。,将AC算法与数据分组处理(Group Method of Data Handling,简称GMDH)方法结合,形成了基于AC算法的聚类方法。这种聚类方法的特点在于,根据模式(数据样本)之间的相似度,按照自组织数据挖掘的思想,客观、自动的产生唯一的聚类结果。为说明这种方法的工作原理,简要介绍GMDH的实现原理。,GMDH是自组织数据挖掘(Self-Organizing Data Mining),3,方法的核心算法,它从参考函数构成的初始模型(函数)集合出发,按一定的法则产生新的中间候选模型(遗传、变异),再经过外准则筛选(选择),重复这样一个遗传、变异、选择和进化的过程,使中间待选模型的复杂度(complexity)不断增加,直至得到最优复杂度模型。,GMDH使用在建立中间模型过程中未用到的数据(测试集上的数据)新鲜信息(fresh information)计算外准则值来评价、选择中间待选模型。,GMDH要求,将样本集,W,分为训练集,A,、测试集,B,W,=,A,B,。,在训练集,A,上的误差体现了模型模拟真实系统的能力,在测试集,B,(也是已知数据,但在建模时没有用到)上的偏差既是模型对真实系统模拟能力在新水平上的确认,更是对模型推广能力的评价。,这样,一方面由于模型在新数据集上的拟合能力的不断确认,其推广能力将加强,这样选出的最终模型不会过拟合,体现了在一定噪声水平下模型拟合精度与推广能力之间的最优平衡,4,。另一方面,由于用新信息评价筛选模型,可以客观地确定模型。,最后,GMDH算法的停止法则由最优复杂度原理给出:当模型的复杂度逐渐增加时,模型的外准则值有一个先减小再增大的过程,外准则的最小值对应了最优复杂度模型;如果在一个筛选阶段不能再改善外准则值,最优复杂度模型找到了,算法过程就结束。最优复杂度原理保证了最终模型的唯一性。,将AC与GMDH结合,可以实现基于AC算法的聚类方法,其工作原理如图1所示。,图1,2,客观聚类分析示意图,1.,数据样本,,2,、,3.,数据划分为,A,、,B2,部分,,4,、,5.,分别在,A,、,B,上产生的层次聚类树,计算聚类平衡准则,BL=(k-,k)/k,min,,其中,k,表示类的个数,,k,表示相同类的个数,3.2,用基于,AC,的聚类方法对检验标准的分析结果,将变量,X,2,按照Lamdam隶属度函数模糊化为(N-,X,2,ZO-,X,2,P-,X,2,),其中N(negative)表示低于平均水平,ZO(zero)表示在平均水平附近,P(positive)表示高于平均水平。然后以,X,1,和N-,X,2,ZO-,X,2,P-,X,2,为
展开阅读全文