蛋白质质谱高通量分析平台

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,蛋白质质谱高通量分析平台,文献：,蛋白质质谱高通量分析平台的建立及其在消化道肿瘤中的应用性研究,作者：余捷凯学校：浙江大学发表时间,:2006-06-01,内容简介,一、血清蛋白质质谱标准化方法的建立,二、建立蛋白质质谱高通量数据分析平台,三、蛋白质质谱标准化分析平台的验证及其在,大肠癌中的应用,四、蛋白质质谱标准化方法分析平台在其他消,化道肿瘤中的应用研究,五、肿瘤特异性标志物鉴定,1.,简介,2.,数据预处理,去除噪音和基线，,局部极值法和信噪比过滤寻找峰，,峰的重复性比较，,不同样本中同一个峰聚类成簇，,强度均一化，,数据标准化,3.,候选肿瘤标志物的筛选,建立蛋白质质谱高通量数据分析平台,一,.,简介,简介,蛋白质组学质谱数据是做了必要处理的生物样本经过飞行时间质谱仪产生的。,质谱仪输出的数据是一系列质荷比及其对应的观测信号强度的数据对列表：,第一个值是质荷比，记做,m/z,；,第二个值是观测信号强度或谱丰度，记做,intensity.,每次测量可以产生几万至几百万个这样的数据对。将,m/z,作为横坐标，,intensity,作为纵坐标，整个数据对列表构成蛋白质组学谱图。,简介,传统的方法使用,3,个软件来完成数据分析：,Proteinchip,Software 3.2,：,calibration,和,normalization,；,Biomarker wizard 3.1,：信噪比过滤和寻找蛋白质峰；,Biomarker Patterns Software 5.0,：筛选候选肿瘤标志物并建立决策树模型。,简介,缺点：过程复杂，耗时耗力，效果不理想，,设备昂贵,二,.,数据预处理,应用小波变换降低噪音：,离散小波变换,(DWT),线性平移不变离散小波变换,(UDWT),1.,去除噪音和基线,分别对它们去除噪音的效果做了比较。,并比较了,UDWT,的硬阈值和软阈值，以及阈值的具体取值。,基线采用局部最小,(,中值,),线性拟和的方法来去除。,1.,去除噪音和基线,1.,去除噪音和基线,去除噪音和基线的效果如图：,蓝线为处理前红线为处理后,1.,去除噪音和基线,去除噪音和基线后的质谱数据用局部极值法结合信噪比过滤可以很好的寻找蛋白质峰。如下图所示：,a,为原始图谱，,b,为局部极值法扫描图，,c,为信噪比,5,，,d,为信噪比为,3,2.,局部极值法和信噪比过滤寻找峰,结果显示，这部分数据用信噪比为,3,（图,d,），可以得到较好的蛋白质质峰。,2.,局部极值法和信噪比过滤寻找峰,以此方法找到的峰总共为在,80%,以上的样本中均出现的为,64,个；而传统方法在,80%,以上的样本中均出现的样本数仅为,17,个。重复性总体上提高了,60%,3.,找到的峰的重复性比较,这里以,0.3%,为分子量的偏差范围来聚类，即在平均分子量前后,0.3%,的峰都认为是同一个。并将那些只在,10%,以下的样本中出现的峰进一步过滤掉，因为它们可能是个别实验的误差引起的。,4.,不同样本中同一个峰聚类成簇,传统方法都是用,Proteinchip,Software 3.2,软件的,total ion normalize,来实现样本间的均一化，但是用总离子强度的均一化会将噪音也作为其均一化的一部分，直接导致蛋白峰均一化的减弱。本研究改进了方法，只对以上步骤找到的峰簇进行均一化，消除了噪音对强度均一化的影响。,5.,强度均一化,将原始数据标准化到,-1,1,的范围内，这将使接下来的模型分析的准确率有所提高。,Pn,=2*(p-minp)/(maxp-minp)-1,Pn,为标准化后的数据，,p,是标准化前的数据，,minp,为标准化前数据中的最小值，,maxp,为标准化前数据中的最大值。,6.,数据标准化,三,.,候选肿瘤标志物的筛选,特征提取的必要性：,第一,.,大部分蛋白质峰（特征）对肿瘤与正常组织之间的分类问题不提供有用信息,第二,.,这些无用特征将会给系统引入干扰,第三,.,特征提取有助于克服模型的过适应现象,第四,.,客观上在临床需要用最少的标志物达到最佳差别效果,特征提取的策略主要分为模型依赖型方法和过滤方法。本研究采用了过滤法和模型依赖法相结合的策略。,过滤的过程采用秩和检验，将,P,值小于,0.05,的作为没有差异表达的蛋白质峰直接过滤掉。,统计过滤后留下的特征向量进一步用模型依赖法筛选。这里采用的是遗传算法结合模式识别的方法，这是一种全局最优化策略。,遗传算法基本要素：参数编码为染色体（这里把蛋白质峰是否被选中作为染色体结构特征）；初始群体的设定；,适应度函数（这里采用模式识别的预测效果）；选择、杂交和变异策略；控制参数（终止条件等）。,分别将蛋白质峰编码为染色体，每个染色体的每个等位基因都由,0,或,1,组成，对应的蛋白质峰即为没有选中和选中。遗传算法的适应度函数为平均正确率，设置种群大小为,100,（即每代中有,100,个个体），变异率为,0.1,（较高的变异率，为了得到更多样性的个体），交叉率,0.8.,以甲状腺癌和甲状腺结节的区分为例，通过秩和检验过滤法，得到蛋白质峰共,14,个。,将染色体的不同编码作为遗传算法的不同个体，通过选择、杂交和变异等遗传方法产生下一代，最后筛选出适应度最好（具有最好的预测效果）的群体和个体。,遗传算法结合模式识别的筛选方法包括了建立模型的模式识别系统。遗传算法的适应度函数为,10,倍交叉验证支持向量机（,SVM,）、神经网络模型（,ANN,）和判别分析（,DA,）中的一种。,遗传算法结合支持向量机、判别分析和人工神经网络模型的比较：,从以上的图表中可以看到人工神经网络的个体重复性很差，而且计算很耗时，而遗传算法结合判别分析预测的准确率也不如支持向量机，因此本研究将遗传算法结合支持向量机模型作为最终模型。,本研究自主开发蛋白质质谱高通量数据分析平台。通过与传统方法的比较，本平台在噪音去除、强度均一化和峰的重复性等数据预测上好于传统软件与方法，而且首次将遗传算法结合模型识别的方法应用于肿瘤标志物的筛选，提高了判别的准确性。,总结,谢谢！,

展开阅读全文

蛋白质质谱高通量分析平台

最新文档