从质谱数据鉴定多肽蛋白质

资源描述

单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第四讲从质谱数据鉴定多肽,/,蛋白质,中科院自动化所李伏欣,开场白,在之前的讲座中，我们已经学到了关于蛋白质组学中的重要工具,质谱仪的知识。,蛋白质组学里，质谱仪的作用是鉴定混合物中的蛋白质。然而，没有数据分析的辅助，它是做不到这一点的。,讲座大纲,本讲座中，将分别讲述两种鉴定蛋白质的方法。其一是,质量纹,鉴定法（,Peptide Mass Fingerprinting,），,另外一种是二级质谱的,数据库搜索,鉴定法（,MS/MS Database Searching,）。,我们将简略的介绍质量纹鉴定法。而用更多的时间讨论用于二级质谱上的方法。,多肽质量纹鉴定,多肽质量纹（,Peptide Mass Fingerprinting,，,PMF,）,是从一级质谱（,MS,）,中鉴定多肽的主要方法。,多肽质量纹一般都是,在,MALDI-TOF,仪器的结果上进行。,其原理就是利用了蛋白序列数据库中的多肽质量的信息。,我们下面的讨论，先假设一张质谱图对应一个蛋白。后面会讨论处理多个蛋白的情况。,一级质谱图,蛋白质经过酶解后，送入质谱仪，得到一级质谱。,目前来说，由,MALDI-TOF,质谱仪产生的质谱图精度较高，而由,ESI,质谱仪产生的质谱图精度相对较低。,另一个问题是，,ESI,产生的质谱图中的离子通常带有很多电荷，而,MALDI,质谱图中的离子一般只带一个电荷，比较容易计算。,所以从一级质谱鉴定蛋白质的算法（质量纹）主要用在,MALDI-TOF,产生的质谱图上。,Sample MS Spectrum,蛋白序列数据库,在,美国国家生物信息中心的网站,http:/,ncbi.nlm.nih.gov,上可以查询到最新的蛋白序列数据库。,NCBI,上的数据库中，信息最丰富的是,Genpept,格式，包括有蛋白的序列，各种性质，甚至于参考文献。,但是对我们来说，我们只需要蛋白序列的信息就够了。,Genpept,示例,Genpept,示例,FASTA,格式,FASTA,格式就是蛋白的氨基酸序列。,虚拟酶解,对应于送进质谱仪的样品，我们可以对数据库里的序列作一次虚拟的酶解。,质量排列,虚拟酶解的结果，产生了一系列的多肽，我们可以计算每个多肽的质量。,最后一个,R,的质量多加了,18,，这是因为我们写在下面的是残基的分子量。,质量排列的,把所有多肽的质量排序。,质量纹,如此，质谱图上的质量就可以与多肽上的质量相匹配。,质量纹,这就是多肽质量纹（,PMF,）,的最基础的思路。,但是，真正的将之作为一个鉴定蛋白质的方法，还有很多需要考虑的问题。,在讨论这些问题之前，我们先看一看目前常用的质量纹算法。,常用的质量纹算法,现在试验中可用的算法有：,Mascot:,Profound:,http:/prowl.rockefeller.edu/cgi-bin/Profound,Expasy,tools:,http:/www.expasy.ch/tools/,PeptideSearch,:,http:/mac-mann6.embl-heidelberg.de,PMF,中的问题,第一个问题：质量相近的多肽怎么处理？,在现实的蛋白数据库中，多肽的数量是很庞大的。这里面难保不会有质量非常相近的多肽。这样，就造成了质谱图上的一个峰可能匹配不止一个多肽，于是我们就难以知晓这张质谱图究竟代表哪个蛋白。,质量相近的多肽,多肽,M+H+,DGAPLESSSR,1019.0490,REGESTPSR,1019.0520,DFPIANGER,1019.0940,DPLASSSWR,1019.0940,YVPLKDQR,1019.1800,HLQLPAPSR,1019.1830,VLFLNGIDK,1019.2200,Peak,m/z,: 1019.08,解决方案,第一个解决的办法是限制用来搜索的数据库。比如，你如果做的试验用的是小白鼠的组织，那么你可以只在鼠类的数据库中搜索，这样就可以减低出现这种情况的可能性。,第二个解决的办法是要求必须有多个多肽和数据库相匹配，才做出最后的蛋白质鉴定。,多匹配,DFPIANGER 1019.09,EPISVSSQQMLK 1347.56,VLDALDSIK 974.13,Carbonic,anhydrase,II,SHHWGYGKHBGPZHWHK,DFPIANGER,QSPVNIDTKAVVQDPALKPLALVYGEATSRRMVN,NGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHFHWGSSBBQGSEHTVDRKKYAAELHLV,HWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANPALQK,VLDALDSIK,TKGKSTDFPNFDPG,SLLPNVLDYWTYPGSLTTPPLLESVTWIVLK,EPISVSSQQMLK,FRTLNFNAEGEPELLML,ANWRPAQPLKNRQVRGFPK,多匹配可以大大降低随机匹配的概率,从而增加结果的可信度,长蛋白和短蛋白,第二个问题：长蛋白可能会更容易的被匹配。,因为长蛋白里的多肽数目较多，即以概率来算，匹配上的几率也会比较大。,质量纹算法必须考虑这个问题，给短蛋白一定的补偿。,多个蛋白的情况,第三个问题就是在一张质谱图中可能有多个蛋白存在。,通常，,MALDI-TOF,是与双向电泳连接使用。双向电泳的一个电泳点上可能有,2-3,个蛋白，这样就增加了鉴定的难度。,由于无法预知一个电泳点上有多少蛋白质，,PMF,的效果可能会受到很大的影响。,多肽质量纹：小结,质量纹算法是用一级质谱鉴定蛋白质的经典方法。,质量纹算法比较简单，一般使用较简单的统计模型，速度一般较快。,质量纹算法的效果受到很多方面的限制，首先是仪器精度的限制，其次是样品中可能有多个蛋白的限制。这使得质量纹算法不是理想的分析复杂混合物中蛋白成分的方法。,返回,利用二级质谱图,我们刚才谈到了，多肽质量纹有其先天的不足。其中，最糟糕的是它不能处理多个蛋白的混合物。,如果我们能够处理混合物，就可以减少很多用于纯化上的时间和精力。,那么，怎么才能从混合物中鉴定蛋白呢？这就要用到二级质谱。,二级质谱图,在一级质谱图中，选择其中的一个峰，对其进行,CID,过程，就得到一张二级质谱图。,这里的假设是一级质谱中的一个峰就对应了一个多肽，实际情况可能并不是这样。,先看一张二级质谱图，然后我们来解释,CID,过程。,典型二级质谱图,CID,CID,，即,Collision-induced Dissociation,，,是通过撞击使得多肽的肽键断裂的过程。,在做二级质谱的试验时，质谱仪选择一级质谱中的一个峰，也就是对应质荷比的这些离子，让这些离子高速撞击质谱仪中的惰性气体，使其肽键断裂，这就是,CID,。,肽键及其断裂,一些常见的特殊情况,除了普通的肽键断裂以外，还经常有一些特殊的情况。,Neutral loss:,某些酸性氨基酸可能会在,CID,中丢失一个水分子（,H,2,O,），,而碱性氨基酸会在,CID,中丢失一个氨分子（,NH,3,）。,翻译后修饰：有时，二级质谱中需要考虑某些氨基酸可能被修饰（磷酸化、糖基化等），这些修饰可能改变残基的分子量。,肽键断裂的说明,CID,中，肽键的断裂方式有非常多的可能性。关于具体的断裂方式，可以去查询生物化学方面的书籍。这些问题超过了本课程的范围。,通常，我们只考虑,b,系列和,y,系列。原因是我们使用的电压较低，其他系列的离子不易产生。,但实际上，如果能够清楚的知道我们究竟需要考虑什么样的断裂方式，对搜索算法的设计会有很大的帮助。,通过残基鉴定多肽,De-novo Sequencing,这种通过残基来鉴定多肽的方法被称为,De-novo Sequencing,。,当我们拥有近乎完美的二级质谱图时，我们可以采用这种,De-novo Sequencing,的办法。,但是，实际情况中，我们并没有完美的二级质谱图，而一点点的不完美，带来的误差是惊人的。,氨基酸质量表,Molecular weights used for calculations.,Buttoncode,Shortcode,Name,Average massof residue,Monoisotopic,mass of residue,Twenty Naturally-Occurring Amino Acids,Ala,A,Alanine,71.0788,71.03711,Cys,C,Cysteine,103.1448,103.00919,Asp,D,Aspartic Acid,115.0886,115.02694,Glu,E,Glutamic,Acid,129.1155,129.04259,Phe,F,Phenylalanine,147.1766,147.06841,Gly,G,Glycine,57.0520,57.02146,His,H,Histidine,137.1412,137.05891,Ile,I,Isoleucine,113.1595,113.08406,Lys,K,Lysine,128.1742,128.09496,Leu,L,Leucine,113.1595,113.08406,Met,M,Methionine,131.1986,131.04049,Asn,N,Asparagine,114.1039,114.04293,Pro,P,Proline,97.1167,97.05276,Gln,Q,Glutamine,128.1308,128.05858,Arg,R,Arginine,156.1876,156.10111,Ser,S,Serine,87.0782,87.03203,Thr,T,Threonine,101.1051,101.04768,Val,V,Valine,99.1326,99.06841,Trp,W,Tryptophan,186.2133,186.07931,Tyr,Y,Tyrosine,163.1760,163.06333,组合数,(,估计值）,峰间质量距离,(,Da,),最低组合数,最高组合数,平均值,50 - 100,0,1,0.089,100 - 200,0,14,1.556,200 - 300,1,136,24.871,300 - 400,37,1687,386.23,400 - 500,586,23481,5958.36,500 - 600,14093,340380,92016.7,600 - 700,248521,4873260,1418510,Database Searching,对于一张不完美的质谱图，有这么多的组合可以生成之。但是，幸运的是，我们还有这个蛋白序列,数据库,。,虽然组合有那么多，但是在这个数据库的限制之下，组合数就大大的减少了。,所以我们可以从数据库里搜索最好的匹配质谱图的多肽，这样就有了二级质谱的数据库搜索算法。,数据库搜索的基础,数据库搜索的基础很简单，就是理论质谱图和试验质谱图之间的一个比对。,我们刚才讨论了,CID,的过程，所以我们知道了残基产生的规律，那么，利用这些规律，我们可以对每个多肽产生一张理论的质谱图，用来和试验质谱图进行比对，对它们“相似”的程度做一个评分，分数最高的多肽，我们就认为它是试验质谱图代表的多肽。,理论质谱图和试验质谱图,数据库搜索的流程,在一个蛋白序列数据库中，可以找出来的，落在质谱仪质量范围以内的多肽多达数百至数千万，如果每个多肽都拿来和试验质谱图做比对的话，需要花费的时间是难以接受的。,提高搜索速度的关键就是减少搜索的对象数。,数据库搜索的流程,所以，基本上，所有的数据库搜索算法都包括两个步骤。,第一个步骤是筛选数据库里的多肽，找出所有有可能与质谱图匹配的多肽。,第二个步骤就是拿这些选出来的多肽去和质谱图进行比对，并输出最高分值的多肽作为一个,PSM,（,Peptide-Spectrum Match,）。,常用的搜索算法,常用的二级质谱的数据库搜索算法包括：,Sequest,Mascot:,Sonar,GutenTag, OLAV,ProbID, ,Sequest,我们用,Sequest,作为一个例子来讲解数据库搜索算法的一般流程。,Sequest,是由,Eng, Yates,等人在,1994,年提出的经典算法。虽然目前已经显得有些过时，但是在很多实验室中仍然是最为常用的算法。,第一步：数据库初筛,首先的工作是要从数据库中找出分子量和质谱图母离子分子量相当的多肽。,算法首先把数据库里的多肽做一次虚拟的酶切。对酶切得到的每一个多肽，计算其分子量。,找到所有分子量与质谱图母离子接近的多肽后，准备进行匹配。,第二步：质谱图预处理,对质谱图做一些预处理，可以提高算法的速度，有时还可以增加鉴定的正确率。,Sequest,的预处理包括：,把质谱图的横坐标进行取整。,质谱图的纵坐标做归一化。,去除母离子正负,10,区域的离子。,去除低丰度离子，只保留,200,个丰度最高的离子。,第三步：,Preliminary Scoring,由于精细的比较理论质谱图和试验质谱图很耗时间。,Sequest,使用了一种两步打分的方法。第一步的分数给的较粗，计算起来也比较快，可以用来先去掉那些不太可能得到,PSM,的多肽。第二步的分数则比较精细，用来最后确认哪个多肽成为最后,的,PSM,。,第三,步：,Preliminary Scoring,Sequest,中，第一步的分数叫做,Sp,，,它的公式如下：,这里的,是,一个连续性的补偿因子，,是,immonium,ions,的补偿因子。,Sp,排名前,500,位的多肽进入最后一步的互相关分析。,第四步：互相关分析,Sequest,最主要的分数,XCorr,，,就是从这一步得到的。,首先要产生一,张,理论质谱图,。,Sequest,的理论质谱图是在,b,系列和,y,系列的位置有丰度为,50,的峰，在,b,系列和,y,系列正负,1,的位置有丰度为,25,的峰。而在,b-H,2,O, y-H,2,O, b-NH,3, y-NH,3,的位置有丰度为,10,的峰。,第四步：互相关分析,相关分析是统计中分析两个信号相似性的重要手段。一般的连续信号的互相关函数公式如下：,在,Sequest,中，我们要处理的是离散的问题，所以，把积分号变成求和号。,第四步：互相关分析,但是，单单把试验质谱图和理论质谱图做互相关是不够的。考虑下面的这种情况：,归一化处理,因此，在做相关分析之前，,Sequest,把试验质谱图划分为,10,个区间，把每个区间上的最高峰的丰度归一化为,50,。,这种归一化处理虽然是必要的，但是客观上，它造成了很多错误的,PSM,，,因为很低的峰和很高的峰可以在相关分析中占据同等的地位。,Sequest,：,小结,Sequest,分四个步骤：,1,。数据库初筛,2,。质谱图预处理,3,。,Preliminary Scoring,4,。,互相关分析,从,Sequest,中，我们可以学习到数据库搜索算法的一般流程，其中的关键就是打分算法和计算速度,。,一些其它的技术,去同位：一个离子的同位素会在质谱图上显示出不同的峰，峰间的距离为,1,，去同位就是把这些峰合并为一个峰。,去同位的效果,后筛选,在以前的蛋白质组学的书籍中，大都没有提及过后筛选，似乎打出了一个分数，产生了一大堆的,PSM,，就万事大吉了。,可是，在真实的试验中，一次试验往往会产生成千上万张质谱图，其中，大部分都属于无法鉴定的。而所有的打分算法，目标都只是“最好”的匹配质谱图的多肽，并不关心这个最好究竟好到什么程度。,质量很差的质谱图,再来一张,再来一张,后筛选,在某些质谱仪中，产生的质谱图能有十分之一可以鉴定，就已经很不容易了。,这样的话，我们就看到光是得到,PSM,是不够的，还要对这些,PSM,进行一次筛选，看看究竟哪些是,”真”的,PSM,，,哪些只是矬子里拔将军。,Sequest,的后筛选：传统方法,2000,年和,2001,年时，有些研究组用,Sequest,对酵母蛋白进行了全蛋白组的分析。他们使用的后筛选是,XCorr,阈值,+,人工视谱。,XCorr,本身就存在着缺陷，又是一个针对于产生,PSM,的分数，并不完全适合作为后筛选的阈值。,人工视谱过于耗时，也难以与高通量的蛋白组学方法并用。,Sequest,的后筛选：近两年的进展,近两年来，有数个研究组进行了后筛选的研究，形成了,QScore,PeptideProphet,等算法。,机器学习里的,SVM,和神经网络学习算法也被用于后筛选的研究。,但目前还没有一个试验来检验这些方法到底哪个最为有效。,后筛选：小结,后筛选是目前蛋白质鉴别中的一个必要环节。,传统的后筛选方法基于简单的阈值和人工视谱，难以适应高通量蛋白质组学的研究，已经濒于被淘汰。,新的后筛选方法基于统计模型和机器学习，但其有效性仍需进一步证明。,数据库搜索：小结,数据库搜索算法的目标是在数据库中寻找与二级质谱图最好匹配的多肽。,我们讲解了二级质谱的形成过程，但是实际的二级质谱并不是那么完美的。,作为一个搜索算法的例子，从,Sequest,中可以知道搜索算法通常的步骤。,后筛选是鉴定多肽过程中非常重要的一步，但目前的研究并不完善。,本讲座小结,本讲座中，我们介绍了用于鉴定一级质谱的多肽质量纹（,PMF,）,和用于鉴定二级质谱的数据库搜索算法。,鉴定一级质谱时，可用的信息较少，所以算法比较简单而完善，但其作用有限。,鉴定二级质谱比较复杂，涉及的步骤也较多，目前的方法仍未臻完善。,鉴定质谱图是很重要的工作。可以说，没有一个好的鉴定算法，蛋白质组学就难以像基因组那样快速的发展。,蛋白质鉴定的图示,质谱图,De-novo Sequencing,序列数据库,一级质谱,二级质谱,质量纹,数据库检索,后筛选,蛋白质,未知多肽,PSMs,思考题,你认为质谱图鉴定中的后筛选步骤是否有必要作为一个独立的步骤？为什么？,谢谢大家！,

展开阅读全文

从质谱数据鉴定多肽蛋白质

最新文档