蛋白质序列分析ppt课件

上传人:钟*** 文档编号:5907319 上传时间:2020-02-11 格式:PPT 页数:63 大小:5.89MB
返回 下载 相关 举报
蛋白质序列分析ppt课件_第1页
第1页 / 共63页
蛋白质序列分析ppt课件_第2页
第2页 / 共63页
蛋白质序列分析ppt课件_第3页
第3页 / 共63页
点击查看更多>>
资源描述
生物信息学bioinformatics 蛋白质序列分析Analysisofproteinsequence 生物工程教研室 1 通过预测蛋白质的结构 功能特征分析 可为我们的研究提供指导信息 2 8 1温故而知新 Single three letteraminoacidcodesGGlycineGlyPProlineProAAlanineAlaVValineValLLeucineLeuIIsoleucineIleMMethionineMetCCysteineCysFPhenylalaninePheYTyrosineTyrWTryptophanTrpHHistidineHisKLysineLysRArginineArgQGlutamineGlnNAsparagineAsnEGlutamicAcidGluDAsparticAcidAspSSerineSerTThreonineThrAdditionalcodesBAsn AspZGln GluXAnyaminoacid 蛋白质的组成 3 4 PrimarystructurethelinearsequenceofaminoacidsinaproteinSecondarystructureregionsoflocalregularityi e a helices b strands sheets turns 蛋白质的结构层次 5 Tertiarystructuretheoverallchainfoldthatresultsfrompackingofsecondarystructureelements Super secondarystructurethepackingofsecondarystructureelementsintostableunitse g b barrels babunits Greekkeys etc 6 Quaternarystructurethearrangementofseparatechainswithinaproteinthathasmorethanonesubunite g haemoglobin 7 多肽链在二级结构或超二级结构的基础上形成的三级结构局部折叠区是相对独立的紧密球状实体 被称作结构域 domain 结构域 domain 8 在蛋白质中有些区域对于维持蛋白质的结构和功能具有至关重要的作用 进化过程中变化的非常缓慢 这样的区域称作蛋白质核心区域 coreregion 核心区域 coreregion 结构与功能 9 蛋白质结构重要位点 一些氨基酸残基对于某些结构的稳定具有关键的作用 这样的关键角色在蛋白质中显得尤为重要 10 8 2蛋白质序列的同源分析 同源蛋白 生物大分子序列是分子进化的产物 从共同祖先序列进化而来的蛋白质通常称为同源蛋白蛋白质同源分析 基于检测的同源蛋白从而外推得到某特定蛋白的某些特性的方法称为蛋白质的同源分析常有的软件有 BLAST等PSI BLAST和隐马尔可夫模型 HMMs PSI BLAST 迭代搜索 把查找到的每一击中项作为第二次迭代的查询序列得到更多的进化关系 第二次及以后的迭代不是对第一次输出的每一序列执行BLAST 而是所有击中项形成的序列轮廓 家族保守序列 进行BLAST搜索 查到收敛为止 11 蛋白质同源分析进行蛋白质功能或结构的预测仍然存在困难 相似与同源的问题 直系与旁系同源 计算机程序自动生成的功能注释不少是错误的 有的序列会彼此相似 却不是进化关系或生物功能相近的缘故 12 8 3蛋白质序列的结构域及结合位点分析 蛋白质的进化过程并不都是从头开始 而是利用现有材料 通过改造 使其产生新的功能 或者是把几种不同的系统整合到一起 形成更好的新系统 而这些现有材料 就是蛋白质序列中的 模块 他们对应蛋白质分子中重要的结构或功能区域 这些区域在蛋白质家族中通常是保守的 13 蛋白质序列的二级数据库 同一蛋白家族的多序列联配可以用来推断结构 功能和家族关键氨基酸残基的重要信息 因此 将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了 存储这些信息的数据库称为蛋白质二级数据库 通过对二级数据库中序列的比对搜索 可以把一条新的蛋白质序列分配到蛋白质家族中 从而预测蛋白质功能 保守残基出现的原因是 维持某种功能或特定结构 14 多序列联配信息的表示方法有很多种 包括联配本身 一致序列 保守残基和残基模式 序列轮廓和其它的序列家族的概率模型 15 它们的共同特点是都基于多序列比对 不同之处是处理比对结果的原则和方法各有特色 16 蛋白质模式 proteinpatterin 数据库 Prosite数据库 是第一个蛋白质序列二次数据库基于对蛋白质家族中同源序列的多序列比对得到的保守性区域 与生物学功能有关 酶的活性位点 配体或金属结合位点等 它实际上是蛋白质序列功能位点数据库 可用来判断该序列包含什么样的功能位点 从而推测其可能属于哪一个蛋白质家族 Prosite的序列描述模式可以由正则文法描述 例如与丝氨酸蛋白酶家族有关的两个序列模式如下 一类是提交一条未知蛋白质序列 通过搜索给出相应的序列模式 一类是输入一个序列模式 针对特定数据库 如SwissProt TrEMBL PDB等 给出符合该序列模式的蛋白质序列条目 17 18 19 20 21 给出关键功能机制相关的少数几个重要残基 对于发现远距离同源较有优势 但是有假阳性 指出了序列上特定位置处可能出现的残基 但并没有对出现的概率给予描述 22 PRINTS和BLOCKS非常类似 都以一组无空位肽段来表示蛋白质家族 这些无空位肽段是通过对一组蛋白或蛋白质家族的高保守区进行多序列联配而得的 无空位片段在BLOCKS中称为blocks 在PRINTS中称为motifs 模体 在PRINTS中 代表一个蛋白质家族的一组motifs被称为fingerprint 指纹 PRINTS和BLOCKS http www bioinf man ac uk dbbrowser PRINTS 23 24 25 http blocks fhcrc org blocks 26 27 PRINTS BLOCKS库中的motifs或blocks可以比Prosite的序列模式覆盖更大的序列区域 并且motifs blocks在序列匹配中通常会考虑氨基酸替换矩阵的问题 因而更为敏感 找出更多远距离的关系 和更加特异 出现更少的假阳性 28 蛋白质结构域与家族 proteindomainfamilies 蛋白质结构域 proteindomain 必须是一个独立单元 是蛋白质中结构紧密 compact 的 半独立的单元 semi independent 在三维结构上呈现几何独立的部分 是蛋白质三维结构中可自折叠的稳定单元 stableunit 是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列 是可重现的功能和进化模块 是可定义单一明确功能的部分蛋白质序列 29 这些模块化结构很可能反映了蛋白质的进化方式 遗传事件可以导致结构域互换 结构域复制 结构域丢失和获得等 得到有特定功能的新结构域可以使蛋白质非常迅速地获得更加复杂的新功能 30 ProDom是一个蛋白质结构域家族数据库 它采用基于递归的PSI BLAST比对搜索算法基于SwissProt和TrEMBL蛋白质序列数据库自动构建产生 31 32 33 34 sequenceprofiles和Prositeprofile 序列谱 sequenceprofiles 提供了一种方法 用来描述来自同一蛋白质结构域家族的相关序列 它描述了观察到每个氨基酸的可能性 以及在序列中每个位点处插入和缺失的可能性 35 36 37 38 39 40 HiddenMarkovmodels和Pfam 隐马尔可夫模型 HiddenMarkovmodels HMMs 是描述蛋白质结构域家族序列最精细的统计学方法 41 42 43 44 InterProScan综合分析 目前已经出现了整合蛋白质结构功能域二级数据库的综合性数据库及其搜索系统 如SMART HITS 集成Prositepattern Prositeprofile和pfam 和InterPro等 这里主要对InterPro做一个简单介绍 45 46 47 8 4蛋白质序列理化性质分析 蛋白质理化性质的分析通常包括 蛋白质的分子量 等电点 pI 氨基酸组成 疏水性和亲水性分析等 48 ComputepI Mw 49 ANTHEPROT ANTHEPROT可以计算给出蛋白质序列的氨基酸组成 疏水区 亲水区 跨膜区 等电点分析 Amphiphilicity分析 信号肽分析等等 50 8 5蛋白质序列的基本性质分析 蛋白质序列的基本性质分析 一般包括蛋白质的跨膜螺旋 卷曲螺旋 二硫键位置 翻译后修饰 信号肽与亚细胞定位 磷酸化位点分析等 51 COILS将输入序列与数据库中coiled coils比较产生相似性分值 通过比较这个分值与球蛋白 卷曲螺旋蛋白的分值的分布 可以计算提交序列将会采取的卷曲螺旋构象的概率分值 52 SignalP http www cbs dtu dk services SignalP 可以对革兰氏阳性菌 革兰氏阴性菌和真核生物的蛋白质序列进行信号肽分析 53 TMHMM和TMpred http www cbs dtu dk services TMHMM 用来预测跨膜螺旋 insulin 54 亚细胞定位与PSORTB 蛋白质必须在一定的亚细胞器上才能正确行使其功能 同时也只有在相同或相近的亚细胞位置上蛋白质间才会有相互作用 亚细胞位置异常的蛋白质通常还会引起如癌症 老年痴呆症等疾病 55 蛋白质磷酸化位点与DISPHOS 蛋白质的翻译后修饰包括糖基化 磷酸化 蛋白质降解 S硝酸化 精氨酸甲基化和ADP核糖基化等等 是蛋白质行使正常生理功能所必需的 众多蛋白质翻译后修饰方式中磷酸化是最常见 最重要的一种共价修饰方式 56 8 6蛋白质序列的功能注释 随着二维凝胶电泳等实验技术的发展等蛋白质芯片上的蛋白质组数据也在大量被获取 然而目前对这些新基因的基因产物和蛋白质功能的了解却相对落后 功能注释的根本目标是建立基因型 genotype 与表型 phenotype 以及与环境间的相互作用与联系为致病基因筛选 药物靶标筛选 基因表达谱数据分析 建立调控网络等提供关键信息 57 蛋白质功能的描述 蛋白质功能是一个多层次且具有复杂体系的概念 multilevelandhierarchical 完整的蛋白质功能注释需从生化 细胞 组织 发育进化 生理上分别进行描述 58 分子功能 细胞功能 表型功能等三个层次来描述蛋白质功能 molecularfunction 蛋白质的特殊绑定位点 催化活性和构象变化等cellularfunction 一定细胞环境下代谢途径 信号级联的参与情况的phonotypicfunction 生物体内的表型 如是否患有疾病及其疾病病理等 由于GeneOntologyConsortium的工作 GO注释已成为目前功能功能注释的事实标准 通常的功能注释都会提供GO分类号 59 蛋白质注释方法 前蛋白质序列的功能注释方法基本上是经过同源比对进行已知的蛋白质功能注释信息的传递 目前大规模蛋白质功能注释工作主要集中为将单个基因产物划分到一个已知的蛋白质类别中 基于序列的功能预测 略 基于基因组上下文 genomic context 的功能预测 略 60 思考题 1 名词解释 同源蛋白 蛋白质同源分析2 名词解释 蛋白质二级数据库并说出几个蛋白质二级数据库 至少3个 3 蛋白质结构域的概念及结构域的特点4 蛋白质序列的理化性质分析包括哪一些 并举出一种软件 5 蛋白质序列的基本性质包括哪一些 并举出两种软件 6 说明蛋白质功能的三个层次 可能简答 7 蛋白质功能注释的根本目标是什么 61 本次课推荐单词 PrimarySecondaryTertiaryQuaternaryDomainHydrogenbondSaltbridgeHydrophobicPatterinMotifCompactSemi independent HydrophilicityCellularPhonotypicGenotypeAminoacidcompositionsCategoryProfilesa helices b strands sheets b turns 62 欢迎批评指正 63
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!