结构生物信息学基础知识和基本处理方法课件

上传人:沈*** 文档编号:241702035 上传时间:2024-07-17 格式:PPT 页数:50 大小:2.37MB
返回 下载 相关 举报
结构生物信息学基础知识和基本处理方法课件_第1页
第1页 / 共50页
结构生物信息学基础知识和基本处理方法课件_第2页
第2页 / 共50页
结构生物信息学基础知识和基本处理方法课件_第3页
第3页 / 共50页
点击查看更多>>
资源描述
结构生物信息学结构生物信息学基础知识和基本处理方法基础知识和基本处理方法Outline生物学基本知识常用的生物数据及数据库处理生物数据的基本处理方法生物学两种主要信息载体核酸分子 与 蛋白质分子生物基础核酸分子核酸的基本单元式核苷酸。核苷酸有一个磷酸基团、一个糖基团和一个含有氮原子的碱基基团构成。根据糖基不同,核苷酸可分为:l脱氧核糖核苷酸l核糖核苷酸生物基础碱基糖基磷酸DNA(DNA(脱氧核糖核酸脱氧核糖核酸)RNA(RNA(核糖核酸核糖核酸)核苷核苷 +磷酸磷酸碱基碱基+糖基糖基核苷酸核苷酸核酸核酸聚合聚合核酸分子 DNA和RNADNA的磷酸基团和糖基团都相同,碱基分为4种类型:l腺嘌呤 -Al鸟嘌呤 -Gl胞嘧啶 -Cl胸腺嘧啶 -T生物基础A只能与只能与T配对配对C只能与只能与G配对配对A AC CGGT T核酸分子 DNA和RNA多个脱氧核苷酸通过5和3形成磷酸二酯键连接而成的长DNA单链。通过碱基互补配对形成互补链,两条相互平行的DNA单链形成双螺旋结构。生物基础A -UC -GG -URNA通常是单链形式。RNA只有尿嘧啶(U)而没有胸腺嘧啶(T)DNA主要存在于细胞核内,RAN在细胞核外也存在。配对原则:蛋白质分子 生命活动的执行者蛋白质是由氨基酸通过肽键相链接形成的聚合物。氨基酸-蛋白质的基本组成单位,存在自然界中的氨基酸有300余种,但组成人体蛋白质的氨基酸仅有20种。生物基础氨基酸有一个位于中心的碳原子(C)以及用共价键相连的四个基团组成。氨基酸的通式RC氨基氨基羧基羧基侧链侧链甘氨酸HCH3丙氨酸氨基酸之间的差异主要体现在侧链部分蛋白质分子 生命活动的执行者20种标准氨基酸生物基础氨基酸名称氨基酸名称英文缩写英文缩写简简 写写氨基酸名称氨基酸名称英文缩写英文缩写简简 写写甘氨酸甘氨酸GlyG丝氨酸丝氨酸SerS丙氨酸丙氨酸AlaA苏氨酸苏氨酸ThrT缬氨酸缬氨酸ValV天冬酰胺天冬酰胺AsnN异亮氨酸异亮氨酸IleI谷酰胺谷酰胺GlnQ亮氨酸亮氨酸LeuL酪氨酸酪氨酸TyrY苯丙氨酸苯丙氨酸PheF组氨酸组氨酸HisH脯氨酸脯氨酸ProP天冬氨酸天冬氨酸AspD甲硫氨酸甲硫氨酸MetM谷氨酸谷氨酸GluE色氨酸色氨酸TrpW赖氨酸赖氨酸LysK半胱氨酸半胱氨酸CysC精氨酸精氨酸ArgR蛋白质分子 生命活动的执行者生物基础氨基酸之间的差异主要体现在侧链部分氨基酸的侧链决定了不同氨基酸的物理化学性质RC氨基氨基羧基羧基侧链侧链蛋白质分子 生命活动的执行者氨基酸的分类生物基础碱性氨基酸酸性氨基酸极性中性氨基酸非极性疏水氨基酸蛋白质分子的结构生物基础蛋白质分子的结构蛋白质的一级结构生物基础l定义:蛋白质的一级结构指多肽链中氨基酸的排列顺序。l主要化学键:肽键一级结构是蛋白质空间构象和特异生物功能的基础。胰岛素的一级结构蛋白质分子的结构蛋白质的二级结构生物基础l定义:蛋白质分子中某一段肽链的局部空间结构,即该段肽链主链骨架原子的相对空间位置,并不涉及氨基酸残基侧链的构象。l主要化学键:氢键HHHH肽单元(peptideunit)蛋白质分子的结构肽平面及二面角生物基础蛋白质分子的结构二级结构主要有以下几种形式:生物基础l螺旋(-helix)l折叠(-sheet)l转角(-turn)l无规卷曲(coil)多肽链中有60%的区段为螺旋和折叠蛋白质分子的结构-螺旋生物基础l多肽链主链围绕中心轴形成右手螺旋状结构,侧链伸向螺旋外侧l每个氨基酸残基(第n个)的羰基与多肽链C端方向的第4个残基(第4+n个)的酰胺氮形成氢键蛋白质分子的结构-折叠生物基础l多肽链充分伸展,相邻肽单元之间折叠成锯齿状结构,侧链位于锯齿结构的上下方l两段以上的-折叠结构平行排列,两链间可顺向平行,也可反向平行l两链间的肽键之间形成氢键,以稳固-折叠结构。氢键与螺旋长轴垂直。蛋白质分子的结构-转角生物基础l含4个氨基酸残基,第一个残基的CO基团和第四个残基的NH基团之间形成氢键,使多肽链的方向发生“U”形改变。蛋白质分子的结构超二级结构生物基础l在蛋白质分子中,特别是球状蛋白质中,由若干相邻的二级结构单元(即-螺旋、-折叠和-转角等)彼此相互作用组合在一起,形成有规则、在空间上能辨认的二级结构组合体,充当三级结构的构件单元,称超二级结构。蛋白质分子的结构蛋白质三级结构生物基础l在二级结构基础上的肽链再折叠形成的构象。l整条肽链中全部氨基酸残基的相对空间位置,即肽链中所有原子在三维空间的排布位置。蛋白质分子的结构结构域(domain)生物基础l多肽链在超二级结构基础上进一步绕曲折叠而成的相对独立的三维实体称结构域l蛋白质结构中具有特异结构和独立功能的区域。蛋白质分子的结构结构域(domain)生物基础蛋白质分子的结构肌红蛋白的三级结构生物基础分子中多肽主链由长短分子中多肽主链由长短不等的不等的8段段直的直的螺旋螺旋组组成成最大的螺旋含最大的螺旋含23个残基个残基最短的最短的7个残基,分子中个残基,分子中几乎几乎80%的氨基酸残基的氨基酸残基都处于都处于螺旋区螺旋区中。中。拐弯是由拐弯是由18个残基组个残基组成的无规则卷曲。成的无规则卷曲。蛋白质分子的结构蛋白质四级结构生物基础l每条完整三级结构的多肽链,称为亚基(subunit)l蛋白质分子中各亚基的空间排布及亚基接触部位的布局和相互作用,称为蛋白质的四级结构。Outline生物学基本知识常用的生物数据及数据库处理生物数据的基本处理方法生物信息学数据库Background生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 生物信息学数据库Background应满足5个方面的主要需求:l(1)时间性l(2)注释l(3)支撑数据l(4)数据质量l(5)集成性生物信息学数据库Background生物信息数据库具备的几个明显特征:数据库的更新速度不断加快数据库使用频率增长更快数据库的复杂程度不断增加 数据库网络化 面向应用先进的软硬件配置蛋白质结构数据库BackgroundPDB(ProteinDataBank)l是目前最主要的蛋白质分子结构数据库。l1970由美国Brookhaven国家实验室建立,1988年,由美国RCSB(research collaboratory for structural biology)管理;l含有通过实验(X射线晶体衍射,核磁共振NMR,冷冻电子显微镜)测定的生物大分子(蛋白质、核酸、糖类、复合物)的三维结构。l以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;蛋白质结构数据库BackgroundPDB(ProteinDataBank)蛋白质结构数据库BackgroundPDB(ProteinDataBank)Jan08,2013蛋白质结构数据库BackgroundPDB的文件格式物种来源、测定方法、提交者信息、蛋白质序列 一级结构蛋白质二级结构构成蛋白质的氨基酸的每个原子的三维坐标蛋白质结构分类数据库BackgroundSCOP(StructuralClassificationofProteins)l提供已知结构的蛋白质之间结构和进化关系的详细描述提供已知结构的蛋白质之间结构和进化关系的详细描述。l按结构和进化关系对蛋白质分类,分类结果是一个具有层按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠次结构的树,其主要的层次是家族、超家族和折叠:u家族:具有明显的进化关系家族:具有明显的进化关系u超家族:具有远源进化关系,超家族:具有远源进化关系,具有共同的进化源具有共同的进化源u折叠类:主要结构相似折叠类:主要结构相似uROOT(根根)uCLASS(类类)u FOLD(折叠折叠)uSUPERFAMILY(超家族超家族)uFAMILY(家族家族)uPROTEIN(蛋白蛋白)uSPECIES(种种)蛋白质结构分类数据库BackgroundSCOP(StructuralClassificationofProteins)蛋白质结构分类数据库BackgroundCATH(Class,Architecture,Topology,Homology)lCATH数据库的分类基础是蛋白质结构域。数据库的分类基础是蛋白质结构域。l与与SCOP不同的是,不同的是,CATH把蛋白质分为把蛋白质分为4类,即类,即a主类、主类、b主类,主类,a-b类(类(a/b型和型和a+b型)和低二级结构类。型)和低二级结构类。u类型类型(Clase):二级结构:二级结构u构架构架(Architecture):超二级结构:超二级结构排列方式排列方式u拓扑结构拓扑结构(Topology):二级结构:二级结构的形状和二级结构间的联系的形状和二级结构间的联系u同源性同源性(Homology):序列同源性:序列同源性Outline生物学基本知识常用的生物数据及数据库处理生物数据的基本处理方法生物数据的基本处理方法Method生物信息学所用的方法和技术:数学统计方法 动态规划方法 机器学习与模式识别技术 数据库技术及数据挖掘 人工神经网络技术分子模型化技术量子力学和分子力学计算 生物分子的计算机模拟因特网(Internet)技术 生物数据的基本处理方法1.数学统计方法:生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法 数据统计、因素分析、多元回归分析是生物学研究必备的工具隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain)数学统计方法Method生物数据的基本处理方法2.动态规划方法:动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法 动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解 Method生物数据的基本处理方法3.机器学习与模式识别技术:机器学习:模拟人类的学习过程,以计算机为工具获取知识、积累经验 u遗传算法采用随机搜索方法,具有自适应能力遗传算法采用随机搜索方法,具有自适应能力和便于并行计算和便于并行计算u神经网络的理论是基于人脑的结构,其目的是神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方揭示一个系统是如何向环境学习的,这一种方法被称为联接主义法被称为联接主义 模式识别:机器学习的一个主要任务。模式是对感机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中。模式识别主要有两种方法入同种类别中。模式识别主要有两种方法:u根据对象的统计特征进行识别根据对象的统计特征进行识别u根据对象的结构特征进行识别根据对象的结构特征进行识别Method生物数据的基本处理方法3.机器学习与模式识别技术:环境环境知识库知识库执行执行反反 馈馈学习学习Method生物数据的基本处理方法4.数据库技术及数据挖掘:数据库技术 u数据仓库数据仓库 u虚拟数据库技术(虚拟数据库技术(Virtual DatabaseVirtual Database,简称,简称 VDBVDB)数据挖掘(data mining)u又称作数据库中的知识发现又称作数据库中的知识发现 (Knowledge(Knowledge Discovery in Database)Discovery in Database),它是从数据库或数据仓,它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式对信息预测和决策行为起着十分重要作用的模式 u数据挖掘过程一般分为数据挖掘过程一般分为4 4个基本步骤:数据选择、个基本步骤:数据选择、数据转换、数据挖掘和结果分析数据转换、数据挖掘和结果分析 Method生物数据的基本处理方法5.人工神经网络技术:人工神经网络(Artificial Neural Network,简称ANN)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型 在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,简称BP网)。BP网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络模型。标准的BP网由三层神经元组成:输入层、隐藏层和输出层 Method生物数据的基本处理方法5.人工神经网络技术:输入层隐藏层输出层反向传播神经网络结构示意Method生物数据的基本处理方法6.分子模型化技术:分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分子之间相互作用的一种技术分子模型化是进行分子设计的基础。分子图形学(Molecular Graphics)是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功Method生物数据的基本处理方法7.量子力学和分子力学计算:量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础理论,在化学等有关学科中得到了广泛的应用 分子力学(Molecular Mechanics)方法是一种非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质 在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分子力学 Method生物数据的基本处理方法8.生物分子的计算机模拟:所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质分子动力学和蒙特卡罗(Monte Carlo)方法是两种最常用的技术,另一种模拟方法是模拟退火方法 实实 验验实验现象实验现象数学数学模型模型计算机计算机模模 拟拟模拟结果模拟结果分析分析 新的设想新的设想反馈,改进模型反馈,改进模型Method生物数据的基本处理方法9.因特网(Internet)技术:Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所u通过网络查询或搜索所需要的生物信息,使用分析通过网络查询或搜索所需要的生物信息,使用分析工具工具 u将所要处理的数据直接送到相应的网络服务器上,将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回服务器接受你的处理请求,并将处理结果返回 Method“Biology is an information science”-Leroy HoodComputingComputingComestoLifeTHANKS
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!