资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,生物,信息,学,1,生物信息学1,生物,信息,学,说文解字:生物 + 信息 +,学,(bioinformatics),biology + information +,theory,广义,应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是,生命科学,中的,信息科学,。,狭义,应用,信息科学,的理论、方法和技术,管理、分析和利用,生物分子,数据。,2,生物信息学说文解字:生物 + 信息 + 学 (bioinfo,生命信息系统,生物所处的时空系统,物质系统,信息传递与控制,能量,3,生命信息系统生物所处的时空系统3,相关学科图示,4,相关学科图示4,广义概念图示,5,广义概念图示5,狭义概念图示,6,狭义概念图示6,总结:生物信息学,生物信息学(Bioinformatics) 是一门新兴的交叉学科,是生命科学领域中的新兴学科,面对,人类基因组计划,等各种项目所产生的庞大的,分子生物学信息,,生物信息学的重要性将越来越突出,它将会为生命科学的研究带来革命性的变革。,生物信息学是在生命科学的研究中,以,计算机为工具,对生物信息进行储存、检索和分析的科学。,生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在,基因组学,(Genomics)和,蛋白组学,(Proteomics) 。,7,总结:生物信息学生物信息学(Bioinformatics),生物学基础速递,细胞(分子水平),个体生命,生命之树,8,生物学基础速递细胞(分子水平)8,生命的分子基础,细胞/分子水平,DNA/RNA,蛋白质,糖,脂类,9,生命的分子基础细胞/分子水平9,DNA结构和碱基互补原理,10,DNA结构和碱基互补原理10,中心法则,11,中心法则11,生物信息学的历史,从人类基因组计划(HGP)说起,12,生物信息学的历史 从人类基因组计划(HGP)说起12,曼哈顿原子弹计划,阿波罗登月计划,人类基因组计划,13,曼哈顿原子弹计划阿波罗登月计划人类基因组计划13,60年代初,美国总统Kennedy提出两个科学计划:,登月计划,攻克肿瘤计划, 人类遗传信息的复杂性,人类基因组计划,(HGP,,Human Genome Project,),目标:整体上破解人类遗传信息的奥秘,为什么提出HGP?,14,60年代初,美国总统Kennedy提出两个科学计划:人类基因,生命活动三要素:物质、能量、信息,DNA,:,遗传物质(遗传信息的载体), 双螺旋结构,A, C, G, T四种基本字符的复杂文本,基因,(Gene),:具有遗传效应的DNA分子片段,DNA、基因、基因组,15,生命活动三要素:物质、能量、信息 DNA: 遗传物质(遗传信,基因组,(Genome):,包含,细胞或生物体全套的遗传信息的全部,遗传物质。,原核生物(细菌、病毒等),真核生物(真菌、植物、动物等),人类基因组:,3.210,9,bp,16,基因组(Genome):包含细胞或生物体全套的遗传信息的全,HGP的历史回顾,1984.12,犹他州,阿尔塔组织会议,,初步研讨测定人类整个基,因组DNA序列的意义,1985,Dulbecco在Science撰文 “肿瘤研究的转折点:人,类基因组的测序”,美国能源部(DOE)提出“人类基因组计划”草案,1987,美国能源部和国家卫生研究院(NIH)联合为“人类,基因组计划”下拨启动经费约550万美元,1989,美国成立“国家人类基因组研究中心”,Watson担任,第一任主任,1990.10,经美国国会批准,人类基因组计划正式启动,17,HGP的历史回顾1984.12 犹他州阿尔塔组织会议,初,第一个自由生物体流感嗜血菌(,H. inf,)的全基因组测序完成,1996 完成人类基因组计划的遗传作图,启动模式生物基因组计划,H.inf,全基因组,Saccharomyces cerevisiae,酿酒酵母,Caenorhabditis elegans,秀丽线虫,18,第一个自由生物体流感嗜血菌(H. inf)的全基因组测序,1997 大肠杆菌(,E.coli,)全基因组测序完成,1998 完成人类基因组计划的物理作图,开始人类基因组的大规模测序,Celera公司加入,与公共领域竞争,启动水稻基因组计划,1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度,大肠杆菌及其全基因组,水稻基因组计划,19,1997 大肠杆菌(E.coli)全基因组测序完成大肠杆菌及,1999.7,第5届国际公共领域人类基因组测序会议,加快测序速度,2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组拟南芥全基,因组的测序工作,Drosophila melanogaster,果蝇,Arabidopsis thaliana,拟南芥,20,1999.7 第5届国际公共领域人类基因组测序会议,加快,2001年2月15日Nature封面,2001年2月16日Science封面,2000.6.26,公共领域和Celera公司同时宣布完成人类基因组工作草图,2001.2.15,Nature刊文发表国际公共领域结果,2001.2.16,Science刊文发表Celera公司及其合作者结果,21,2001年2月15日Nature封面2001年2月16日,我国对人类基因组计划的贡献,22,我国对人类基因组计划的贡献22,HGP带来的科学挑战,随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作,发现生物学,规律,解读生物,遗传密码,认识生命的本质,研究基因组数据,之间的关系,分析现有的,基因组数据,利用数学模型,和计算技术,23,HGP带来的科学挑战随着实验数据和可利用信息急剧增加,信息的,各学科参与、协作:生命科学、数学、物理学、化学、计算机,科学、材料科学以及伦理、法律等社会科学,首要科学问题,如何找到记载在基因组DNA一维结构上控制生命时间、空间,的调控信息的编码方式和调节规律。,应用数学、复杂系统理论、信息论、非线性科学,催生,生物信息学,、,计算生物学,芯片技术,交叉性技术领域:物理学、微电子信息技术、生化技术、信,息技术、自动化、材料科学,结构生物学,前沿领域之一:生物物理学、生物化学、晶体学、波谱学、,光谱学以及X射线晶体衍射技术、核磁共振技术,24,各学科参与、协作:生命科学、数学、物理学、化学、计算机2,生物信息学的发展历史,生物信息学,基本思想的产生,生物信息学,的迅速发展,二十世纪,50年代,二十世纪,80-90年代,生物科学和,技术的,发展,人类基因组,计划的,推动,25,生物信息学的发展历史生物信息学生物信息学二十世纪二十世纪生物,20世纪50年代,生物信息学开始孕育,20世纪60年代,生物分子信息在概念上将计算,生物学和计算机科学联系起来,20世纪70年代,生物信息学的真正开端,20世纪70年代到80年代初期 ,出现了一系列著,名的序列比较方法和生物信息分析方法,20世纪80年代以后,出现一批生物信息服务机,构和生物信息数据库,20世纪90年代后 ,HGP促进生物信息学的迅速,发展,26,26,关于生物信息学发展历程中的重要大事,,请参见下面两个网站的介绍:,http:/www.ncbi.nlm.nih.gov/Education,/BLASTinfo/milestones.html,、,http:/www.biosino.org/bioinformatics/,。,27,关于生物信息学发展历程中的重要大事,27,生物信息学的研究内容,1、,生物分子数据的收集与管理,2、 数据库搜索及序列比较,3、 基因组序列分析,4、基因表达数据的分析与处理,5、蛋白质结构与功能预测,6、基因-蛋白相互作用网络,7、整个系统调控网络,28,生物信息学的研究内容1、 生物分子数据的收集与管理28,基因组,数据库,蛋白质,序列,数据库,蛋白质,结构,数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,生物分子数据的收集与管理,29,基因组蛋白质蛋白质DDBJEMBLGenBankSWISS-,数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列,序列比较,的一个基本操作就是,比对,(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述,多重序列比对,研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,30,数据库搜索及序列比较 搜索同源序列在一定程度上就是通过序列比,基因组序列分析,遗传语言分析天书,基因组结构分析,基因识别,基因功能注释,基因调控信息分析,基因组比较,31,基因组序列分析 遗传语言分析天书 31,基因表达数据的分析与处理,基因表达数据分析,是目前生物信息学研究的热,点和重点,目前对基因表达数据的处理主要是进行,聚类分,析,,将表达模式相似的基因聚为一类,在此基,础上寻找相关基因,分析基因的功能,所用方法,主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法 等,表达数据,缺点,:仅反映mRNA丰度,噪声,,32,基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究,蛋白质结构预测,蛋白质的生物,功能,由蛋白质的,结构,所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途径,蛋白质结构预测分为:,二级结构预测,空间结构预测,蛋白质折叠,33,蛋白质结构预测 蛋白质的生物功能由蛋白质的结构所决定 ,蛋白,二级结构预测,在一定程度上二级结构的预测可以归结为模式识别问题,在二级结构预测方面主要方法有:,立体化学方法,图论方法,统计方法,最邻近决策方法,基于规则的专家系统方法,分子动力学方法,人工神经网络方法,预测准确率超过70%的第一个软件是基于神经网络的PHD系统,34,二级结构预测34,空间结构预测,在空间结构预测方面,比较成功的理论方法是,同源模型法,该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构,运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作,35,空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型,生物信息学当前的主要任务,当今生物信息学界的大部分人都把注意力集中在,基因组、蛋白质组、蛋白质结构,以及与之相结合的,药物设计,上,随蛋白组学、代谢组学进一步的发展,将在,整体,水平进行,36,生物信息学当前的主要任务 当今生物信息学界,基因组,新基因的发现,通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“,电子克隆,”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。,37,基因组 新基因的发现 通过计算分析从EST(Expr,非蛋白编码区生物学意义的分析,38,非蛋白编码区生物学意义的分析 38,非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。,对非蛋白编码区进行生物学意义分析的策略有两种,,一种,是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;,另一种,则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。,39,非蛋白编码区约占人类基因组的95%,其生物学意义目前尚,基因组整体功能及其调节网络的系统把握,把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。,基因芯片,技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体,系统的机制,或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。,40,基因组整体功能及其调节网络的系统把握 把握生命的,基因组演化与物种演化,(生命之树),41,基因组演化与物种演化 (生命之树)41,尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。,42,尽管已经在分子演化方面取得了许多重要的成就,但仅,基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能,反映从基因组到RNA的转录水平上的表达,情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况;,近几年在发展基因芯片的同时,人们也发展了一套研究,基因组所有蛋白质产物表达情况蛋白质组,研究技术,从技术上来讲包括,二维凝胶电泳技术,和,质谱,测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过,质谱,测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用,生物信息学理论方法,去分析所得到的巨量数据,从中还原出,生命运转和调控的整体系统,的分子机制。,蛋白质组,43,基因组对生命体的整体控制必须通过它所表达的全部蛋,基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且,蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也会相应的有所改变,。因此,得到这些新蛋白的完整、精确和动态的,三维结构,就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到,蛋白质三维结构,蛋白质结构,44,基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列,另外一种广泛使用的方法就是通过,计算机辅助预测,的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构,45,另外一种广泛使用的方法就是通过计算机辅助预测的方,新药设计,46,新药设计 46,随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不仅可提供,生物大分子空间结构的信息,,还能提供,电子结构,的信息,如能级、表面电荷分布、分子轨道相互作用等以及,动力学行为的信息,,如生物化学反应中的能量变化、电荷转移、构象变化等。,理论模拟,还可研究包括生物分子及其周围环境的,复杂体系,和生物分子的,量子效应,。,结构 功能 行为,47,随着结构生物学的发展,相当数量的蛋白质以及一些核,但生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数理理论成果对生物体进行,完整系统,的数理模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来,认识和控制自身以及所有其他的生命体,48,但生物信息学的任务远不止于此。在以上工作的基础,生物信息学不仅仅是一门科学学科,,它更是一种重要的研究开发工具。,从,科学的角度,来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。,从,工具的角度,来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择,正确的研发方向,,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。,49,生物信息学不仅仅是一门科学学科,49,生物信息学的研究意义,生物信息学将是21世纪生物学的核心,认识生物本质,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系,改变生物学的研究方式,改变传统研究方式,引进现代信息学方法,在医学上的重要意义,为疾病的诊断和治疗提供依据,为设计新药提供依据,50,生物信息学的研究意义生物信息学将是21世纪生物学的核心 认识,生物信息学系统化概图,51,生物信息学系统化概图51,生物信息学所用的方法和技术,1、,数学统计方法 (高维、样本量的问题),2、动态规划方法,3、机器学习与模式识别技术 (从数据中学习),4、数据库技术及数据挖掘,5、人工神经网络技术,6、专家系统,7、分子模型化技术,8、量子力学和分子力学计算,9、生物分子的计算机模拟,10、因特网(Internet)技术(Grid计算),。,52,生物信息学所用的方法和技术 1、数学统计方法 (高维、样本量,目前进展,生物信息学与系统生物学(,Systems,Biology),还原论,整体论,系统生物学的4个层次:【?】,系统的结构,系统的动力学,系统的控制,系统的设计,生物系统的,复杂,性!,53,目前进展生物信息学与系统生物学(Systems Biolog,一切从基因组开始,“基因组到生命”(GenomestoLife,GTL)计划,54,一切从基因组开始 “基因组到生命”(Genome,国内外状况,国外, 杭州 深圳),天大生物信息中心,中科院,计算所生物信息中心,复旦理论生物中心,。,55,国内外状况国外 。,医疗机构(北京大学深圳医院),57,机遇生物信息学人才需求 57,机遇,个性化医疗(疾病的治疗是一种,艺术,),诊断(家族历史),治疗(基因治疗),制药(中药现代化),58,机遇个性化医疗(疾病的治疗是一种艺术)58,机遇,芯片技术产业,与服务,第一种分类:微阵列芯片和微流控芯片,(第二种分类:主动式芯片与被动式芯片 ),微阵列芯片,基因芯片,蛋白芯片,组织芯片,由科技部主办,清华大学、中国医药生物技术协会、中国医药生物技术协会生物芯片分会、中华医学会健康管理学分会、生物芯片北京国家工程研究中心承办的“,生物芯片在医学和食品安检中的应用大会,”于2008年4月21日23日在北京中关村生命科学园内召开。 会议就生物芯片在,肿瘤研究、生殖发育研究、临床诊断、个体化医疗、农兽药残留检测、致病微生物检测和药物研究及开发中,的应用等主题,还举办了,生物芯片及相关设备试剂,展览。,59,机遇芯片技术产业与服务 59,机遇,生物数据挖掘与服务,基因筛选,基因识别与发现,基因功能预测,蛋白结合位点预测,蛋白组数据分析,。,60,机遇生物数据挖掘与服务 60,挑战,民间的合作,学校与学校,学校与企业,深圳、香港、珠三角,产学研合作,61,挑战民间的合作61,时刻铭记,实验永远起着决定作用,计算/理论生物学的发展离不开实验生物学的贡献,实验生物学日益依赖计算/理论生物学的指导,重视基础研究,原创,!,21世纪生命科学,理论,计算,实验,数学与物理科学,62,时刻铭记 21世纪生命科学理论计算实验数学与物理科学62,学习和超越,上海生物信息技术研究中心,(,www.scbit.org,),2002年8月,上海市科学技术委员会依托,中国科学院上海生命科学研究院、国家人类基因组南方研究中心、复旦大学、上海交通大学、上海第二医科大学、上海医药工业研究院和中国科学院上海有机化学研究所,等单位,整合上海生物信息学主要研究力量,正式组建了上海生物信息技术研究中心(以下简称“中心”)。“中心”作为上海市编制的自收自支的独立事业法人单位,是我国第一个以推动,我国生物信息学数据共享,为目的,完全从事,生命科学数据库建设、生物信息学软件开发,的,地方政府支持,的独立事业法人单位。,63,学习和超越63,生物信息学,国际著名的生物信息中心,NCBI,National Center for Biotechnology Information (US),EBI,European Bioinformatics Institute (EU),HGMP,Human Genome Mapping Project Resource Centre,(UK),ExPASy,Expert of Protein Analysis System (Switzerland ),CMBI,Centre of Molecular and Biomolecule,(The Netherlands),ANGIS,National Genome Information Service (Australia),NIG,National Institute of Genetics (Japan),BIC,National Bioinformatics Centre (Singapore),64,生物信息学 国际著名的生物信息中心NCBI,分子生物学网站,NCBI: http:/www.ncbi.nlm.nih.gov,EMBL: http:/www.embl.org,ExPASy: http:/www.expasy.ch,UCSC:http:/genome.ucsc.edu,NIG: http:/www.nig.ac.jp,65,分子生物学网站NCBI: http:/www.ncbi.n,DNA,数据库:,EMBL,:欧洲分子生物学实验室(欧洲的分子生物学实验室)核酸序列数据库,NCBI:,美国国家生物技术情报中心,美国最主要的核酸序列数据库,世界两大核酸数据库之一。,DDBJ,:日本国立遗传学研究所(日本国家的学会,DNA,数据库为数据生物学)维护集中。位于日本的核酸序列数据库,为亚洲主要的核酸序列数据库。,66,DNA 数据库:EMBL :欧洲分子生物学实验室(欧洲的分子,蛋白质序列数据库:,SWISS-PROT,:,1987,年由日内瓦大学医学生物化学系和欧洲分子生物学实验室共同维护;现在由,EMBL,分支机构,EBI,维护。,PIR:(Protein Identification Resource)由美国国家生物医学研究基金会所支持,德国马普学会慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护。,TrEMBL:(Translated EMBL, TrEMBL)。是从EMBL中翻译出来的氨基酸序列。,PDB:(protein databank, PDB)蛋白序列三维立体结构数据库,由美国自然科学基金会、能源部和国立卫生研究院共同投资建设。,67,蛋白质序列数据库: SWISS-PROT:1987年由日内瓦,基因组及其它数据库,GDB,:人类基因组数据库。支持构建人类基因图谱和测序。其主节点移至加拿大多伦多儿童医院生物信息超级计算中心。,GeneCards,:基因及其产物以及生物医学应用的文献库。以色列魏茨曼科学研究所维护。,其它:UniGene(表达谱信息)、RefSeq,、dbEST、dbSTS、dbSNP、CDD(Conserved Domain Database,蛋白结构域数据库)、,OMIM (online mendelian Inheritance in Man):是孟德尔人类遗传学(MIM)的持续更新的电子版等等。,68,基因组及其它数据库GDB:人类基因组数据库。支持构建人类基因,National Center for Biotecnology Information (NCBI),www.ncbi.nlm.nih.gov,69,National Center for Biotecnolo,NCBI起源和任务,NCBI于1988,年,11,月,4,日创立,由于参议员Claude Pepper意识到,信息计算机化过程方法,对,指导生物医学研究,的重要性,于是提案立法设立NCBI。其隶属于NIH的国立医学图书馆(NLM)的一个分支,NLM负责创立生物信息学数据库。,NCBI的任务是发展新的信息学技术以提高对控制健康和疾病的,基本分子和遗传过程,的理解。,70,NCBI起源和任务 NCBI于1988年,NCBI的主要作用,建立关于分子生物学,生物化学和遗传学知识的存储和分析的自动系统,实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的先进方法的研究,加速生物技术研究者和医药治疗人员对数据库和软件的使用。,全世界范围内的生物技术信息收集的合作努力。,71,NCBI的主要作用建立关于分子生物学,生物化学和遗传学知识的,NCBI的维护,NCBI有一个多学科的研究小组包括计算机科学家、分子生物学家、数学家、生物化学家、实验物理学家和结构生物学家,,集中于计算分子生物学的基本的和应用,的研究。,他们一起用,数学和计算的方法,研究在,分子水平,上的基本的,生物医学,问题。这些问题主要包括基因的组织、序列的分析和结构的预测。,72,NCBI的维护 NCBI有一个多学科的研,NCBI所含的数据库,点击,73,NCBI所含的数据库点击73,NCBI-,Databases,There are three major public DNA databases,GenBank,DDBJ,EMBL,Housed,at EBI,European,Bioinformatics,Institute,Housed,at NCBI,National,Center for,Biotechnology,Information,Housed,in Japan,74,NCBI-DatabasesThere are t,www.ncbi.nlm.nih.gov,数据库选择,75,www.ncbi.nlm.nih.gov数据库选择75,NCBI中一些常用的数据库资源,PubMed: The biomedical literature (PubMed),Nucleotide: sequence database (GenBank),Protein: sequence database,Structure: three-dimensional macromolecular structures,Genome: complete genome assemblies,SNP: single nucleotide polymorphisms,OMIM:,online Mendelian Inheritance in Man,76,NCBI中一些常用的数据库资源PubMed: The bio,PubMed is,是美国国立医学图书馆(National Library of Medicine, NLM)的国家生物信息中心(National Center for Biotechnology Information, NCBI)开发的一个以网络为基础的检索系统,自1997年免费提供服务。,77,PubMed is77,PubMed- MEDLINE,1879年编译医学索引Index Medicus,即 IM,1964开发医学文献分析与检索系统,Medical Literature Analysis and Retrieval System, MEDLARS,1971年建立了MDELARS的联机系统,称为“MEDLARS 联机检索系统, MEDLARS online, 即MEDLINE系统”。,PubMed作为一个以网络为基础的检索系统,自1997年免费提供服务。,78,PubMed- MEDLINE1879年编译医学,PubMed,收录范围,MEDLINE,:自,1966,年以来,71,各国家出版的,4000,多种期刊。有,UI,和,PMID,。带有标识PubMed-index for MEDLINE,PreMEDLINE,:处于加工阶段的文献记录,尚未表引主题词。有,UI,和,PMID,。带有,PubMed-in process,标识。,出版商提供的文献数据:出版商以电子版形式先将文献传送给,PubMed,。仅有,PMID,。带有,PubMed-as supplied by publisher,标识。,(,MEDLINE,唯一识别码,UI,;,PubMed,唯一识别码,PMID,),79,PubMed收录范围MEDLINE:自1966年以来71各国,Entrez integrates,由美国NCBI开发一个数据库检索系统。,用于对文献摘要、序列、结构和基因组数据库进,行关键词查询,找出相关的一个或几个数据库条,目。,特点:是面向生物学家的数据库查讯系统,使用,方便,它把序列、结构、文献、基因子、蛋白、,系统分类等不同类型的数据库有机的结合在一起,、,80,Entrez integrates80,81,81,Entrez is a search and retrieval system,that integrates NCBI databases,82,Entrez is a search and retriev,BLAST is,Basic Local Alignment Search Tool,(,BLAST),NCBIs,序列相似性搜索工具,supports DNA,和蛋白质数据库的分析,80,000 searches per day,83,BLAST is83,LocusLink:,位点链接,提供一个单一查询界面来将与某一个序列相关的每一个数据库的信息组织起来每一个LocusLink记录包括一系列的数据库的链接,它展现官方命名,别名,序列登录,表型,EC号码,MIM号码,UniGene聚类,同源,图谱位点,和相关的网站信息。相反,UniGene和dbSNP等数据库也提供了LocusLink链接。,Map Viewer:多种生物体的全部基因组、染色体图谱,多种水平查看基因周围的详细信息和局部赶兴趣区域,“Map”代表所感兴趣目标基因在特殊坐标系统中所处的位置,NCBI,84,LocusLink:位点链接,提供一个单一查询界面来将与某一,
展开阅读全文