中国科技大学课件系列：《生物信息学》01

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物信息学,(Bioinformatics),第一章：概论,背景,人类基因组计划,(Human Genome Project,HGP),：,1990,年正式启动，旨在完成人类基因组约,30,亿个碱基的全序列测定。,海量生物数据的迅速膨胀：,DNA,、,RNA,和蛋白质序列，蛋白质二级结构和三维结构数据，蛋白质相互作用数据等。,对大量生物数据的管理、分析和信息化需求促进了生物信息学的迅速发展。,人类基因组计划,HGP(,Human Genome Project,),由美国,NIH,和能源部提出和带头，美、英、德、法、日、中共同参与的国际合作项目。,重大国际研究项目：测定人类基因组全部,DNA,序列，构建人类基因组遗传图谱和物理图谱。,1990,年：正式启动，,30,亿美元。,2001,年：人类基因组草图公开发表。,2003,年：美国宣布该项目完成。,生物信息学定义的历史演变,定义一：生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科（,Bioinformatics is a new subject of genetic data collection,analysis and dissemination to the research community,）。,(Dr.Hwa A.Lim,，,1987),定义二：生物信息学特指数据库类的工作，包括持久稳固的在一个稳定的地方提供对数据的支持（,Bioinformatics refers to database-like activities,involving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time,）。,(Dr.Hwa A.Lim,，,1994),定义三：生物信息学是在大分子方面的概念型的生物学，并且使用了信息学的技术，这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法，并以此在大尺度上来理解和组织与生物大分子相关的信息。,(Luscombe,2001),什么是生物信息学？,Bioinformatics is the field of science in which biology,computer science,and information technology merge into a single discipline.The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.,Biology in the 21st century is being transformed from a purely lab-based science to an information science as well.,from NCBIs science primer,www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html,什么是生物信息学？,生物信息学是一门交叉学科，它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义。,(,美国人类基因组计划第一个五年总结报告，,1995),广义生物信息学观点,Biology may be viewed as the study of transmission of information:from mother cell to daughter cell,from one cell or tissue type to another,from one generation to the next,and from one species to another.This informational viewpoint is termed bioinformatics.,生物学研究可以被看成是研究信息的传递：从,DNA,经转录翻译到蛋白质，从细胞质中到细胞核内，从母细胞到子细胞，从一个细胞或一个组织到另一个细胞或另一个组织，从一代到下一代，从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信息学。,(Bioinformatic challenges for the next decade(s),David Eisenberg et al.,2006),生物信息学的主要研究内容,生物信息的存储与查询；,序列比对；,基因预测及基因组分析；,分子进化与系统发育分析；,RNA,结构预测；,蛋白质结构预测；,分子设计与药物设计；,生物网络；,生物芯片；,生物信息学的发展历程,1952,年，,Sanger,根据胰岛素蛋白质的测序结果，推断蛋白质是排列完美的分子。,-,最早的信息论观点。,1955,年，,Sanger,与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。,-,最早的序列比对。,1962,年，鲍林提出分子进化的理论，推测在人中可能存在,50,000100,000,个不同的基因,/,蛋白质。,-,分子进化理论的奠定。,1965,年，,Margaret Dayhoff,构建蛋白质序列图谱,1970,年，,Needleman-Wunsch,算法：全局优化比对。,1981,年，,Smith-Waterman,算法开发：局部优化比对。,1990,年，快速序列相似性搜索工具,BLAST,的开发,生物信息学发展过程中的里程碑性事件,过去,20,年的发展状况,最早的序列分析：胰岛素蛋白质,Insulin Chain A:8-10,位存在着不同（牛，,ASV,；猪，,TSI,；羊，,AGV,）,(,Brown,et al.,1955,),。,Made by GeneDoc,不同物种的系统发育分析,80,年代：,DNA,序列数据库,1.1974,年，,George I.Bell,等人收集,DNA,序列，构建,GenBank,数据库。,19821992,开发第一个版本。,2.1980,年，,EMBL,数据库成立。,3.1984,年，日本,DDBJ,数据库成立。,4.,核酸序列数据的去冗余：,Refseq,数据库，对于相同的序列只列一条目录。,核酸数据库数据的增长,获取序列及检索公共数据库,1.NCBI,：,Entrez,的开发，,D.Lipman,等人。,2.,提供关键字的搜索的方法。,3.“,硬搜索,”:,包含关键字的，完全匹配的结果。,4.“,软搜索,”:,与查询内容相关的信息。,5.,查询内容：基因,/,蛋白质的名称、标识符，文献、蛋白质结构，等等。,http:/www.ncbi.nlm.nih.gov/sites/gquery,序列比对工具的开发,1.1970,年，,Gibbs AJ,和,McIntyre GA,，点阵法进行氨基酸和核酸的序列比较：当相同的字母在两条序列中同时出现时，在交叉处置点。,2.1970,年，,Needleman-Wunsch,，全局优化的序列比对算法：允许匹配、错配和缺失。动态规划的算法：任务可分割，分成更小的子问题进行解决。,3.1981,年，,Smith-Waterman,，局部优化的序列比对算法。,4.FASTA&BLAST,的开发，启发式优化算法。,5.,多序列比对：,CLustalW/X,POA,MUSCLE.,AGCTAGGA,GACTAGGC,两条,DNA,序列的点阵法比较,Needleman-Wunsch,算法,GATCTA,GATCA,全局优化,vs.,局部优化,ACTGTTCCGAA,AGCCTGA,ACTACTG,100kbp,100kbp,ACGCCTG,ACTGTTCCGAA,AGCCTGA,ACTACTG,100kbp,100kbp,AC-GCC-TG,全局优化,ACTGTTCCGAA,A-GCCTGA,ACTACTG,100kbp,100kbp,ACGCCTG,局部优化,数据库中搜索相似序列,通过搜索数据库中相似序列发现基因功能。,例如反转录病毒编码的致癌基因,v-sis,和,v-src,通过和模式生物已知遗传或生化信息的基因序列进行相似性搜索，预测新基因功能。,FASTA,和,BLAST,FASTA:,以几个残基长度的,word,为单元进行检索；,W.Pearson,和,D.Lipman,开发。,BLAST:,应用最广泛的序列相似性搜索工具，相比,FASTA,有更多改进，速度更快。,PSI-BLAST,：位点特异性迭代,BLAST,PHI-BLAST,：模式发现迭代,BLAST,基于序列信息研究分子进化,1.,构建进化树，分析蛋白质的超家族及亚家族分类。,2.,寻找,Ortholog(,直系同源物,),或者,Paralog(,旁系同源物,),。,3.,分子进化树的构建方法：邻接法,(Neighbor-Joining),最大简约法,(Maximum Pasimony),，最大似然性法,(Maximum Likelihood),，以及贝叶斯类算法,(MCMC),。,4.,构建进化树的第一步：可靠的多序列比对。,RNA,二级结构的预测,1.RNA,分子中，如果存在重复且反向互补，则可以形成发卡结构。,2.,动态规划法：最多配对的碱基对。,3.,应用：构建,RNA,分子数据库。,RNA,的发卡二级结构,蛋白质结构预测,大量序列已知,vs,.,少量结构解析,实验方法测定：,X,射线晶体学，核磁共振等,三级结构主要由一级序列决定。,蛋白质折叠的类型相对有限,(1,000),。,蛋白质二级结构的预测,-,三级结构预测,基因芯片,抽提样本,RNA,，反转录成,cDNA,，荧光染料标记，标记量与,RNA,约成正比；,DNA,样品与芯片上探针杂交；,扫描芯片，测定荧光强度，评估检测样与对照样的基因表达量变化；,生物信息学的过去、现在和未来,生物信息学：学科交叉,生物信息学的相关知识储备,1.,生物学背景：,e.g.,分子生物学、细胞生物学、发育生物学、生物化学，,2.,数学知识：概率论与统计学等,3.,算法及编程能力：,JAVA,Perl/Python,，,PHP+MySQL,生物信息学的常用算法与方法,动态规划算法,(Dynamic programming),；,贝叶斯统计,(bayesian statistic),；,人工神经网络,(ANNs),；,马尔可夫模型和隐马尔科夫模型,(HMM),；,遗传算法,(Genetic Algorithm),；,蒙特卡洛方法,(Monte Carlo),；,模拟退火算法,(Simulated Annealing),；,支持向量机,(SVM);,科研机构及网络资源中心,NCBI,：,美国国立卫生研究院,NIH,下属国立生物技术信息中心,NCBI,。,http:/www.ncbi.nlm.nih.gov,EMBnet,：欧洲分子生物学网络,http:/www.embnet.org/,EMBL-EBI,：欧洲分子生物学实验室下属欧洲生物信息学研究所。,http:/www.ebi.ac.uk/,ExPASy:(Expert Protein Analysis System),瑞士生物信息研究所,SIB,下属的蛋白质分析专家系统；,http:/www.expasy.org/,科研机构及网络资源中心,Bioinformatics Links Directory,：,http:/bioinformatics.

展开阅读全文

中国科技大学课件系列：《生物信息学》01

最新文档