中国科技大学课件系列:《生物信息学》01

上传人:沈*** 文档编号:244376903 上传时间:2024-10-04 格式:PPT 页数:41 大小:1.29MB
返回 下载 相关 举报
中国科技大学课件系列:《生物信息学》01_第1页
第1页 / 共41页
中国科技大学课件系列:《生物信息学》01_第2页
第2页 / 共41页
中国科技大学课件系列:《生物信息学》01_第3页
第3页 / 共41页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物信息学,(Bioinformatics),第一章:概论,背景,人类基因组计划,(Human Genome Project,HGP),:,1990,年正式启动,旨在完成人类基因组约,30,亿个碱基的全序列测定。,海量生物数据的迅速膨胀:,DNA,、,RNA,和蛋白质序列,蛋白质二级结构和三维结构数据,蛋白质相互作用数据等。,对大量生物数据的管理、分析和信息化需求促进了生物信息学的迅速发展。,人类基因组计划,HGP(,Human Genome Project,),由美国,NIH,和能源部提出和带头,美、英、德、法、日、中共同参与的国际合作项目。,重大国际研究项目:测定人类基因组全部,DNA,序列,构建人类基因组遗传图谱和物理图谱。,1990,年:正式启动,,30,亿美元。,2001,年:人类基因组草图公开发表。,2003,年:美国宣布该项目完成。,生物信息学定义的历史演变,定义一:生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科(,Bioinformatics is a new subject of genetic data collection,analysis and dissemination to the research community,)。,(Dr.Hwa A.Lim,,,1987),定义二:生物信息学特指数据库类的工作,包括持久稳固的在一个稳定的地方提供对数据的支持(,Bioinformatics refers to database-like activities,involving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time,)。,(Dr.Hwa A.Lim,,,1994),定义三:生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。,(Luscombe,2001),什么是生物信息学?,Bioinformatics is the field of science in which biology,computer science,and information technology merge into a single discipline.The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.,Biology in the 21st century is being transformed from a purely lab-based science to an information science as well.,from NCBIs science primer,www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html,什么是生物信息学?,生物信息学是一门交叉学科,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。,(,美国人类基因组计划第一个五年总结报告,,1995),广义生物信息学观点,Biology may be viewed as the study of transmission of information:from mother cell to daughter cell,from one cell or tissue type to another,from one generation to the next,and from one species to another.This informational viewpoint is termed bioinformatics.,生物学研究可以被看成是研究信息的传递:从,DNA,经转录翻译到蛋白质,从细胞质中到细胞核内,从母细胞到子细胞,从一个细胞或一个组织到另一个细胞或另一个组织,从一代到下一代,从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信息学。,(Bioinformatic challenges for the next decade(s),David Eisenberg et al.,2006),生物信息学的主要研究内容,生物信息的存储与查询;,序列比对;,基因预测及基因组分析;,分子进化与系统发育分析;,RNA,结构预测;,蛋白质结构预测;,分子设计与药物设计;,生物网络;,生物芯片;,生物信息学的发展历程,1952,年,,Sanger,根据胰岛素蛋白质的测序结果,推断蛋白质是排列完美的分子。,-,最早的信息论观点。,1955,年,,Sanger,与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。,-,最早的序列比对。,1962,年,鲍林提出分子进化的理论,推测在人中可能存在,50,000100,000,个不同的基因,/,蛋白质。,-,分子进化理论的奠定。,1965,年,,Margaret Dayhoff,构建蛋白质序列图谱,1970,年,,Needleman-Wunsch,算法:全局优化比对。,1981,年,,Smith-Waterman,算法开发:局部优化比对。,1990,年,快速序列相似性搜索工具,BLAST,的开发,生物信息学发展过程中的里程碑性事件,过去,20,年的发展状况,最早的序列分析:胰岛素蛋白质,Insulin Chain A:8-10,位存在着不同(牛,,ASV,;猪,,TSI,;羊,,AGV,),(,Brown,et al.,1955,),。,Made by GeneDoc,不同物种的系统发育分析,80,年代:,DNA,序列数据库,1.1974,年,,George I.Bell,等人收集,DNA,序列,构建,GenBank,数据库。,19821992,开发第一个版本。,2.1980,年,,EMBL,数据库成立。,3.1984,年,日本,DDBJ,数据库成立。,4.,核酸序列数据的去冗余:,Refseq,数据库,对于相同的序列只列一条目录。,核酸数据库数据的增长,获取序列及检索公共数据库,1.NCBI,:,Entrez,的开发,,D.Lipman,等人。,2.,提供关键字的搜索的方法。,3.“,硬搜索,”:,包含关键字的,完全匹配的结果。,4.“,软搜索,”:,与查询内容相关的信息。,5.,查询内容:基因,/,蛋白质的名称、标识符,文献、蛋白质结构,等等。,http:/www.ncbi.nlm.nih.gov/sites/gquery,序列比对工具的开发,1.1970,年,,Gibbs AJ,和,McIntyre GA,,点阵法进行氨基酸和核酸的序列比较:当相同的字母在两条序列中同时出现时,在交叉处置点。,2.1970,年,,Needleman-Wunsch,,全局优化的序列比对算法:允许匹配、错配和缺失。动态规划的算法:任务可分割,分成更小的子问题进行解决。,3.1981,年,,Smith-Waterman,,局部优化的序列比对算法。,4.FASTA&BLAST,的开发,启发式优化算法。,5.,多序列比对:,CLustalW/X,POA,MUSCLE.,AGCTAGGA,GACTAGGC,两条,DNA,序列的点阵法比较,Needleman-Wunsch,算法,GATCTA,GATCA,全局优化,vs.,局部优化,ACTGTTCCGAA,AGCCTGA,ACTACTG,100kbp,100kbp,ACGCCTG,ACTGTTCCGAA,AGCCTGA,ACTACTG,100kbp,100kbp,AC-GCC-TG,全局优化,ACTGTTCCGAA,A-GCCTGA,ACTACTG,100kbp,100kbp,ACGCCTG,局部优化,数据库中搜索相似序列,通过搜索数据库中相似序列发现基因功能。,例如反转录病毒编码的致癌基因,v-sis,和,v-src,通过和模式生物已知遗传或生化信息的基因序列进行相似性搜索,预测新基因功能。,FASTA,和,BLAST,FASTA:,以几个残基长度的,word,为单元进行检索;,W.Pearson,和,D.Lipman,开发。,BLAST:,应用最广泛的序列相似性搜索工具,相比,FASTA,有更多改进,速度更快。,PSI-BLAST,:位点特异性迭代,BLAST,PHI-BLAST,:模式发现迭代,BLAST,基于序列信息研究分子进化,1.,构建进化树,分析蛋白质的超家族及亚家族分类。,2.,寻找,Ortholog(,直系同源物,),或者,Paralog(,旁系同源物,),。,3.,分子进化树的构建方法:邻接法,(Neighbor-Joining),最大简约法,(Maximum Pasimony),,最大似然性法,(Maximum Likelihood),,以及贝叶斯类算法,(MCMC),。,4.,构建进化树的第一步:可靠的多序列比对。,RNA,二级结构的预测,1.RNA,分子中,如果存在重复且反向互补,则可以形成发卡结构。,2.,动态规划法:最多配对的碱基对。,3.,应用:构建,RNA,分子数据库。,RNA,的发卡二级结构,蛋白质结构预测,大量序列已知,vs,.,少量结构解析,实验方法测定:,X,射线晶体学,核磁共振等,三级结构主要由一级序列决定。,蛋白质折叠的类型相对有限,(1,000),。,蛋白质二级结构的预测,-,三级结构预测,基因芯片,抽提样本,RNA,,反转录成,cDNA,,荧光染料标记,标记量与,RNA,约成正比;,DNA,样品与芯片上探针杂交;,扫描芯片,测定荧光强度,评估检测样与对照样的基因表达量变化;,生物信息学的过去、现在和未来,生物信息学:学科交叉,生物信息学的相关知识储备,1.,生物学背景:,e.g.,分子生物学、细胞生物学、发育生物学、生物化学,,2.,数学知识:概率论与统计学等,3.,算法及编程能力:,JAVA,Perl/Python,,,PHP+MySQL,生物信息学的常用算法与方法,动态规划算法,(Dynamic programming),;,贝叶斯统计,(bayesian statistic),;,人工神经网络,(ANNs),;,马尔可夫模型和隐马尔科夫模型,(HMM),;,遗传算法,(Genetic Algorithm),;,蒙特卡洛方法,(Monte Carlo),;,模拟退火算法,(Simulated Annealing),;,支持向量机,(SVM);,科研机构及网络资源中心,NCBI,:,美国国立卫生研究院,NIH,下属国立生物技术信息中心,NCBI,。,http:/www.ncbi.nlm.nih.gov,EMBnet,:欧洲分子生物学网络,http:/www.embnet.org/,EMBL-EBI,:欧洲分子生物学实验室下属欧洲生物信息学研究所。,http:/www.ebi.ac.uk/,ExPASy:(Expert Protein Analysis System),瑞士生物信息研究所,SIB,下属的蛋白质分析专家系统;,http:/www.expasy.org/,科研机构及网络资源中心,Bioinformatics Links Directory,:,http:/bioinformatics.
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!