生物信息学-生物信息数据库及其信息检索课件

上传人:txadgkn****dgknqu... 文档编号:242597622 上传时间:2024-08-28 格式:PPTX 页数:61 大小:3.38MB
返回 下载 相关 举报
生物信息学-生物信息数据库及其信息检索课件_第1页
第1页 / 共61页
生物信息学-生物信息数据库及其信息检索课件_第2页
第2页 / 共61页
生物信息学-生物信息数据库及其信息检索课件_第3页
第3页 / 共61页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三章,生物信息数据库及其信息检索,生物科学与技术学院,第三章生物信息数据库及其信息检索生物科学与技术学院,本章主要内容,生物信息学数据库类型,序列数据库,结构数据库,功能数据库,其它专业数据库,生物信息学数据库的检索,检索方法概述,检索实践和案例,本章主要内容生物信息学数据库类型,生物信息学数据库的地位和作用,经典生物医学实验,大量零碎数据,数据收集整理,大规模组学实验,海量组学数据,数据存储、注释,数 据 库,生物医学应用,理论分析,检索查询,生物学研究,生物信息学数据库的地位和作用经典生物医学实验大量零碎数据数据,生物信息学数据库类型,核酸研究(,Nucleic Acids Research,)杂志的每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库,归类并展示在,http:/www.oxfordjournals.org/nar/database/c/,。,核酸序列数据库,RNA,序列数据库,蛋白质序列数据库,结构数据库,基因组数据库,(,非脊椎动物,),代谢与信号通路数据库,人类与其他脊椎动物基因组,人类基因与疾病,微阵列数据库与其他基因表达数据库,蛋白质组资源,其他分子生物学数据库,细胞器数据库,植物数据库,免疫学数据库,细胞生物学数据库,生物信息学数据库类型核酸研究(Nucleic Acids R,生物信息学数据库类型,序列数据库,结构数据库,功能数据库,其它专业数据库,生物信息学数据库类型序列数据库,Google vs Baidu,肤浅的百姓工具,他可以更厉害!甚至超过,windows,、,Linux,或,Mac,等操作系统,Google vs Baidu肤浅的百姓工具他可以更厉害!甚,一、序列数据库,主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列。,基因组序列数据库:,Genome Database(GDB),数据库,(,http:/www.ensemblgenomes.org/,),包括人、鼠、斑马鱼和果蝇,4,种真核生物基因组的注释分析。由,EMBL - EBI和Sanger,研究所联合开发,。,UCSC Genome Browser,(,http:/genome.ucsc.edu/,),加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,,,以及主要模式生物的基因组数据。,一、序列数据库主要收录核酸和蛋白质序列的数据库,包括由基因组,核酸序列数据库,GenBank,(,http:/www.ncbi.nlm.nih.gov/Genbank,),EMBL,(,http:/www.ebi.ac.uk/embl/,),DDBJ,(,http:/www.ddbj.nig.ac.jp/,),三个数据库每天互相交换数据,GenBank,可通过,NCBI,的检索系统,Entrez,获取,,Entrez,集成来自主要,DNA,和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息,其他,各种专业核酸数据库,非冗余参考序列数据库,RefSeq,密码子使用数据库,Codon Usage Database,CUTG,基因可变剪接数据库,ASDB,转录因子数据库,TRANSFAC,核酸序列数据库,NCBI,(National Center of Biotechnology Information),美国国立生物技术信息中心,NCBI (National Center of Biote,三大数据库之间的联系,三大数据库之间的联系,ATTGACTA,Primary,vs.,Derivative,Databases,ACGTGC,TTGACA,CGTGA,ATTGACTA,TATAGCCG,ACGTGC,ACGTGC,ACGTGC,TTGACA,TTGACA,TTGACA,CGTGA,CGTGA,CGTGA,ATTGACTA,ATTGACTA,ATTGACTA,ATTGACTA,TATAGCCG,TATAGCCG,TATAGCCG,TATAGCCG,GenBank,TATAGCCG,TATAGCCG,TATAGCCG,TATAGCCG,AT,GA,C,ATT,GA,GA,ATT,ATT,C,C,GA,GA,ATT,C,C,GA,GA,ATT,ATT,C,C,GA,GA,ATT,C,C,Sequencing,Centers,GA,GA,ATT,C,C,GA,GA,ATT,C,C,UniGene,RefSeq,Genome,Assembly,Labs,Curators,Algorithms,TATAGCCG,AGCTCCGATA,CCGATGACAA,ATTGACTAPrimary vs. Derivative,GenBank,中测序最多的,20,个物种,GenBank中测序最多的20个物种,human,Arabidopsis,Thermotoga maritima,Escherichia coli,Buchnera,sp. APS,Rickettsia prowazekii,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burgorferi,Borrelia burgorferi,Aquifex aeolicus,Neisseria meningitidis,Z2491,Mycobacterium tuberculosis,模式生物与基因测序,humanArabidopsisThermotoga mar,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs (base-pairs),10,4,10,8,10,5,10,6,10,7,10,11,10,10,10,9,bony fish,amphibians,virusesplasmidsbacteriafungipl,蛋白质序列数据库,UniProt,(,http:/www.uniprot.org,),由,Swiss-Prot,、,TrEMBL,和,PIR,蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(,1,),UniProtKB,,知识库(,2,),UniRef,:参考簇(,3,),UniParc,,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。,IPI,(,http:/www.ebi.ac.uk/IPI/,),国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(,SwissProt,,,Refseq,,,PIR,,,TrEMBL,,,RefSeq,,,Ensembl,,,H-Inv DB,翻译的蛋白数据),整合过程中,直接接受手工注释结果。,Nr,(,http:/www.ncbi.nlm.nih.gov/refseq/,),NCBI,构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的,gi,号,并将序列完全一致的非冗余蛋白质合并成簇。,蛋白质序列数据库,二、结构数据库,核酸和蛋白质的空间结构数据库,一般通过,X,射线衍射和核磁共振获得数据,也有同源建模等计算方法获得。,结构数据库,(,核酸,),NDB,核酸结构数据库(,http:/ndbserver.rutgers.edu/,),收录核酸的晶体结构数据,包含,X,射线衍射和核磁共振的结果,可通过,ADIT (the AutoDep Input Tool),同时将结构存储到,NDB,和,PDB,中,提供序列号检索功能,可以用,NDB,或,PDB,的,ID,号检索,结果包含核酸结构的简要信息和图片,Rfam,数据库(,http:/rfam.sanger.ac.uk/,),RNA,家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码,RNA,家族的变异模式,二、结构数据库核酸和蛋白质的空间结构数据库,一般通过X射线衍,结构数据库(蛋白质),PDB,(,http:/www.rcsb.org/pdb/,),RCSB(Research Collaboratory for Structural Bioinformatics),专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及,PDB,数据文件格式和其它文档的说明,使用软件可对,PDB,数据库记录用多种模式显示生物大分子三维结构。,蛋白质结构分类数据库,SCOP,(,http:/scop.mrc-lmb.cam.ac.uk/scop/,),包含从,PDB,数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系,MMDB NCBI,的分子模型数据库。,NCBI,蛋白结构数据库(,http:/www.ncbi.nlm.nih.gov/sites/entrez?db=structure/,),包括由,x,射线衍射和核磁共振实验得到的所有,PDB,生物分子三维结构,与原始的,PDB,结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与,MEDLINE,相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。,结构数据库(蛋白质),三、功能数据库,收录生物分子的功能数据,由,ID,号与序列和结构数据链接,组织表达谱和亚细胞定位,根据不同组织中的,EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱:,BodyMap,(,http:/bodymap.ims.u-tokyo.ac.jp/,),Unigene,(,http:/www.ncbi.nlm.nih.gov/sites/entrez?db=unigene,),SAGEmap,(,http:/www.ncbi.nlm.nih.gov/projects/SAGE/,),GEO,(,http:/www.ncbi.nlm.nih.gov/projects/geo/,),Stanford Microarray Database,(,http:/genome-www.stanford.edu/microarray,),三、功能数据库 收录生物分子的功能数据,由ID号与序列和结构,亚细胞定位数据库,PSORTdb,(,http:/db.psort.org/,),DBSubLoc,(, LIGAND数据库收录关于化学物质、酶分子和酶反应等信息,。,蛋白质-蛋白质相互作用数据库,反应通路,(KEGG),glycolysis pathway(,糖酵解,),京都基因与基因组百科全书,(Kyoto Encyclopedia of Genes and Genomes),反应通路(KEGG)glycolysis pathway(糖,全细胞通路,全细胞通路,四、其它专业数据库,人类基因和疾病数据库,OMIM,(,http:/www.ncbi.nlm.nih.gov/sites/entrez?db=omim,),收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息,dbSNP,(,http:/www.ncbi.nlm.nih.gov/sites/entrez?db=,SNP,),收录已经识别的,SNPs,的数据库,HapMap Project(,http:/snp.cshl.org,),收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具有相对代表性,CGED(,http:/lifesciencedb.jp/cged/,),收录多种癌症的临床和基因表达数据,,,更新到2007年,四、其它专业数据库 人类基因和疾病数据库,基于电泳和生物质谱的蛋白质组数据库,SWISS-2DPAGE,(,http:/www.expasy.org/ch2d/,),收录各种双向电泳或,SDS,的电泳图,并提供蛋白在电泳图中的位置及其信息,PRIDE,(,http:/www.ebi.ac.uk/pride/,),数据库收集国际蛋白质组计划所产出的鉴定结果数据,PeptideAtlas,(,http:/www.peptideatlas.org/,),收录大规模,LC-MS/MS,实验鉴定的蛋白信息,并将信息匹配到,Ensembl,数据库,dbLEP,(,),为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,,更新到2007年,基于电泳和生物质谱的蛋白质组数据库,免疫学数据库,IMGT(,http:/imgt.cines.fr,),关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成,dbMHC(,http:/www.ncbi.nlm.nih.gov/mhc/,),提供人类组织相容性抗原(HLA)的序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频率的遗传检测工具,免疫学数据库,Taxonomy,分类学数据库,Taxonomy 分类学数据库,北京华大基因研究中心,(,中科院基因组研究所,),杨焕明, 孙之荣, 罗静初, 钟扬, 杨焕明 http,生物信息学数据库的检索,检索方法概述,检索实践和案例,生物信息学数据库的检索检索方法概述,生物信息学数据库的检索,主要检索系统和工具,Entrez(,National Center for Biotechnology Information, NCBI,),SRS(European Bioinformatics Institute, EBI,),ExPasy,Ex,pert,P,rotein,A,nalysis,Sy,stem (Swiss Institute of Bioinformatics, SIB),日本、欧洲、美国其他研究机构的工具平台,生物信息学数据库的检索 主要检索系统和工具,复杂检索,1,、限制字段类别,常用的有,: Author: Bao YMau,Title: stressti,Tilte/Abstract,:,stresstitle/abstract,Date: 1999:2009dp,2,、布尔逻辑运算:,AND,、,OR,、,NOT,必须大写。,逻辑符的运算次序是从,左至右,,括号内的检索式可作为一个单元,优先运行。,布尔逻辑检索允许在检索词后面附加,字段标识,例如:,riceti AND Bao YMau AND 2008:2009dp,复杂检索1、限制字段类别,同样存在限制字段,:,常用的有,: Author: Bao YMau,title: SNAREti,organism: riceorganism,或者直接输入,:,Accession: AY077725Accession,Gene Name: ZFP15Gene Name,Protein Name: ZFP15Protein Name,如,: Bao YMau AND SNAREti AND riceorganism,如果没有限定,就是任意字段。,如何获取,GenBank,中的序列,?,同样存在限制字段:如何获取GenBank中的序列?,Entrez(,National Center for Biotechnology Information, NCBI,),http:/www.ncbi.nlm.nih.gov,选择数据库,当没有进入号时输入关键词(英文和拉丁文),当有进入号时输入进入号,可编译,Entrez(National Center for Bio,NCBI,主页最下面的区域,是,NCBI,的快捷连接区域,NCBI主页最下面的区域,是NCBI的快捷连接区域,举例:,GAPDH,或,g3pdh,是甘油醛,-3-,磷酸脱氢酶(,glyceraldehyde-3-phosphate dehydrogenase,)的英文缩写。该酶是糖酵解反应中的一个酶。该酶基因为管家(,house keeping,)基因,几乎在所有组织中都高水平表达,在同种细胞或者组织中的蛋白质表达量一般是恒定的,且不受含有的部分识别位点、佛波脂等的诱导物质 的影响而保持恒定,故被广泛用作抽提,total RNA,,,poly(A)+ RNA,,,Western blot,等实验操作的标准化的内参。,GAPDH,一般是由,4,个相同亚基组成的四聚体,每个亚基均含有催化结构域和辅酶结合域。,GAPDH,与辅酶,烟酰胺腺嘌呤二核苷酸,(,NAD+,)组成全酶才具有催化活性。,举例:,基因序列搜索,基因序列搜索,生物信息学-生物信息数据库及其信息检索课件,生物信息学-生物信息数据库及其信息检索课件,STS,序列标签位点(,sequence-tagged site,),是已知核苷酸序列的,DNA,片段,是基因组中任何单拷贝的短,DNA,序列,长度在,100,500bp,之间。任何,DNA,序列,只要知道它在基因组中的位置,都能被用作,STS,标签。作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每,1kb,一个,STS,或更密集。,这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在,PCR,反应中可以检测出,STS,来,,STS,适宜于作为人类基因组的一种地标,据此可以判定,DNA,的方向和特定序列的相对位置。,STS序列标签位点(sequence-tagged site,不能用任何其它的特征关键词表述的具有生物学意义的区域,;,新的或少见的特征,不能用任何其它的特征关键词表述的具有生物学意义的区域;新的或,生物信息学-生物信息数据库及其信息检索课件,蛋白序列搜索,蛋白序列搜索,生物信息学-生物信息数据库及其信息检索课件,生物信息学-生物信息数据库及其信息检索课件,蛋白质结构搜索,蛋白质结构搜索,生物信息学-生物信息数据库及其信息检索课件,MMDB ID:34532,PDB ID:1U8F,MMDB ID:34532,Nicotinamide-Adenine-Dinucleotide,烟酰胺腺嘌呤二核苷酸,O,、,P,、,Q,和,R,为,GAPDH,的四个亚基蛋白链,其和,1,(烟酰胺腺嘌呤二核苷酸)的相互作用关系,Nicotinamide-Adenine-Dinucleot,课堂练习:,Homo sapiens p53,,人体抑癌基因,该基因编码一种分子量为,53kDa,的蛋白质,命名为,P53,。,p53,基因的失活对肿瘤形成起重要作用。但是事物必然有它的两个方面,,p53,是一个重要的抗癌基因使癌细胞自杀,防止癌变;还具有帮助细胞基因修复缺陷的功能。,基因序列搜索,标注(,Search the target gene,,,and annotate the gene,),蛋白序列搜索,标注(,Search the target protein,,,and annotate the protein,),蛋白质结构搜索,标注(,Search the structure of the target protein,,,and annotate it,),Question:,从小鼠中查找,Bao,实验室发布的,p53,蛋白相关的,DNA,序列,.,课堂练习:Homo sapiens p53,人体抑癌基因,该,一些生物信息学相关的名词和知识,一些生物信息学相关的名词和知识,参考,P74,,关键字的定义,Attenuator,:,region of DNA at,which regulation of termination of transcription occurs, which,controls the expression of some bacterial operons, sequence segment located,between the promoter and the first structural gene,that causes partial termination of transcription.,Enhancer,:,a cis-acting sequence that,increases the utilization of eukaryotic promoters, and can function in,either orientation,and,in any location (upstream or downstream) relative to the promoter.,Promoter,:,region on a DNA molecule involved in RNA polymerase binding to initiate transcription.,Terminator,:,sequence of DNA located either at the end of the transcript that causes RNA polymerase to terminate transcription.,polyA-signal,:,recognition region necessary for endonuclease cleavage of an RNA transcript that is followed by polyadenylation, consensus=AATAAA.,参考P74,关键字的定义Attenuator:region,Promoter,Enhancer,Gene,Terminator,Transcription unit,+1,-1,Downstream sequence,Upstream sequence,-10,Transcription start site,Regulatory element,-2,-3,-4,-5,-6,-7,-8,-9,-11,-12,-13,-14,-16,-17,+2,+3,+4,+5,+6,+7,+8,polyA-signal,Attenuator,调节,基因,阻遏子,启动子,操纵基因,终止子,lac,Z,lac,Y,lac,A,lac,操纵元,Attenuator,AAAAAAA,endonuclease cleavage,endonuclease,PromoterEnhancerGeneTerminator,CAAT-signal,:,CAAT box, part of a conserved sequence located about 75bp up-stream of the star point of,eukaryotic,transcription units,which may be involved in RNA polymerase binding, consensus=GG(C or T)CAATCT.,GC-signal,:,GC box, a conserved GC-rich region located upstream of the start point of,eukaryotic transcription units,which may occur in multiple copies or in either orientation, consensus=GGGCGG.,TATA-signal,:,TATA box, Goldberg-Hogness box, a conserved AT-rich septamer found about 25bp before the start point of each eukaryotic RNA polymerase transcript unit which may be involved in positioning the enzyme for correct initiation, consensus=TATA(A or T)A(A or T).,-10-signal,:,pribnow box, a conserved region about 10bp upstream of the start point of,bacterial transcription units,which may be involved in binding RNA polymerase, consensus=TAtAaT.,-35-signal,:,a conserved hexamer about 35bp upstream of the start point of,bacterial transcription units, consensus=TTGACa,CAAT-signal:CAAT box, part of,+1,-50,Transcription start site,-25,-75,-100,Hogness box,GC box,GC box,CAAT box,+1,-50,Transcription start site,-25,-100,-190,Core promoter,GC box,GC box,Upstream control element,GC box,GC box,GC box,Basal promoter,Upstream element,Downstream element,+50,Transcription start site,+1,Hogness box,Octamer motif,Intragenic promoter,+90,PSE,A box,C box,IE,Class promoter,Class,promoter,Class,promoter,eukaryotic,transcription units,+1-50Transcription start site-,P,R,:,TTATTCCATGTCACACTTT TCGCATCTTTGTTATGCTAT GGTT,A,TTTCATACCAT,+1,Transcription start site,-10,Pribnow box,-35,GACA box,GTGCGTGTTGACTATTTTA CCTCTGGCGGTGATAATGG TTGC,A,TGTACTAAGGA,GGCGGTGTTGACATAAATA CCACTGGCGGTGATACTGA GCAC,A,TCAGCAGGACG,TGAGCTGTTGACAATTAAT CATCGAACTAGTTAACTAG TACGC,A,AGTTCACGTAA,CCCAGGCTTTACACTTTAT GCTTCCGGCTCGTATGTTGT GTGG,A,ATTGTGAGCGG,CCCAGGCTTTACACTTTAT GCTTCCGGCTCGTATAATGT GTGG,A,ATTGTGAGCGG,TTTCCTCTTGTCAGGCCGG AATAACTCCCTATAATGCGCCACC,A,CTGACACGGAA,TAAATGCTTGACTCTGTAG CGGGAAGGCGTATTATGC ACACC,T,CGCGCCGCTGA,TCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTA TTTC,A,TACCATAAGCC,P,L,:,trp,:,lac,:,lac,UV5,:,rrn,A1,:,rrn,A2,:,gal,P1,:,gal,P2,:,bacterial transcription units,PR:TTATTCCATGTCACACTTT TCGCAT,-35,TTGACA,TATAAT,+20,+1,-10,原核生物的,RNA,聚合酶全酶及其在转录起始区的结合,-35TTGACATATAAT+20+1-10原,(,1,)开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。,(,2,),CDS,,是编码一段蛋白产物的序列。,(,3,),CDS,可能是一个,ORF,,但也可能包括多个,ORF,。,(,4,)反之,每个,ORF,不一定都是,CDS,。,CDS,:,coding sequence, sequence of nucleotides that corresponds with the sequence of amino acids in a protein (location includes stop codon), feature includes amino acid conceptual translation.,Open reading frame (ORF),:,a reading frame that does not contain a nucleotide triplet which stops translation before formation of a complete polypeptide.,(1)开放读码框是从一个起始密码子开始到一个终止密码子结束的,LTR,:,long terminal repeat, a sequence directly repeated at both ends of a defined sequence, of the sort typically found in retroviruses.,反转录病毒的基因组的两端各有一个长末端重复序列,(5LTR,和,3LTR),,不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的,LTR,可转移到细胞原癌基因邻近处,使这些原癌基因在,LTP,强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。,The HIV-1 LTR is approximately 640 bp in length and, like other retroviral LTRs, is segmented into the U3, R, and U5 regions.,LTR:long terminal repeat, a se,5 clip,:,5-most,region of a precursor transcript that is clipped off during processing.,3 clip,:,3-most region of a precursor transcript that is clipped off during processing.,5UTR,:,region at the 5 end of a mature transcript (preceding the initiation codon) that is not translated into a protein.,3UTR,:,region at the 3 end of a mature transcript (following the stop codon) that is not translated into a protein.,Prim-transcript,:,primary (initial, unprocessed) transcript, includes 5 clip, 5UTR, CDS, exon, intron, 3UTR, and 3 clip.,5 clip,3 clip,5UTR,3UTR,exon1,Exon2,Exon3,Prim-transcript,5 clip:5-most region of a pr,Exon,:,region of genome that codes for portion of spliced mRNA, rRNA and tRNA, may contain 5UTR, all CDSs and 3UTR.,Intron,:,a segment of DNA that is transcribed, but removed from within the transcript by splicing together the sequence (exons) on either side of it.,Exon 1,Exon 3,I,I,I,I,Exon 2,5UTR,3UTR,Splicing,Exon 1,Exon 3,Exon 2,Exon 1,Exon 3,Exon 2,Exon 1,Exon 2,Exon 3,Exon 2,Exon 1,Exon 3,Exon:region of genome that cod,Misc-binding,:,site in nucleic acid which covalently or non-covalently binds another moiety that cannot be described by any other binding key (primer-bind or protein-bind).,Misc-feature,:,region of biological interest which cannot be described by any other feature key, a new or rate feature.,Misc-RNA,:,any transcript or RNA product that cannot be defined by other RNA keys (prim-transcript, precursor-RNA, mRNA, 5clip, 3clip, 5UTR, 3UTR, exon, CDS, sig-peptide, transit-peptide, mat-peptide, intron, polyA-site, rRNA, tRNA, scRNA and snRNA).,Misc-signal,:,any region containing a signal controlling or altering gene function or expression that cannot be described by other signal keys (promoter, CAAT-signal, TATA-signal, -35-signal, -10-signal, GC-signal, RBS, polyA-signal, enhancer, attenuator, terminator, and rep-origin).,Misc-binding:site in nucleic a,Stem-loop,:,hairpin, a double-helical region formed by base-pairing between adjacent (inverted) complementary sequences in a single strand of RNA or DNA.,5TGGAATTGTGAGCGGATAACAATT,3ACCTTAACACTCGCCTATTGTTAA,5,3,T,A,G,C,G,C,A,T,A,T,T,A,T,A,G,C,T,A,G,A,G,C,G,G,A,T,A,T,T,A,A,C,A,A,A,T,T,G,T,C,G,T,T,C,C,C,T,A,Stem-loop,Stem-loop,3,5,Stem-loop:hairpin, a double-he,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!