GenBank数据库检索

上传人:gb****c 文档编号:243404423 上传时间:2024-09-22 格式:PPT 页数:67 大小:3.84MB
返回 下载 相关 举报
GenBank数据库检索_第1页
第1页 / 共67页
GenBank数据库检索_第2页
第2页 / 共67页
GenBank数据库检索_第3页
第3页 / 共67页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,GenBank,数据库检索及其应用,Entrez,检索功能,1,NCBI,网站网址:,2,简介,检索入口,基本检索功能,特征栏辅助检索,检索结果的显示,3,GenBank,数据库是由美国国立生物技术信息中心(,NCBI,)维护的一级核酸序列数据库。,GenBank,数据库的数据来源有三种:,1,、直接来源于测序工作者提交的序列;,2,、与其它数据机构协作交换的数据;,3,、美国专利局提供的专利数据。,简介,4,检索界面,简介,1,、基本检索界面,5,6,Nucleotide,数据库分为三个子数据库:,EST,:,表达序列标记数据库,GSS,:,基因组测序序列数据库,CoreNucleotide,:,包含所有未被以上两个子数据库收录的核苷酸序列,7,8,检索界面,简介,1,、基本检索界面,2,、跨库检索界面,9,10,简介,检索界面,基本检索功能,(一)字段限制检索、强制短语检索,(二)特殊标志符检索,(四)范围检索,(三)序列长度检索,11,简介,检索界面,基本检索功能,(一)字段限制检索、强制短语检索,12,13,14,rasGENE,15,16,17,检索限定词:,1,、基因名称的检索限定词:,GENE or GENE NAME,2,、生物体名称的检索限定词:,ORGN or ORGANISM,3,、作者姓名的检索限定词:,AUTH or AUTHOR,18,获取所需要的基因序列,19,显示方式,序列号,物种信息,作者信息,20,选择显示模式为,FASTA,序列信息,21,保存序列信息,点击,send,选择,file,,格式为,FASTA,22,选择显示方式为,Graphics,编码蛋白质的序列信息,点击显示蛋白质编码序列,23,蛋白质氨基酸序列,24,简介,检索界面,基本检索功能,(二)特殊标志符检索,(一)字段限制检索、强制短语检索,25,特殊标志符的格式,(,核酸序列,),:,2,、,GenBank/EMBL/DDBJ,序列接受号:,(1) 1,个字母,+5,个阿拉伯数字,e.g.,:,U12345,(2) 2,个字母,+6,个阿拉伯数字,e.g.,:,AY123456,,,Af123456,1,、序列辨认号,(GI),:一串阿拉伯数字,e.g.,:,26,(,1,),mRNA,记录(,NM_*,),:,e.g.: NM_000492,(,2,)基因组的,DNA,重叠群(,NT_*,),:,e.g.: NT_000347,(,3,)完整的基因组或染色体(,NC_*,),:,e.g.: NC_000907,(,4,)基因组的局部区域(,NG_*,),:,e.g.: NG_000019,(,5,)从人类基因组注释、加工得到的序列模型(,XM,,,XP,,,or XR_*,):,e.g.: XM_000483,特殊标志符的格式,(核酸序列):,3,、,RefSeq,(,Reference Sequence,),序列接受号,:,27,特殊标志符的格式,(核酸序列):,4,、,PDB,序列接受号:个阿拉伯数字个字母,e.g.,:,TUP,序列接受号的检索限定词为,ACCN or ACCESSION,28,简介,检索界面,基本检索功能,(一)字段限制检索、强制短语检索,(二)特殊标志符检索,(三)序列长度检索,29,序列长度的检索限定词:,SLEN,30,31,简介,检索界面,基本检索功能,(一)字段限制检索、强制短语检索,(二)特殊标志符检索,(四)范围检索,(三)序列长度检索,32,范围检索:中间用冒号连接,1,、序列接受号范围检索:,AF114696:AF114714ACCN,2,、序列长度范围检索:,3000,:,4000SLEN,3,、日期范围检索:,2005/01,:,2006/09/26MDATorPDAT,33,简介,检索界面,基本检索功能,特征栏辅助检索,限制检索,(,Limits,),高级检索(,Advanced Search,),检索史管理,(,History,),剪贴板管理,(,Clipboard,),详细匹配过程,(,Details,),34,限制检索,高级检索,35,简介,检索界面,基本检索功能,特征栏辅助检索,限制检索,(,Limits,),36,排除某种类型的序列,限制分子类型,限制基因位点,限制序列片段的显示,限制数据来源,限制数据发布日期,限制数据修订日期,37,简介,检索界面,基本检索功能,特征栏辅助检索,限制检索,(,Limits,),高级检索(,Advanced Search,),38,预检索输入框,添加检索词,索引检索,39,40,41,预检索结果,42,简介,检索界面,基本检索功能,特征栏辅助检索,限制检索,(,Limits,),高级检索(,Advanced Search,),检索史管理,(,History,),43,44,简介,检索界面,基本检索功能,特征栏辅助检索,限制检索,(,Limits,),高级检索(,Advanced Search,),检索史管理,(,History,),剪贴板管理,(,Clipboard,),45,46,简介,检索界面,基本检索功能,特征栏辅助检索,限制检索,(,Limits,),高级检索(,Advanced Search,),检索史管理,(,History,),详细匹配过程,(,Details,),剪贴板管理,(,Clipboard,),47,48,简介,检索入口,基本检索功能,特征栏辅助检索,检索结果的显示,49,50,51,序列相似性搜索,启动相似性搜索,52,输入序列号,选择搜索的数据集,点击开始搜索,53,54,相似性序列信息,55,56,GenBank,记录中特性表中的主要关键词,:,关键词,解 释,关键词,解 释,misc_feature,生物学特性无法用特性表关键词描述的序列,promoter,转录起始区,misc_difference,序列特性无法用特性表关键词描述的序列,CAAT_signal,真核启动子上游的,CAAT,盒,与,RNA,结合相关,conflict,同一序列在不同的研究中在位点或区域上有差异,TATA_signal,真核启动子的,TATA,盒,unsure,序列不能确定的区域,-35_signal,原核启动子中的,-35,框,old_sequence,该序列对以前的版本做过修订,-10_signal,原核启动子的,Pribow,盒,variation,包含稳定突变的序列,GC_signal,真核启动子的,GC,盒,modified_base,修饰过的核苷酸,RBS,核糖体结合位点,gene,已识别为基因或已命名的序列区域,polyA_signal,RNA,转录本的剪切识别位点,misc_signal,无法用信号特性关键词描述的信号序列,enhancer,增强子,57,关键词,解 释,关键词,解 释,attenuator,与转录终止有关的序列,CDS,蛋白质编码序列,terminator,转录终止序列,sig_peptide,编码信号肽的序列,rep_origin,双链,DNA,复制起始区,transit_peptide,转运蛋白编码序列,misc_RNA,无法用,RNA,关键词描述的转录物或,RNA,产物,mat_peptide,编码成熟肽的序列,prim_transcript,初始转录本,intron,内含子,precursor_RNA,前体,RNA,polyA_site,RNA,转录本的多聚腺苷酸化位点,mRNA,信使,RNA,rRNA,核糖体,RNA,5clip,前体转录本中被剪切掉的,5,端序列,tRNA,转运,RNA,3 clip,前体转录本中被剪切掉的,3,端序列,scRNA,小细胞质,RNA,5UTR,5,非翻译区,snRNA,小核,RNA,3UTR,exon,3,非翻译区,外显子,snoRNA,加工和修饰,rRNA,的小核,RNA,58,关键词,解 释,关键词,解 释,immunoglobulin_related,repeat_unit,单个的重复元件,C_region,免疫相关蛋白上的不变区,LTR,长末端重复序列,D_segment,免疫球蛋白重链的可变区,,T,细胞受体,链,Satellite,卫星重复序列,J_ segment,免疫球蛋白重链、轻链以及,T,细胞,、,、,的结合链,misc_binding,无法描述的核酸序列结合位点,N_ region,插入重排免疫球蛋白片段间的核苷酸,primer_bind,复制、转录的引物结合位点,S_ region,免疫球蛋白重链的开关区,protein_bind,蛋白质结合区,V_ region,编码免疫球蛋白的可变区,N,末端的序列,STS,测序标签位点,V_ segment,编码免疫球蛋白的可变区的序列,misc_recomb,无法用重组特性关键词描述的重组事件,repeat_region,基因组中所包含的重复序列,iDNA,通过重组所消除的,DNA,59,关键词,解 释,关键词,解 释,misc_structure,无法用结构关键词描述的核酸序列高级结构或构型,stem_loop,发夹结构,D_loop,线粒体中,DNA,中的取代环,GenBank,记录中特性表中的限定词,:,限定词,含 义,限定词,含 义,/allele=,给定基因的等位基因,/codon_start=,相对于序列第一个碱基,编码序列密码子的偏移量,/bound_moiety=,嵌合范围,/country=,DNA,样本的来源国,/cell_type=,获得序列的细胞类型,/db_xref=,其他数据库信息的交叉索引号,/citation=,已被引用的参考文献数,/direction=,DNA,复制方向,/clone_lib=,获得序列的克隆文库,/environmental_sample=,序列直接从环境材料中获得而没有指明来源物种,60,限定词,含 义,限定词,含 义,/exception=,指明,DNA,序列未按通常的生物学规律翻译,如,RNA,编辑,/PCR_conditi-ons=,描述,PCR,的反应条件,/frequency=,在种群中发生变异的频率,/pop_variant=,获得序列的群体变异种名称,/germline,如果序列是,DNA,并来源于免疫球蛋白家族,则表示该序列来源于未重排,DNA,/product=,序列编码产物的名称,/insertion_seq=,序列来源于某种插入元件,/anticodon=,tRNA,反义密码子的位置及它所编码的氨基酸,/isolate=,序列来源的生物个体,/cell_line=,获得序列的细胞系,/lab_host=,为扩增序列来源物种所用的实验室宿主,/chromosome=,获得序列的染色体,/macronuclear,指明,DNA,来源于染色体分化的大核期,/clone=,获得序列的克隆子,/note=,评论及附加信息,/codon=,指出与参考密码子不同的密码子,/organelle=,获得序列的细胞器,/EC_number=,序列产物的酶学编号,61,限定词,含 义,限定词,含 义,/cons_splice=,区分内含子剪切位点和,“,5,-GT.AG-3,”,剪切位点,/map=,相关特性在基因图谱上的位置,/cultivar=,所获序列植物的栽培变种,/mod_base=,被修饰碱基的简写,/dev_stage=,序列来源于某种生物的特定发育阶段,/number=,从,5,3,注明遗传元件的顺序,/evidence=,序列特性来源于实验还是推理,/organism=,提供测序用遗传物质的物种的科学名称,/focus,指出在记录中的来源特性在其他物种中还有不同的来源特性,/phenotype=,序列特性所导致的表型,/function=,序列所代表的功能,/plasmid=,获得序列的质粒名称,/haplotype=,序列来源于某种物种的单倍体,/protein_id=,蛋白质的检索号,/isolation_sou-rce=,描述序列来源物种的生理、环境和地理信息,/proviral,整合在基因组中的前病毒,/label=,序列特性的俗名,/rearranged,如果序列是,DNA,并来源于免疫球蛋白家族,则表示该序列来源于重排,DNA,62,限定词,含 义,限定词,含 义,/rpt_family=,重复序列,/transposon=,转座子,/rpt_unit=,指明重复区域的重复元件构成,/variety=,获得序列的生物变种,/serotype=,同一物种的不同血清学特征,/pseudo,假基因,/sex=,获得序列的物种性别,/replace=,表明特性间的间隔序列已被替换,/specimen_vou-cher=,指明来源物种保存于什么地方,/rpt_type=,重复序列的组织方式,/strain=,获得序列的菌珠,/sequenced_m-ol=,获得序列的分子类型,/sub_species=,获得序列的来源物种的亚种,/serovar=,同一原核生物的血清学特征,/tissue_lib=,获得序列组织库,/specific_host=,获得序列的天然宿主,/transgenic,指明物种的来源特性是否是转基因受体,/standard-name=,特性的通用名称,/transl_except=,标明序列中未按指定密码子表翻译的氨基酸的位置,/sub_clone=,获得序列的亚克隆,63,限定词,含 义,限定词,含 义,/sub_strain=,获得序列的来源微生物亚种,/tissue_type=,获得序列组织类型,/translation=,按通用或指定的密码子表翻译的氨基酸序列,/transl_table=,描述在翻译中与通用密码表不同的密码表,/usedin=,表明该特性在其他检索中也被使用,/virion,病毒颗粒,64,GenBank,和,PubMed(,序列数据,),检索的比较:,1,、,GenBank,的检索结果是序列及其注释信息;,PubMed,的检索结果是与序列数据相关的文献信息。,2,、,GenBank,数据更新早于,PubMed,,,GenBank,数据库的检 全率高于,PubMed,。,3,、,GenBank,可对序列数据进行限制检索,而,PubMed,只能对文献、杂志、作者等进行限制检索,因而,GenBank,数据库的检准率也高于,PubMed,。,65,课后练习,用,GenBank,数据库搜索,”SARS coronavirus BJ01”,的全基因组序列信息并下载保存,查询该基因所产生的蛋白质序列信息。,用,BLAST,模块对该基因序列进行相似性搜索。,66,谢 谢!,67,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!