第02讲 核苷酸数据库

上传人:等** 文档编号:240720427 上传时间:2024-05-02 格式:PPT 页数:116 大小:11.58MB
返回 下载 相关 举报
第02讲 核苷酸数据库_第1页
第1页 / 共116页
第02讲 核苷酸数据库_第2页
第2页 / 共116页
第02讲 核苷酸数据库_第3页
第3页 / 共116页
点击查看更多>>
资源描述
复习内容第一章要点o生物信息学生物信息学(Bioinformatics)生物信息学是一门交叉学科,它包含了生物信息的获取、处生物信息学是一门交叉学科,它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。他综合的应理、存储、分发、分析和解释在内的所有方面。他综合的应用数学、计算机科学和生物学的各种工具用数学、计算机科学和生物学的各种工具,来阐明和理解大,来阐明和理解大量数据中包含的生物学意义。量数据中包含的生物学意义。o人类基因组人类基因组计划计划(HGP)o生物信息学的研究内容生物信息学的研究内容o你选择的基因是_。o为什么选它?o请查找该基因的核苷酸序列?o找到几条与该基因同源的核苷酸序列。生物信息学数据库生物信息学数据库内容提纲内容提纲o生物信息学数据库基础知识生物信息学数据库基础知识o核苷酸算数据库核苷酸算数据库o如何读懂核苷酸数据库中的数据:生物信息数据存储格式如何读懂核苷酸数据库中的数据:生物信息数据存储格式o如何找到同源序列:生物信息数据库的相似性搜索如何找到同源序列:生物信息数据库的相似性搜索o核苷酸序列的提交核苷酸序列的提交数据库(数据库(DatabaseDatabase)p用于收集、整理、储存、加工、发布和检索数据的系用于收集、整理、储存、加工、发布和检索数据的系统统p生物类的数据库种类很多(生物类的数据库种类很多(序列序列、结构结构、生物分子互生物分子互作作、其他其他)p投稿文章首先要将核苷酸序列或蛋白质序列提交到相投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中应的数据库中p一个数据库记录一个数据库记录(entry)一般由两部分组成:原始序列一般由两部分组成:原始序列数据数据(sequence data)+描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同。注释中包含的信息与相应的序列数据同样重要和有应用价值。样重要和有应用价值。(1 1)时间性)时间性 新的数据可以及时在互联网获取新的数据可以及时在互联网获取(2 2)注释)注释 对每个序列有一致的、详细的说明信息对每个序列有一致的、详细的说明信息 (3 3)支撑数据)支撑数据 相关的研究背景,原始数据,文献支持相关的研究背景,原始数据,文献支持(4 4)数据质量)数据质量 数据库管理者对数据质量进行核查数据库管理者对数据质量进行核查(5 5)集成性)集成性 三种基本数据(核酸、蛋白、蛋白结构)的集成。三种基本数据(核酸、蛋白、蛋白结构)的集成。有效提高研究者的研究效率有效提高研究者的研究效率生物信息数据库的特征生物信息数据库的特征分子生物数据库的分类分子生物数据库的分类一一级级数数据据库库:数数据据直直接接来来源源于于实实验验获获得得的的原原始始数数据据,只只经经过过简单的归类整理和注释。简单的归类整理和注释。包含:包含:二级数据库:二级数据库:对对原原始始生生物物分分子子数数据据进进行行整整理理、分分类类的的结结果果,是是在在一一级级数数据据库库、实实验验数数据据和和理理论论分分析析的的基基础础上上针针对对特特定定的的应应用用目目标标而而建建立立的的。包包含含:种种类类繁繁多多:真核生物启动子序列库:真核生物启动子序列库 EPD;功能模体;功能模体(motif)数据库数据库 PROSITE 数据库名称数据库名称 数据来源数据来源核酸序列数据库核酸序列数据库直接来源于实验数据直接来源于实验数据蛋白质序列数据库蛋白质序列数据库主要是非实验来源数据主要是非实验来源数据结构数据库结构数据库X射线衍射和核磁共振射线衍射和核磁共振生生物物信信息息 学学数数据据库库 工工具具 染色体染色体核酸核酸蛋白质蛋白质基因组图谱基因组图谱DNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构基因组基因组数据库数据库核酸序列核酸序列数据库数据库蛋白质序列蛋白质序列数据库数据库蛋白质结构蛋白质结构数据库数据库二二级级数数据据库库 复复合合数数据据库库基因组作图基因组作图序列测定序列测定结构测定结构测定生物信息数据库构建流程生物信息数据库构建流程序列数据库序列数据库主要核酸序列数据库主要核酸序列数据库:GenBank、EMBL、DDBJ主要蛋白质序列数据库:主要蛋白质序列数据库:Swissprot,PIR核酸序列数据库核酸序列数据库世界三大核酸序列数据库世界三大核酸序列数据库 GenBank:美国美国国家生物技术信息中心国家生物技术信息中心(National Center for Biotechnology(National Center for Biotechnology InformationInformation,NCBI)NCBI)http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html ENA(European Nucleotide Archive):欧洲分子生物学实验室欧洲分子生物学实验室http:/www.embl-heidelberg.de DDBJ(DNA Data Bank of Japan):):日本遗传研究所日本遗传研究所(National Institute of Genetics,NIG,1984)http:/www.ddbj.nig.ac.jp/国际核苷酸数据库网络(国际核苷酸数据库网络(International Nucleotide International Nucleotide Sequence Database CollaborationSequence Database Collaboration,INSDCINSDC)1988 年年3个数据库达成协议,个数据库达成协议,组成合作联合体。它们每天交换组成合作联合体。它们每天交换信息,并对数据库信息,并对数据库 DNA 序列记序列记录的统一标准达成一致。录的统一标准达成一致。每个机构负责收集来自不同地理每个机构负责收集来自不同地理分布的数据分布的数据(EMBL 负责欧洲,负责欧洲,GenBank 负责美洲,负责美洲,DDBJ负责亚洲等)负责亚洲等),将所有信息汇,将所有信息汇总在一起,共同享有并向世界开总在一起,共同享有并向世界开放,故这放,故这 3 个数据库又被称国个数据库又被称国际核苷酸数据库网络。际核苷酸数据库网络。美国国立卫生研究院美国国立卫生研究院(National Institutes of Health,NIH)(National Institutes of Health,NIH)Bethesda,MD131988,美国马里兰州的贝塞斯达美国马里兰州的贝塞斯达美国国家生物技术信息中心美国国家生物技术信息中心 (National Center for(National Center for Biotechnology InformationBiotechnology Information,NCBI)NCBI)p建立了公共数据库建立了公共数据库:GenBank,人类基因组人类基因组p开展计算生物学研究开展计算生物学研究p研发用于序列分析的软件工具研发用于序列分析的软件工具:BLAST,Entrez,免费,免费MEDLINE(PubMed)NCBINCBI数据库数据库o基础数据库(一级)基础数据库(一级)由实验人员原始提交和修订,数据库技术人员组织但不增添任何附加信息例如:GenBank,SNP,GEO,PubChem Substanceo派生数据库(二级)派生数据库(二级)由专业人员或第三方管理、编辑和修订数据例如:NCBI RefSeq,UniGene,TPA,RefSNP,Protein,Structure,Conserved Domain,PubChem Compound 15p 1979年开始建设,年开始建设,1982年正式运行年正式运行p 美国国家生物信息中心负责维护美国国家生物信息中心负责维护 pGenBank数据库的数据来源有三种:数据库的数据来源有三种:l直接来源于测序工作者提交的序列直接来源于测序工作者提交的序列l与其它数据机构协作交换的数据与其它数据机构协作交换的数据l美国专利局提供的专利数据美国专利局提供的专利数据GenBankGenBank数据库数据库GenBankGenBank分类码分类码与与GenBankGenBank子库子库GenBankGenBank分类码:由三个字母组成,分类码将分类码:由三个字母组成,分类码将GenBankGenBank数据库分为数据库分为1717个分支个分支o 1980年开始建设,年开始建设,1982年正式运行年正式运行o 欧洲主要的核酸序列收集单位欧洲主要的核酸序列收集单位o欧洲分子生物学实验室欧洲分子生物学实验室(European Molecular Biology Laboratory,EMBL,1974,德国海德堡,德国海德堡)的欧洲生物信息研的欧洲生物信息研究所(究所(European Bioinformatics Institute)负责维护)负责维护EMBL数据库数据库EMBL数据库的数据来源有三种:数据库的数据来源有三种:直接来源于测序工作者提交的序列(直接来源于测序工作者提交的序列(Sanger测序中心)测序中心)与其它数据机构协作交换的数据与其它数据机构协作交换的数据欧洲专利局提供的专利数据欧洲专利局提供的专利数据ENA,European Nucleotide Archive ENA由原由原EMBL-Bank核酸序列数据库基础上发展起来,是欧洲最核酸序列数据库基础上发展起来,是欧洲最重要的核酸序列资源重要的核酸序列资源.ENA数据统计ENA数据统计o日本日本1984年开始建立,并于年开始建立,并于1987年正式服务。年正式服务。o 亚洲唯一的核酸序列数据库亚洲唯一的核酸序列数据库o生物信息学中心和日本国家遗传研究所的生物信息学中心和日本国家遗传研究所的DNA数据库共同数据库共同组建。组建。DDBJDDBJ数据库数据库DDBJ数据库的数据来源有二种:数据库的数据来源有二种:90%直接来源于日本研究者提交的序列直接来源于日本研究者提交的序列与其它数据机构协作交换的数据与其它数据机构协作交换的数据生物信息的存贮格式生物信息的存贮格式oGTAAGACTAAGATATCATGATGGATCCTGTGTCTGTTGTACATAGCTTTGCTAGGAGTCAGGGCCTGCCACTTAACTTCAAAACTGTGGGTTGTGAGGGTCCAAGTCACGACCCACGATTCGTAATTGAATGTAAACTTCTTGAToMVHLPEEKDAVTALWGKVNVGGEALGRLLVVYPWTQRFFESFGDLSTDAVMGNPKVKAHGKKVLGAFSDFASTA格式格式 又称又称Pearson 格式:将一个格式:将一个DNA或者蛋白质序列表示为一个或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串带有一些标记的核苷酸或氨基酸字符串。o最常用、最简单的序列注释格式最常用、最简单的序列注释格式 o只存储了最少量的信息只存储了最少量的信息o它将所存储的信息转化为简单的字符串它将所存储的信息转化为简单的字符串o人和计算机对其存储的信息都具有极大的可读性人和计算机对其存储的信息都具有极大的可读性oFASTA格式广泛应用于许多分子生物学软件包之中格式广泛应用于许多分子生物学软件包之中FASTA格式格式规则规则 1、以大于号、以大于号“起始起始 2、标题行(标题行(a single-line description)位于文件的第一行。位于文件的第一行。3、序序列行随后,序列行中不允许有空间,每行文字不超列行随后,序列行中不允许有空间,每行文字不超 过过80个字符个字符 4、组成序列信息字符串的符号应为组成序列信息字符串的符号应为IUPAC (国际纯化学和应用联合会,(国际纯化学和应用联合会,International Union Of Pure And Applied Chemistry)核苷酸或氨基酸的符号)核苷酸或氨基酸的符号 5、核苷酸字符大小写均可,氨基酸字符应大写、核苷酸字符大小写均可,氨基酸字符应大写 6、-单个连字符表示一个空位单个连字符表示一个空位“gap”7、序列中不允许有数字、不明确的核苷酸用、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用表示,氨基酸用X表示表示 8、氨基酸序列中氨基酸序列中“*”表示终止表示终止 9、常保存为、常保存为.TXT文档文档IUPAC碱基代码表碱基代码表IUPAC氨基酸代码表氨基酸代码表 FASTA文件格式示例文件格式示例FASTA格式示例格式示例错误FASTA格式示例格式示例正确数据库中数据库中FASTA格式序列命名格式序列命名n标题行相关部分用“|”分隔;n命名的顺序:gi号|Accesionnumber|相对应的英文名称,“”相应物种的拉丁文名称GenoInfoIdentifier的简写,指的序列标识号。n序列的任何改变都会被分配一个新的GI号;n一条核苷酸序列翻译成蛋白质序列,也会分配一个新的GI号giGBFF:GenBank flatfileGenBankGenBank纯文本文件格式(纯文本文件格式(纯文本文件格式(纯文本文件格式(GenBank flatfileGenBank flatfile,DBFF DBFF)oGBFF是是GenBank数据库的基本信息单位数据库的基本信息单位o是最广泛地用以表示生物序列的格式之一是最广泛地用以表示生物序列的格式之一o三大数据库交换数据采用的格式三大数据库交换数据采用的格式:是从是从 GenBank到到DDBJ和和EMBL数据库,以及数据库,以及EMBL、DDBJ之间或向之间或向其他数据库交换数据时所采用的格式其他数据库交换数据时所采用的格式oDDBJ flatfile格式与格式与GBFF格式是相同的格式是相同的oEMBL格式则每行都带有前缀,以表明本行的信息类型,格式则每行都带有前缀,以表明本行的信息类型,在内容上与其他在内容上与其他 数据库相同数据库相同o所有这些格式实际上都是由更结构化的所有这些格式实际上都是由更结构化的ASN.1生成的,生成的,但是主要由于历史的原因,许多用户(专家或非专家)但是主要由于历史的原因,许多用户(专家或非专家)在工作中使用在工作中使用GBFF(或(或EMBL flatfile格式)格式)GBFF的格式的格式o第一部分:描述符(头)(头)包含了关于整个记录的信息 o第二部分:特征表(中)(中)包含了注释这一记录的特性o第三部分:核酸序列本身(尾)(尾)在最后一行以“/”结尾。LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds;and Axl2p (AXL2)and Rev7p(REV7)genes,complete cds.ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS .SOURCE Saccharomyces cerevisiae(bakers yeast)ORGANISM Saccharomyces cerevisiae Eukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE 1 (bases 1 to 5028)AUTHORS Torpey,L.E.,Gibbs,P.E.,Nelson,J.and Lawrence,C.W.TITLE Cloning and sequence of REV7,a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10(11),1503-1509(1994)PUBMED 7871890.FEATURES Location/Qualifiers CDS 1.206 /codon_start=3 /product=TCP1-beta /protein_id=AAA98665.1 /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158 /gene=AXL2.ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct .4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc/描述符描述符(包含整个记录的信息)包含整个记录的信息)特征表特征表(注释这一纪录的信息)注释这一纪录的信息)序列信息序列信息LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene,partial cds;and Axl2p (AXL2)and Rev7p(REV7)genes,complete cds.ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS .SOURCE Saccharomyces cerevisiae(bakers yeast)ORGANISM Saccharomyces cerevisiae Eukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE 1 (bases 1 to 5028)AUTHORS Torpey,L.E.,Gibbs,P.E.,Nelson,J.and Lawrence,C.W.TITLE Cloning and sequence of REV7,a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10(11),1503-1509(1994)PUBMED 7871890.FEATURES Location/Qualifiers CDS 1.206 /codon_start=3 /product=TCP1-beta /protein_id=AAA98665.1 /db_xref=GI:1293614 /translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 687.3158 /gene=AXL2.ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc/GBFF格式头部:基因座格式头部:基因座GBFF格式头部:定义行格式头部:定义行accessionACCESSION(编号,检索号):是序列记录的唯一指针,具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。p通常由一个字母加5个数字(U12345)或者由两个字母加6个数字(AF123456)组成。p检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。p在 ACCESSION行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录。p第一个检索号为主检索号,而其余的统称为二级检索号。GBFF格式头部:检索号格式头部:检索号GBFF格式头部:版本号格式头部:版本号GBFF格式头部:关键词格式头部:关键词GBFF格式头部:来源行格式头部:来源行GBFF格式头部:参考文献格式头部:参考文献GBFF格式中部:序列特征表格式中部:序列特征表按表单的方式设计的,包含三个部分:按表单的方式设计的,包含三个部分:第一,特性关键词第一,特性关键词(Feature key);第二,特性位置第二,特性位置(Location);第三,限定词第三,限定词(Qualifiers)。GBFF格式中部:序列特征表格式格式中部:序列特征表格式o第一,特性关键词第一,特性关键词(Feature key),是一个简要说明功能组的关键词,是一个简要说明功能组的关键词,允许加入新的或未定义的特性;允许加入新的或未定义的特性;o第二,特性位置第二,特性位置(Location),指明在特性表中的什么地方找到相,指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符关特性,在位置特性中可以包含操作符(Operator)和功能性描述和功能性描述符符(Descriptor)以指明序列需经过怎样的处理才能得到相应的特性;以指明序列需经过怎样的处理才能得到相应的特性;o第三,限定词第三,限定词(Qualifiers),相关特性的辅助信息,限定词使用一组相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。标准化的对照词汇表以利于计算机从中提取信息。GBFF格式中部:序列特征表格式格式中部:序列特征表格式misc_RNA 无法用无法用RNA关键词描述的转录物或关键词描述的转录物或RNA产物产物prim_transcript 初始转录本初始转录本precursor_RNA 前体前体RNAmRNA 信使信使RNA5clip 前体转录本中被剪切掉的前体转录本中被剪切掉的5端序列端序列3clip 前体转录本中被剪切掉的前体转录本中被剪切掉的3端序列端序列5UTR 5非翻译区非翻译区3UTR 3非翻译区非翻译区exon 外显子外显子CDS 蛋白质编码序列蛋白质编码序列sig_peptide 编码信号肽的序列编码信号肽的序列transit_peptide 转运蛋白编码序列转运蛋白编码序列mat_peptide 编码成熟肽的序列编码成熟肽的序列intron 内含子内含子polyA_site RNA转录本的多聚腺苷酸化位点转录本的多聚腺苷酸化位点rRNA 核糖体核糖体RNAtRNA 转运转运RNAscRNA 小细胞质小细胞质RNAsnRNA 小核小核RNAsnoRNA 加工和修饰加工和修饰rRNA的小核的小核RNA GBFF格式中部:序列特征表:特性表关键词格式中部:序列特征表:特性表关键词CDS 指的是编码区序列(指的是编码区序列(Coding sequence)序列功能区域的表示方法:序列功能区域的表示方法:1.确定的功能区,直接写作确定的功能区,直接写作n.m 2.表示表示partial on the 3endCDS特性位置(特性位置(Location):用来描述在序列中的什么区域能:用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含够找到相关的特性,位置特性可以包含Complement、Join、Order等三个操作符等三个操作符(Operator)。)。467 指明序列中的单个碱基340.565 指明包括起始和中止碱基在内的一段连续序列345.500 指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知GBFF格式中部:序列特征表:特性位置格式中部:序列特征表:特性位置1.888 指明特性起始于第一个已测序的碱基之前指明特性起始于第一个已测序的碱基之前(102.110)指明正确位置未知,但包含在指明正确位置未知,但包含在102和和110号碱基之间号碱基之间(23.45).600 指明序列特性起始碱基在指明序列特性起始碱基在23和和45碱基之间,终止于碱基之间,终止于600号碱基号碱基(122.133).(204.221)指明序列特性起始于指明序列特性起始于122和和133碱基之间,终止碱基之间,终止于于204和和221号碱基之间号碱基之间123124 指明指明123和和124号碱基之间的位点,如限制性酶切位点号碱基之间的位点,如限制性酶切位点145177 指明指明145和和177碱基之间的某个位点碱基之间的某个位点GBFF格式中部:序列特征表:特性位置格式中部:序列特征表:特性位置join(12.78,134.202)o12至至78碱基及碱基及134至至202碱基之间序列碱基之间序列相应连相应连以构成一段连续序列以构成一段连续序列complement(join(2691.4571,4918.5163)o纪录中的特性处于纪录中的特性处于2691至至4571碱基以及碱基以及4918至至5163碱基之间的序碱基之间的序列相连构成的连续序列的列相连构成的连续序列的互补互补链上链上join(complement(4918.5163),complement(2691.4571)o将将4918至至5163碱基之间序列的碱基之间序列的互补链互补链与与2691至至4571间序列的互补间序列的互补链结合以构成一段链结合以构成一段连续连续序列序列GBFF格式中部:序列特征表:特性位置格式中部:序列特征表:特性位置限定词限定词(Qualifier):为进一步说明特性表关键词和特性位置提供的信为进一步说明特性表关键词和特性位置提供的信息给出了一个通用机制。息给出了一个通用机制。格式格式:在在“/”后跟上限定词名称,加上后跟上限定词名称,加上“=”,其后是限定词的值其后是限定词的值 次黄嘌呤磷酸核糖转移酶 /product=hypoxanthine phosphoribosyltransferaseGBFF格式中部:序列特征表:限定词格式中部:序列特征表:限定词常见的特性表关键词所使用的限定词 限定限定词含含义限定限定词含含义/allele=给定基因的等位基因定基因的等位基因/anticodon=tRNA反反义密密码子的位置及它所子的位置及它所编码的氨基酸的氨基酸/bound_moiety=嵌合范嵌合范围/cell_line=获得序列的得序列的细胞系胞系/cell_type=获得序列的得序列的细胞胞类型型/chromosome=获得序列的染色体得序列的染色体/citation=已被引用的参考文献数已被引用的参考文献数/clone=获得序列的克隆子得序列的克隆子/clone_lib=获得序列的克隆文得序列的克隆文库/codon=指出与参考密指出与参考密码子不同的密子不同的密码子子/codon_start=相相对于序列第一个碱基,于序列第一个碱基,编码序列密序列密码子的偏移量子的偏移量/cons_splice=区分内含子剪切位点和区分内含子剪切位点和“5-GT.AG-3”剪切位剪切位点点/country=DNA样本的来源国本的来源国/cultivar=所所获序列植物的栽培序列植物的栽培变种种/db_xref=其它数据其它数据库信息的交叉索引号信息的交叉索引号/dev_stage=序列来源于某种生物的特定序列来源于某种生物的特定发育育阶段段/direction=DNA复制方向复制方向/EC_number=序列序列产物的物的酶酶学学编号号/environmental_sample=序列直接从序列直接从环境材料中境材料中获得而没有指明得而没有指明来源物种来源物种/evidence=序列特性来源于序列特性来源于实验还是推理是推理/exception=指明指明DNA序列未按通常的生物学序列未按通常的生物学规律翻律翻译,如,如RNA编辑/focus指出在指出在纪录中的来源特性在其它物种中中的来源特性在其它物种中还有不有不同的来源特性同的来源特性/frequency=在种群中在种群中发生生变异的异的频率率/function=序列所代表的功能序列所代表的功能/germline如果序列是如果序列是DNA并来源于免疫球蛋白家并来源于免疫球蛋白家族,族,则表示表示该序列来源于未重排序列来源于未重排DNA/haplotype=序列来源于某种物种的序列来源于某种物种的单倍体倍体/insertion_seq=序列来源于某种插入元件序列来源于某种插入元件/isolation_source=描述序列来源物种的生理、描述序列来源物种的生理、环境和地理信息境和地理信息/isolate=序列来源的生物个体序列来源的生物个体/label=序列特性的俗名序列特性的俗名常见的特性表关键词所使用的限定词(续)/lab_host=为扩增序列来源物种所用的增序列来源物种所用的实验室宿主室宿主/map=相关特性在基因相关特性在基因图谱上的位置上的位置/macronuclear指明指明DNA来源于染色体分化的大核期来源于染色体分化的大核期/mod_base=被修被修饰碱基的碱基的简写写/note=评论及附加信息及附加信息/number=从从53注明注明遗传元件的元件的顺序序/organelle=获得序列的得序列的细胞器胞器/organism=提供提供测序用序用遗传物物质的物种的科学名称的物种的科学名称/PCR_conditions=描述描述PCR的反的反应条件条件/phenotype=序列特性所序列特性所导致的表型致的表型/pop_variant=获得序列的群体得序列的群体变异种名称异种名称/plasmid=获得序列的得序列的质粒名称粒名称/product=序列序列编码产物的名称物的名称/protein_id=蛋白蛋白质的的检索号索号/proviral整合在基因整合在基因组中的前病毒中的前病毒/pseudo假基因假基因/rearranged如果序列是如果序列是DNA并来源于免疫球蛋白家族,并来源于免疫球蛋白家族,则表表示示该序列来源于重排序列来源于重排DNA/replace=表明特性表明特性间的的间隔序列已被替隔序列已被替换/rpt_family=重复序列重复序列/rpt_type=重复序列的重复序列的组织方式方式/rpt_unit=指明重复区域的重复元件构成指明重复区域的重复元件构成/sequenced_mol=获得序列的分子得序列的分子类型型/serotype=同一物种的不同血清学特征同一物种的不同血清学特征/serovar=同一原核生物的血清学特征同一原核生物的血清学特征/sex=获得序列的物种性得序列的物种性别/specific_host=获得序列的天然宿主得序列的天然宿主/specimen_voucher=指明来源物种保存于什么地方指明来源物种保存于什么地方/standard_name=特性的通用名称特性的通用名称/strain=获得序列的菌株得序列的菌株/sub_clone=获得序列的得序列的亚克隆克隆/sub_species=获得序列的来源物种的得序列的来源物种的亚种种/sub_strain=获得序列的来源微生物得序列的来源微生物亚种种/tissue_lib=获得序列得序列组织库/tissue_type=获得序列得序列组织类型型/transgenic指明物种的来源特性是否是指明物种的来源特性是否是转基因受体基因受体/translation=按通用或指定的密按通用或指定的密码子表翻子表翻译的氨基酸序列的氨基酸序列/transl_except=标明序列中未按指定密明序列中未按指定密码子表翻子表翻译的氨基酸的位的氨基酸的位置置/transl_table=描述在翻描述在翻译中与通用密中与通用密码表不同的密表不同的密码表表/transposon=转座子座子/usedin=表明表明该特性在其它特性在其它检索中也被使用索中也被使用/variety=获得序列的生物得序列的生物变种种/virion病毒病毒颗粒粒GBFF:FEATURES例例1Key Location/QualifiersCDS 23.400/product=alcohol dehydrogenase/gene=adhI特性表含义:特性表含义:n该编码序列(该编码序列(CDS)起始于第)起始于第23碱基,终止于第碱基,终止于第400碱基碱基n产物是乙醇脱氢酶产物是乙醇脱氢酶n基因名称是基因名称是“adhI”。GBFF:FEATURES例例2Key Location/QualifiersCDS join(544.589,688.1032)/product=T-cell receptor beta-chain“特性表含义:特性表含义:特性表含义:特性表含义:n n它表示记录中所存储的序列为部分编码序列,它表示记录中所存储的序列为部分编码序列,它表示记录中所存储的序列为部分编码序列,它表示记录中所存储的序列为部分编码序列,n n表达产物表达产物表达产物表达产物“T-T-细胞受体细胞受体细胞受体细胞受体betabeta链链链链”由序列内两个片段结合生成由序列内两个片段结合生成由序列内两个片段结合生成由序列内两个片段结合生成n n指明两个片段在序列中所处的位置。指明两个片段在序列中所处的位置。指明两个片段在序列中所处的位置。指明两个片段在序列中所处的位置。GBFF格式尾部格式尾部GBFF格式尾部格式尾部NCBI参考序列计划参考序列计划pNCBI参考序列计划提供了校正的序列数据和相关的信息,给同行提供使参考序列计划提供了校正的序列数据和相关的信息,给同行提供使用的标准。用的标准。pGenBank是一个序列的存储池,是一个序列的存储池,RefSeq数据库将是一个参考序列的非数据库将是一个参考序列的非冗余集合,包括构建的基因组、冗余集合,包括构建的基因组、mRNA、蛋白和在未来整个染色体。、蛋白和在未来整个染色体。pRefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的。检记录是有三种可以获得的状态:预测的,临时的和检查过的。检查过的记录代表了我们目前关于一个基因和它的转录子的知识的汇编。查过的记录代表了我们目前关于一个基因和它的转录子的知识的汇编。EMBL Formato与GBFF类似o仅字符的标识符是两个字的简写EMBL:酵母菌TCB1-生物信息数据库的生物信息数据库的相似性搜索相似性搜索生物序列的相似性生物序列的相似性相似性相似性(similarity)(similarity):是指一种很直接的数量关系数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。当然可进行自身局部比较。同源性同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。生物序列的同源性生物序列的同源性相似性和同源性关系相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序序列间的相似性越高的话,它们是同源序列的可能性就更高列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。序列相似性比较和同源性分析序列相似性比较和同源性分析o序列相似性分析:序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有件包有BLAST、FASTA等;等;o序列同源性分析:序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。常用的程序包有列与其它序列间的亲源关系。常用的程序包有Phylip及及Mega。全局比对与局部比对o全局比对:寻找序列在全长范围内最佳比对o局部比对:寻找序列在局部区域的最高比对打分o局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义BLASTBLAST是是“局部相似性基本查询工具局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写。的缩写。BLAST 是由美国国立生物技术信息中心是由美国国立生物技术信息中心(NCBI)开发的一个基于)开发的一个基于序列相似性序列相似性的数的数据库搜索程序。据库搜索程序。BLAST能告诉我们什么?能告诉我们什么?可以获取以下一些信息:可以获取以下一些信息:1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因4.未知新序列的鉴定BLAST的基本步骤的基本步骤滤去低复杂度区域滤去低复杂度区域将待检索序列分割成长度为将待检索序列分割成长度为w的连续子串的连续子串快速找出数据库中所有与固定长度快速找出数据库中所有与固定长度w完全配对的位置完全配对的位置以此位置为起点进行延伸比对,并计算出最高分数(以此位置为起点进行延伸比对,并计算出最高分数(Score)将最高分标准化,并按此分数进行排序将最高分标准化,并按此分数进行排序换算成期望值换算成期望值(E-VALUE)显示出符合显示出符合Score及及E-value的序列的序列低复杂度区域(低复杂度区域(Low Complexity Region,LCR)Low Complexity Region,LCR)(Low Complexity Region,LCR)Low Complexity Region,LCR)低复杂度区域,即这些低复杂度区域,即这些区域的组成有某些偏好,比如区域的组成有某些偏好,比如DNADNA中的简单重复序列。在中的简单重复序列。在蛋白质中一些残基过多表现。在进行蛋白质中一些残基过多表现。在进行BLASTBLAST比较时,将会比较时,将会把把LCRsLCRs屏蔽掉,防止它们过高评价匹配的显著性。在核屏蔽掉,防止它们过高评价匹配的显著性。在核酸中用酸中用n n,在蛋白质中用,在蛋白质中用X X代替。主要包括一些基因序列代替。主要包括一些基因序列的固定结构,的固定结构,如:如:Poly A Poly A 尾;尾;AluAlu序列;序列;o分值(Score):是衡量查询序列同命中序列间相似性的测度。分值越高,命中序列与查询序列越相似。oE值:又称期望值。是随机产生一个比所得分值高的对位排列的概率,即分值可靠性的测度。E值越小,所命中序列越可靠。BLAST程序常用的两个评价指标程序常用的两个评价指标BLAST常用参数设置常用参数设置 E-value的设置的设置如果检索的序列较短,可适当的提高E值,否则可能会找不到目的序列,反之如果序列较长可适当提高E值。通常无论是从DNA水平,还是蛋白质水平进行检索,E值设为1通常可满足要求。Word size的选择的选择BLAST算法将查询序列分割成一系列具有字段长度的小的序列段进行数据库搜索,因此当此值越小得到的搜索结果越多,但假阳性也越多,服务器负担也越重。对于蛋白质搜索,窗口大小可设置为3或2,默认为3;对于核酸搜索,默认的字段长度是11,可选择7,11或15。因此如果你对搜索的结果不满意时可以试着降低Word size的值。基本基本BLAST程序程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸核酸用核酸序列搜索核酸数据用核酸序列搜索核酸数据库Blastp蛋白质蛋白质用蛋白质序列搜索蛋白质数据库Blastx核酸蛋白质用核酸序列搜索蛋白质数据库(核酸序列框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索Tblastn蛋白质核酸用蛋白质序列搜索核酸序列据库(先将核酸数据库中的序列按照框翻译为蛋白序列然后逐一比对)TBlastx核酸核酸将查询序列和数据库中的序列都按照个可读框翻译为蛋白序列后再比对如何获得如何获得BLAST服务服务 NCBI主站点:http:/www.ncbi.nlm.nih.gov/BLAST/(网络版)ftp:/ftp.ncbi.nlm.nih.gov/blast/(单机版)两种版本的两种版本的BALST比较比较(1)网络版本:网络版本:o包括包括NCBI在内的很多网站都提供了在线的在内的很多网站都提供了在线的BLAST服务,这也是服务,这也是我们最经常用到的我们最经常用到的blast服务。服务。o方便,容易操作,数据库同步更新。方便,容易操作,数据库同步更新。o缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数据库。据库。单机版的特点:单机版的特点:o单机版的单机版的BLAST可以通过可以通过NCBI的的ftp站点获得,站点获得,o不同平台的版本不同平台的版本:linux,windows,o获得程序的同时必须获取相应的数据库才能在本地进行获得程序的同时必须获取相应的数据库才能在本地进行blast分析分析o优点是可以处理大批的数据,可以自己定义数据库优点是可以处理大批的数据,可以自己定义数据库.o需要耗费本地机的大量资源需要耗费本地机的大量资源,硬件要求高。硬件要求高。o此外操作也没有网络版直观、方便,需要一定的计算机操作水平。此外操作也没有网络版直观、方便,需要一定的计算机操作水平。两种版本的两种版本的BLAST比较比较(2)BLAST实例实例oGGAACACTCATCGACGCCGTGAACAAGCGGGGCAAAAAACAAAACAAAAGAGGAGGGAATGAAAGCTCGATCATGTGGCTTGCCAGCTTGGCAATTATAACAGCCTGTGCCGGAGCCATGAAGCTATCAAACTTTCAAGGAAAGCTCCTGATGACCATCAACAACACGGACATTGCGGACGTTATCGTGATCCCCACCTCAAAAGGTGAGAACAGATGTTGGGTCCGAGCAATCGACGTTGGTTACATGTGTGAAGACACCATCACGTACGAATGTCCGAAGCTTGCCGTGGGCAACGATCCGGAGGATGTGGACTGCTGGTGCGACAATCAAGAAGTCTACGTGCAGTATGGTCGCTGCACACGGACCAGGCATTCCAAACGAAGCAGAAGATCCGTTTCGGTCCAAACGCATGGGGAAAGCTCACTCGTGAACAAAAAAGAGGCTTGGCTGGATTCAACGAAGGCCACGCGATACCTCATGAAAACGGAGAATTGGATCATAAGGAACCCTGGATATGCTTTCCTGGCGGCGGCACTTGGATGGATGCTTGGCAGCAACAGTGGCCAACGTGTGGTGTTCACCATTCTCTTGCTGTTGGTCGCTCCGGCTTACAGCTTTAACTGTCTGGGAATGGGGAATCGGGATTTCATo 这是什么序列?BLAST任务提交(任务提交(1)1.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索Blast任务提交(任务提交(2)设置搜索的范围,entrez关键词,或者选择特定物种2.设置各种参数部分一些过滤选项,包括简单重复序列,人类基因组中的重复序列等E值上限值上限窗口大小窗口大小如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数BLAST结果(结果(1)1)查询序列的描述2)显示比对区域的框图3)被搜索到的序列信息4)比对结果5)统计信息与算法过程的参数BLAST结果(结果(1-1)查询序列的描述显示比对区域的框图BLAST结果(结果(1-2)BLAST结果(结果(1-3)被搜索到的序列信息BLAST结果(结果(1-4)比对结果BLAST结果(结果(1-5)BLAST命中序列的系统进化树BLAST操作流程总结操作流程总结1.登陆blast主页 http:/www.ncbi.nlm.nih.gov/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果其他的序列相似性搜索工具其他的序列相似性搜索工具 FASTAn FASTA算法是由Lipman和Pearson于1985年发表的(Lipman和Pearson,1985)。nEBI提供FASTA服务。nFASTA对数据库的每一次搜索都只有一个最佳的比对,一些有意义的比对可能被错过。nhttp:/www.ebi.ac.uk/fasta33/帮助信息各个参数选项填入搜索序列向GenBank提交序列103103GenBank投递序列工具投递序列工具n nBankIt(BankIt(网上网上投递投递)适于适于适于适于少量少量少量少量的、注释简单的序列投递的、注释简单的序列投递的、注释简单的序列投递的、注释简单的序列投递n nSequin(Sequin(本地本地投递投递;软件软件)适于适于适于适于大量大量大量大量的、复杂的序列投递的、复杂的序列投递的、复杂的序列投递的、复杂的序列投递可投递变异、种系发生、群体数据集可投递变异、种系发生、群体数据集可投递变异、种系发生、群体数据集可投递变异、种系发生、群体数据集图形界面操作图形界面操作图形界面操作图形界面操作选项多、功能强选项多、功能强选项多、功能强选项多、功能强可向可向可向可向GenBank,EMBL,DDBJGenBank,EMBL,DDBJ中的任一数据库投递中的任一数据库投递中的任一数据库投递中的任一数据库投递105105oBankIt(1)注册新提交任务106106oBankIt(2)联系人信息107107oBankIt(3)序列作者姓名参考文献参考文献作者本次提交任务编号108108oBankIt(4)序列释放时间序列相关信息109109oBankIt(4)预提交序列数目按FASTA格式填入序列也可直接上传FASTA格式文件110110oBankIt(5)物种名称111111oBankIt(6)序列数据来源112112oBankIt(7)序列数据来源编辑113113oBankIt(8)引物信息114114oBankIt(8)序列特征115115oBankIt(9)序列特征116116oBankIt(10)提交任务总览,确认无误点提交提交成功后,即刻收到确认邮件,两个工作日内可收到回复。提交成功后,即刻收到确认邮件,两个工作日内可收到回复。提交成功后,即刻收到确认邮件,两个工作日内可收到回复。提交成功后,即刻收到确认邮件,两个工作日内可收到回复。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!