GeneBank数据库使用.ppt

上传人:xiao****1972 文档编号:6278719 上传时间:2020-02-21 格式:PPT 页数:123 大小:5.96MB
返回 下载 相关 举报
GeneBank数据库使用.ppt_第1页
第1页 / 共123页
GeneBank数据库使用.ppt_第2页
第2页 / 共123页
GeneBank数据库使用.ppt_第3页
第3页 / 共123页
点击查看更多>>
资源描述
GenBank数据库结构 作用 了解序列数据库的格式 有助于更好地提高数据库检索的效率和准确性 DDBJ数据库的内容和格式与GenBank相同 此处不作详细介绍 分别介绍EMBL和GenBank的数据库结构 GenBank数据库数据注释 www ncbi nlm nih gov genbank GenBank库包含所有已知的核酸序列和蛋白质序列 以及与它们相关的文献著作和生物学注释 NCBI可提供广泛的数据查询 序列相似性搜索以及其它分析服务 数据库序列文件 注释内容 文章索引文件 检索目录 文摘 GenBank数据库结构 完整的GenBank数据库包括序列文件 索引文件以及其它有关文件 索引文件是根据数据库中作者 参考文献等建立的 用于数据库查询 GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库数据格式为FastA GenBank数据库结构 GenBank中最常用的是序列文件 序列文件的基本单位 是序列条目 包括核苷酸碱基排列顺序和注释两部分 生物信息资源中心通过计算机网络提供该数据库文件 注释条目 文章的格式 www ncbi nlm nih gov genbank Genbank Genbank查找页面 D31716 描述部分 CDsarerecurringunitsinpolypeptidechains sequenceandstructuremotifs theextentsofwhichcanbedeterminedbycomparativeanalysis Molecularevolutionusessuchdomainsasbuildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions CDs编码序列 含终止密码子polyA signal多聚A信号 D31716 特性表 序列本身 关键字 CDsarerecurringunitsinpolypeptidechains D31716 序列本身 序列结束 4859bp D31716 GenBank数据记录 GenBank数据记录 GenBank数据库结构 GenBank序列文件由单个的序列条目组成 序列条目由字段组成 每个字段由关键字起始 后面为该字段的具体说明 字段分若干次子字段 以次关键字或特性表说明符开始 每个序列条目以双斜杠 作结束标记 GenBank数据库结构 序列条目的格式非常重要 关键字从第一列开始 次关键字从第三列开始 特性表说明符从第五列开始 每个字段可占一行 也可以占若干行 若一行中写不下时 继续行以空格开始 GenBank数据库 物种 GenBank库里的数据按来源于大约100 000个物种 其中56 是人类的基因组序列 所有序列中的34 是人类的EST序列 记录 每条GenBank数据记录包含对序列的简要描述 它的科学命名 物种分类名称 参考文献 序列特征表 及序列本身 GenBank数据库 序列特征表 包含对序列生物学特征注释如 编码区 转录单元 重复区域 突变位点或修饰位点等分类 所有数据记录被划分为如细菌类 病毒类 灵长类 啮齿类 以及EST数据 基因组测序数据 大规模基因组序列数据等16类 其中EST数据等又被分成若干文件 注释内容 序列条目关键字 LOCUS 代码 DEFINITION 说明 ACCESSION 编号 NID符 核酸标识 KEYWORDS 关键词 SOURCE 数据来源 REFERENCE 文献 FEATURES 特性表 BASECOUNT 碱基组成 ORIGIN 碱基排列顺序 新版的核酸序列数据库将引入新的关键词SV 序列版本号 用 编号 版本号 表示 并取代关键词NID LOCUS LOCUS 代码 是该序列条目的标记 或者说标识符 蕴涵这个序列的功能 如HUMCYCLOX表示人的环氧化酶 序列长度类型种属来源录入日期等说明字段是有关这一序列的简单描述 ACCESSION ACCESSION 编号 具有唯一性和永久性 在文献中引用这个序列时 应该以此编号为准 KEYWORDS KEYWORDS 关键词 字段 由该序列的提交者提供 包括该序列的基因产物其它相关信息 SOURCE SOURCE 数据来源 字段 说明该序列是从什么生物体 什么组织得到的次关键字ORGANISM 种属 指出该生物体的分类学地位 REFERENCE REFERENCE 文献 字段 说明该序列中的相关文献 包括AUTHORS 作者 TITLE 题目 及JOURNAL 杂志名 等 以次关键词列出 MEDLINE的代码 该代码实际上是个超文本链接 点击它可以直接调用上述文献摘要 一个序列可有多篇文献 以不同序号表示 并给出该序列中哪一部分与文献有关 FEATURES FEATURES 特性表 具有特定的格式 用来详细描述序列特性 特性表中带有 db xref 标志的字符可以连接到其它数据库 如分类数据库 taxon9606 以及蛋白质序列数据库 PID g181254 序列中各部分的位置都在表中标明 5 非编码区 编码区 3 非编码区 多聚腺苷酸重复区域等 翻译所得信号肽以及最终蛋白质产物碱基含量字段 给出序列中的碱组成 ORIGIN ORIGIN行是序列的引导行下面便是碱基序列以双斜杠行 结束 GenBank数据库 数据库格式 FASTA格式 gi 1293613 gb U49845 1 SCU49845SaccharomycescerevisiaeTCP1 betagene partialcds andAxl2p AXL2 andRev7p REV7 genes completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT 该序列没有完全列出 GenBank数据库 数据库格式 1 FASTA格式 将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串 大于号 表示一个新文件的开始结束用 FASTA格式并没有什么特殊的要求 FASTA格式序列的提交 GenBank数据库 数据库格式 1 FASTA格式特点 只存储了最少量的信息它将所存储的信息转化为简单的字符串人和计算机对其存储的信息都具有极大的可读性FASTA格式在许多分子生物学软件包中得到广泛应用 GenBank数据库 数据库格式 2 GenBank纯文本文件格式 GenBankflatfile GBFF GenBank EMBL DDBJ每天都相互同步更新各自的数据库 它们是怎样交换数据的呢 GBFF文件格式 GBFF是GenBank数据库的基本信息单位 是最为广泛使用的生物信息学序列格式之一 LOCUSSCU498455028bpDNAPLN21 JUN 1999DEFINITIONSaccharomycescerevisiaeTCP1 betagene partialcds andAxl2p AXL2 andRev7p REV7 genes completecds ACCESSIONU49845VERSIONU49845 1GI 1293613KEYWORDS SOURCEbaker syeast ORGANISMSaccharomycescerevisiaeEukaryota Fungi Ascomycota Hemiascomycetes Saccharomycetales Saccharomycetaceae Saccharomyces REFERENCE1 bases1to5028 AUTHORSTorpey L E Gibbs P E Nelson J andLawrence C W TITLECloningandsequenceofREV7 agenewhosefunctionisrequiredforDNAdamage inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10 11 1503 1509 1994 MEDLINE95176709REFERENCE2 bases1to5028 AUTHORSRoemer T Madden K Chang J andSnyder M TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p anovelplasmamembraneglycoproteinJOURNALGenesDev 10 7 777 793 1996 MEDLINE96194260REFERENCE3 bases1to5028 AUTHORSRoemer T TITLEDirectSubmissionJOURNALSubmitted 22 FEB 1996 TerryRoemer Biology YaleUniversity NewHaven CT USAFEATURESLocation Qualifierssource1 5028 organism Saccharomycescerevisiae db xref taxon 4932 chromosome IX map 9 CDS 1 206 codon start 3 product TCP1 beta protein id AAA98665 1 db xref GI 1293614 translation SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM gene687 3158 gene AXL2 CDS687 3158 gene AXL2 note plasmamembraneglycoprotein codon start 1 function requiredforaxialbuddingpatternofS cerevisiae product Axl2p protein id AAA98666 1 db xref GI 1293615 translation MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF 有部分序列未列出 VDFSNKSNVNVGQVKDIHGRIPEML BASECOUNT1510a1074c835g1609tORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct 有部分序列未列出 4921ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct4981tgccatgactcagattctaattttaagctattcaatttctctttgatc GBFF格式 按域 Field 可以划分为三个部分头部包含整个记录的信息 描述符 第二部分包含了注释这一记录的特性 第三部分是核苷酸序列本身 所有序列数据库记录都在最后一行以 结尾 GBFF格式头部 Locus行 所有的GBFF都起始于LOCUS行 1102030405060LOCUSSCU498455028bpDNAPLN21 JUN 1999 GBFF格式头部 Locus行 1 LOCUS行 第一项是LOCUS名称 最初这一名称是用来表示本记录描述的基因座 以方便检索相似序列 前三个字母代表特定物种的名称第四 第五个字母代表如基因产物等特定的类别名称 如HUMHBB 人 珠蛋白基因区域 GBFF格式头部 Locus行 LOCUS这种 十字符 命名方式已经无法满足基因在基因座中所包含的信息 LOCUS名称目前唯一的作用是它在数据库中是独一无二的 已不在具有任何实际意义 仅使用检索号码 acessionnumber 以满足对LOCUS名称的要求1102030405060LOCUSSCU498455028bpDNAPLN21 JUN 1999 GBFF格式头部 Locus行 第二项是序列长度 GenBank对提交的序列长度没有上限要求 根据国际序列数据库合作计划的协议 为方便不同的软件处理序列 规定单条数据库记录的长度不能超过350kb GenBank已经很少接受长度低于50bp的序列 1102030405060LOCUSSCU498455028bpDNAPLN21 JUN 1999 GBFF格式头部 Locus行 第三项表明序列的分子类型 其序列必须是一种单一的分子类型 包括 基因组DNA RNA RNA前体 mRNA cDNA tRNA等 1102030405060LOCUSSCU498455028bpDNAPLN21 JUN 1999 GBFF格式头部 Locus行 第四项是GenBank分类码 由三个字母组成 分类码将GenBank数据库分为17个分支1102030405060LOCUSSCU498455028bpDNAPLN21 JUN 1999 GenBank分类码 GenBankDivision GBFF格式头部 Locus行 第五项是最后修订日期 某些时候 它也是数据第一次被公开的日期 这项简单的信息并无法对此做出判断 1102030405060LOCUSSCU498455028bpDNAPLN21 JUN 1999 GBFF格式头部 DEFINITION行 2 DEFINITION行 主要对GenBank记录中所含的生物学意义做出总结 它的说明内容包括来源物种 基因 蛋白质名称 1102030405060DEFINITIONSaccharomycescerevisiaeTCP1 betagene partialcds andAxl2p AXL2 andRev7p REV7 genes completecds GBFF格式头部 DEFINITION行 如果序列是非编码区 则包含对序列功能的简单描述 如果序列是一段编码区 则标明该序列是部分序列 partialcds 还是全序列 completecds 1102030405060DEFINITIONSaccharomycescerevisiaeTCP1 betagene partialcds andAxl2p AXL2 andRev7p REV7 genes completecds GBFF格式头部 ACCESSION行 3 检索号 ACCESSION 是序列记录的唯一指针 检索号通常由一个字母加5个数字 U12345 或者由两个字母加6个数字 AF123456 组成 1102030405060ACCESSIONU49845DearGenBankSubmitter ThankyouforyourdirectsubmissionofsequencedatatoGenBank WehaveprovidedaGenBankaccessionnumberforyournucleotidesequence bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesthesedata asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron lineservers GBFF格式头部 ACCESSION行 检索号在数据库中是唯一而且不变的 即使数据的提交者改变数据的内容 在ACCESSION行中可能出现多个检索号 可能是因为数据提交者提交了一条与原记录相关的新记录 或者新提交的记录覆盖了原有的旧记录 第一个检索号为主检索号 而其余的统称为二级检索号 GBFF格式头部 VERSION行 4 版本号行 它的格式是 检索号 版本号 版本号于99年2月由三大数据库采纳使用 主要用于识别数据库中一条单一的特定核苷酸序列 在数据库中 如果某条序列数据发生了变化 即使是单碱基的改变 它的版本号都将增加 而它的检索号保持不变如由U12345 1变为U12345 2 11020304050607079VERSIONU49845 1GI 1293613 GBFF格式头部 VERSION行 版本号系统与跟在其后的GI GenInfoIdentifier 号系统是平行运行当一条序列改变后 它将被赋予一个新的GI号 同时它的版本号将增加 当依据核酸序列的内部序列进行蛋白质翻译时 蛋白质的翻译发生任何变换 核酸序列都将被赋予一个新的GI号 11020304050607079VERSIONU49845 1GI 1293613 GBFF格式头部 KEYWORDS行 5 关键词行 是用来描述序列的 如果该行中没有任何内容 那么就只包含一个 由于没有对照词汇表 所以NCBIGenBank拒绝接受关键词 它只存在于旧的记录中 11020304050607079KEYWORDS GBFF格式头部 SOURCE行 6 序列来源行 没有做特殊的规定 它通常包含序列来源生物的简称 有些时候也包含分子类型 Organism 以NCBI的分类数据库为依据 指明物种的正式科学名称 11020304050607079SOURCEbaker syeast ORGANISMSaccharomycescerevisiaeEukaryota 真核 Fungi 真菌 Ascomycota 子囊菌门 Hemiascomycetes 半子囊菌纲 Saccharomycetales Saccharomycetaceae Saccharomyces GBFF格式头部 REFERENCE行 7 参考文献行 将与该数据有关的参考文献均收录在内 将最先发表的文献列于第一位 如果序列数据没有被文献报道 该行将显示 inpress 或 unpublished 如所引用文献存在于MEDLINE数据库中 将出现一个MEDLINE单一指针 uniqueidentifier UID 以便检索 11020304050607079REFERENCE1 bases1to5028 AUTHORSTorpey L E Gibbs P E Nelson J andLawrence C W TITLECloningandsequenceofREV7 agenewhosefunctionisrequiredforDNAdamage inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10 11 1503 1509 1994 MEDLINE95176709 GBFF格式头部 REFERENCE行 如果序列是直接提交而未经发表的 就将在标题 TITLE 中注明 直接提交 DirectSubmission 在期刊 JOURNAL 中注明提交日期 提交者姓名以及提交者的工作单位 11020304050607079REFERENCE1 bases1to1939 AUTHORSYi CAO Dairong QIAO Qinghua HE andShunji HE TITLECloningandexpressionstudiesofacDNAencodingUDP glucosedehydrogenasefromDunaliellasalinaJOURNALUnpublished GBFF格式中部 特性表 FEATURES 它描述基因和基因的产物 以及与序列相关的生物学特性 特性表提供一个参考词汇表以对合法的特性进行注释这些特性包括该序列是否执行一个生物学功能 它是否与一个生物学功能的表达相关 它是否与其它分子相互作用 它是否影响一条序列的复制 它是否与其它序列的重组相关 它是否是一条已识别的重复序列 它是否有二级或三级结构 它是否存在变异或者它是否被修订过 GBFF格式中部 特性表格式 按表单的方式设计的 包含三个部分 第一 特性关键词 Featurekey 第二 特性位置 Location 第三 限定词 Qualifiers FEATURESLocation Qualifierssource1 5028 organism Saccharomycescerevisiae 酿酒酵母 mol type genomicDNA 基因组DNA db xref taxon 4932 分类学 chromosome IX 染色体 map 9 GBFF格式中部 FEATURES 第一 特性关键词 Featurekey 是一个简要说明功能组的关键词 允许加入新的或未定义的特性 第二 特性位置 Location 指明在特性表中的什么地方找到相关特性 在位置特性中可以包含操作符 Operator 和功能性描述符 Descriptor 以指明序列需经过怎样的处理才能得到相应的特性 第三 限定词 Qualifiers 相关特性的辅助信息 限定词使用一组标准化的对照词汇表以利于计算机从中提取信息 GBFF格式中部 FEATURES 例1KeyLocation QualifiersCDS23 400 product alcoholdehydrogenase gene adhI 特性表含义 该编码序列 CDS 起始于第23碱基 终止于第400碱基产物是乙醇脱氢酶基因名称是 adhI GBFF格式中部 FEATURES 例2KeyLocation QualifiersCDSjoin 544 589 688 1032 product T cellreceptorbeta chain 特性表含义 它表示记录中所存储的序列为部分编码序列 表达产物 T 细胞受体beta链 由序列内两个片段结合生成指明两个片段在序列中所处的位置 GBFF格式中部 特性表关键词 1 特性表的关键词 以树型结构生成misc feature生物学特性无法用特性表关键词描述的序列misc difference序列特性无法用特性表关键词描述的序列conflict同一序列在不同的研究中在位点或区域上有差异unsure序列不能确定的区域old sequence该序列对以前的版本做过修订variation包含稳定突变的序列modified base修饰过的核苷酸gene已识别为基因或已命名的序列区域misc signal无法用信号特性关键词描述的信号序列promoter转录起始区CAAT signal真核启动子上游的CAAT盒 与RNA结合相关TATA signal真核启动子的TATA盒 35 signal原核启动子中的 35框 10 signal原核启动子Pribow盒GC signal真核启动子的GC盒RBS核糖体结合位点polyA signalRNA转录本的剪切识别位点enhancer增强子attenuator与转录终止有关的序列terminator转录终止序列rep origin双链DNA复制起始区 GBFF格式中部 特性表关键词 misc RNA无法用RNA关键词描述的转录物或RNA产物prim transcript初始转录本precursor RNA前体RNAmRNA信使RNA5 clip前体转录本中被剪切掉的5 端序列3 clip前体转录本中被剪切掉的3 端序列5 UTR5 非翻译区3 UTR3 非翻译区exon外显子CDS蛋白质编码序列sig peptide编码信号肽的序列transit peptide转运蛋白编码序列mat peptide编码成熟肽的序列intron内含子polyA siteRNA转录本的多聚腺苷酸化位点rRNA核糖体RNAtRNA转运RNAscRNA小细胞质RNAsnRNA小核RNAsnoRNA加工和修饰rRNA的小核RNA GBFF格式中部 特性表关键词 immunoglobulin relatedC region免疫相关蛋白上的稳定区D segment码免疫球蛋白重链的可变区基因之一J segment编码免疫球蛋白轻链和重链的可变区基因之一N region插入重排免疫球蛋白片段间的核苷酸S region免疫球蛋白重链的开关区V region免疫球蛋白轻链和重链的可变区 和T 细胞受体 和 链 编码可变的氨基末端部分 可由V segment D segment N region和J segment组成V segment免疫球蛋白轻链和重链的可变区段 和T 细胞受体 和 链 编码大多数可变区 v region 和前导肽的最后几个氨基酸repeat region基因组中所包含的重复序列 GBFF格式中部 特性表关键词 repeat unit单个的重复元件LTR长末端重复序列Satellite卫星重复序列misc binding无法描述的核酸序列结合位点primer bind复制 转录的引物结合位点protein bind蛋白质结合区STS测序标签位点misc recomb无法用重组特性关键词描述的重组事件iDNA通过重组所消除的DNAmisc structure无法用结构关键词描述的核酸序列高级结构或构型stem loop发夹结构D loop线粒体中DNA中的取代环 GBFF格式中部 Location 2 特性位置 Location 用来描述在序列中的什么区域能够找到相关的特性 位置特性可以包含Complement Join Order等三个操作符 Operator 467指明序列中的单个碱基340 565指明包括起始和中止碱基在内的一段连续序列 345 500指明序列起始于起始碱基号之前的某个位置 但起始碱基号之前的特性边界未知 GBFF格式中部 Location 1 888指明特性起始于第一个已测序的碱基之前 102 110 指明正确位置未知 但包含在102和110号碱基之间 23 45 600指明序列特性起始碱基在23和45碱基之间 终止于600号碱基 122 133 204 221 指明序列特性起始于122和133碱基之间 终止于204和221号碱基之间123 124指明123和124号碱基之间的位点 如限制性酶切位点145 177指明145和177碱基之间的某个位点 GBFF格式中部 Location join 12 78 134 202 12至78碱基及134至202碱基之间序列相应连以构成一段连续序列complement join 2691 4571 4918 5163 纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上join complement 4918 5163 complement 2691 4571 将4918至5163碱基之间序列的互补链与2691至4571间序列的互补链结合以构成一段连续序列 GBFF格式中部 Location complement 34 122 126 指明序列特性起始于与122至126碱基之间某个互补的碱基 终止于与34号碱基互补的碱基J00194 100 202指明起始于100号碱基 终止于202号碱基的序列在数据库中的主检索号为J00194 GBFF格式中部 Qualifiers 3 限定词 Qualifier 为进一步说明特性表关键词和特性位置提供的信息给出了一个通用机制 格式 在 后跟上限定词名称 加上 其后是限定词的值KeyLocation QualifiersCDS86 742次黄嘌呤磷酸核糖转移酶 product hypoxanthinephosphoribosyltransferase label hprt note hprtcatalyzesvitalstepsinthereutilizationpathwayforpurinebiosynthesisanditsdeficiencyleadstoformsof gouty arthritis rep origin234 243缺乏 direction leftCDS109 564 usedin X10009 catalase 重复利用 易患痛风的关节炎 过氧化氢酶 常见的特性表关键词所使用的限定词 常见的特性表关键词所使用的限定词 续 GBFF格式尾部 ORIGIN 序列 类似于FASTA格式给出了所记录的序列 ORIGIN1gatcctccatatacaacggtatctccacctcaggtttaga41tctcaacaacggaaccattgccgacatgagacagttaggt81atcgtcgagagttacaagctaaaacgagcagtagtcagct 有部分序列未列出 4921ttttcagtgttagattgctctaattctttgagctgttctc4961tcagctcctcatatttttcttgccatgactcagattctaa5001ttttaagctattcaatttctctttgatc 总结 全面了解GBFF文件格式及其所涉及的各个方面GBFF是核苷酸和蛋白质序列数据库最常用的数据格式 正确地理解数据库格式成分的含义 知道从中如何提取生物学知识在数据库中进行检索 使用不同的工具进行生物信息学分析 具有十分重要的意义 图C2 2人类某一EST克隆的Genbank dbEST EMBL 生化实验技术质谱分析 MassSpectrometry 等细胞生物学 CellBiology 研究细胞膜上蛋白和脂肪的分布 包括膜运输 微管网络 细胞核及细胞周期 焦点是Rab蛋白 细胞生物物理 CellBiophysics 重点是理论创新和实际应用的研究 尤其是光学显微镜的完善使用 分化 Differentiation 集中研究果蝇的早期发育 EMBL的研究内容 基因表达 GeneExpression 研究基因到蛋白质信息传递的过程 尤其是核糖体合成在整个细胞生命过程中的重要作用 结构生物学 StructureBiology 在过去9年中建立了cDNA测序技术 生物计算 蛋白工程 晶体学 电子显微镜 EM 及核磁共振 VMR 研究肌肉巨型蛋白分子Titin Grenoble研究分部 主要研究蛋白质合成过程 尤其揭示了G 蛋白 鸟苷酸交换因子偶联物的结构Hamburg研究分部 有关长期的分子生物学国际合作研究历史 着重于结构生物学研究 如光学测量系统 晶体学 X 线吸收光谱及小角散射 EMBL的研究内容 Hinxton研究分部EBI 重点是与世界上其他分子生物学数据库进行合作研究 主要有EMBL核酸序列数据库 于1980年开始建立 随后参予了与日内瓦大学共同进行的SWISS PROT的建设 在SWISS PROT与EMBL核苷酸序列库之间的数据转移的基础上 产生了新的数据库TREMBL 即使核苷酸序列库的核苷酸序列自动翻译成SWISS PROT蛋白序列库中的蛋白序列 放射性杂交数据库 RadiationHybridDatabase Monterotondo研究中心 EMBL和欧洲其他研究机构一起 加入到哺乳类生物学和生物医学等的研究行列 该中心位于意大利罗马北部的Monterotondo EMBL着重于鼠遗传学研究 EMBL数据记录 EMBL数据库结构 EMBL数据库的基本单位也是序列条目 包括核甘酸碱基排列顺序和注释两部分 序列条目由字段组成 每个字段由标识字起始 后面为该字段的具体说明 有些字段又分若干次子字段 以次标识字或特性表说明符开始 最后以双斜杠 作本序列条目结束标记 EMBL数据库结构 条目的关键字包括 ID 序列名称 DE 序列简单说明 AC 序列编号 SV 序列版本号 KW 与序列相关的关键词 OS 序列来源的物种名 OC 序列来源的物种学名和分类学位置 RN 相关文献编号或递交序列的注册信息 RA 相关文献作者或递交序列的作者 EMBL数据库结构 RT 相关文献题目 RL 相关文献杂志名或递交序列的作者单位 RX 相关文献Mediline引文代码 RC 相关文献注释 RP 相关文献其他注释 CC 关于序列的注释信息 DR 相关数据库交叉引用号 FH 序列特征表起始 FT 序列特征表子项 SQ 碱基种类统计数 EMBL数据库记录注释代码和内容说明 http www ebi ac uk ena 相关文献数据库 DR 的说明 许多二级数据库内容来自初始数据库OMIM数据库是有关人类遗传疾病的数据 如OMIM中的一个记录与EMBL中一个已知序列的基因有关 则该基因将与该记录建立联系 EMBL库中该序列的DR栏中将包括OMIM和OMIM中相关记录的名称 DR栏中有该DNA序列翻译成蛋白质序列的SWISS PROT记录号等 EMBL数据库记录 相关文献数据库 相关文献数据库 DR 的说明 DR栏内容有助于了解与该原始DNA序列相关信息的状况和存贮站点 与DR栏有关的数据库 SWISS PROT EMBL OMIM PROSITE 保守蛋白质模序数据库 HSSP PDB PIR MEDLNE 与RL栏相关的文献摘要数据库 等 相关文献数据库 DR 的说明 注释中另一个需要说明的重要内容是主表数据 featuretabledata FT 栏 主表试图将尽可能多的序列信息囊括其中 并以计算机可以阅读的格式编排 3个主要DNA数据库 EMBL GenBank和DDBJ 已经对该表的表述格式达成了一致 具体表述在 www ebi ac uk ebi docs embl db ft feature table html GeneralInformation AdditionalInformation AdditionalInformation Sequence PrimaryAccession 头部 PrimaryAccession 中部 PrimaryAccession 尾部 序列文件格式 文本格式简单文本格式Line PlainTextStadenFASTABionet 生物网膜allowscomments 加入注释的文本格式GenBankGCG二进制格式 通常都带有注释 MacVector 序列文件格式例子 Fasta gi 995614 dbj D49653 RATOBESERatmRNAforobese CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上这个FASTA文件中包含了gi号码 GenBank检索号码 LOCUS名称 以及GenBank记录中的DEFINATION字段 一种最简单的fasta序列形式可以表示为 D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG 序列文件格式例子 GenBank LOCUSRATOBESE539bpss mRNAROD23 SEP 1995DEFINITIONRatmRNAforobese ACCESSIOND49653KEYWORDS SOURCERattusnorvegicus strainOLETF LETOandZucker differentiatedadiposecDNAtomRNA ORGANISMRattusnorvegicusEukaryotae mitochondrialeukaryotes Metazoa Chordata Vertebrata Sarcopterygii Mammalia Eutheria Rodentia Sciurognathi Myomorpha Muridae Murinae Rattus REFERENCE1 bases1to539 AUTHORSMurakami T andShima K TITLECloningofratobesecDNAanditsexpressioninobeseratsJOURNALBiochem Biophys Res Commun 209 944 952 1995 STANDARDfullautomaticCOMMENTSubmitted 10 Mar 1995 toDDBJby TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3 chomeTokushima770JapanPhone 81 886 33 7184Fax 81 886 31 9495 序列文件格式例子 GenBank NCBIgi 995614FEATURESLocation Qualifierssource1 539 organism Rattusnorvegicus strain OLETF LETOandZucker dev stage differentiated sequenced mol cDNAtomRNA tissue type adipose CDS30 533 partial note NCBIgi 995615 codon start 1 product obese translation MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc 序列文件格式例子 GCG LOCUSRATOBESE G539BPSS RNAENTERED09 23 95DEFINITIONRatmRNAforobese ACCESSION KEYWORDS SOURCERattusnorvegicus NorwayratORGANISMEukaryotae mitochondrialeukaryotes Metazoa Chordata Vertebrata Sarcopterygii Mammalia Eutheria Rodentia Sciurognathi Myomorpha Muridae Murinae RattusREFERENCE 1 AUTHORSMurakami T Shima K TITLECloningofratobesecDNAanditsexpressioninobeserats JOURNALBiochem Biophys Res Commun 209 3 944 952 1995 COMMENTDatabaseReference DDBJRATOBESEAccession D49653 Submitted 10 Mar 1995 toDDBJby TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3 chomeTokushima770JapanPhone 81 886 33 7184Fax 81 886 31 9495 序列文件格式例子 GCG FEATURESFromTo SpanDescriptionpept30533obese 1539source organism Rattusnorvegicus strain OLETF LETOandZucker dev stage differentiated sequenced mol cDNAtomRNA tissue type adiposeBASECOUNT121A167C133G118T0OTHERORIGIN RATOBESE GLength 539Jan30 1996 05 32PMCheck 5797 1CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGT61GGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACA121CCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGG181TATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGA241GTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTT301CCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGC361TGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCC421TGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGC481AGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC 序列文件格式例子 ASN 1 ASN 1是NCBI用来存储和维护所有数据的格式 Seq entry set level1 classnuc prot descr pub pub sub authors namesstd namename last Murakami initials T affilstr TakashiMurakami SchoolofMedicine UniversityofTokushima DepartmentofLaboratoryMedicine Kuramotocho3 chome Tokushima Tokushima770 Japan E mail mura clin med tokushima u ac jp Tel 81 886 33 7184 Fax 81 886 31 9495 mediumemail datestd year1995 month3 day10 pub pub muid95251725 article title name CloningofratobesecDNAanditsexpressioninobeserats authors namesstd namename last Murakami initials T namename last Shima initials K affilstr DepartmentofLaboratoryMedicine SchoolofMedicine UniversityofTokushima Japan fromjournal title iso jta Biochem Biophys Res Commun ml jta BiochemBiophysResCommun issn 0006 291X name Biochemicalandbiophysicalresearchcommunications imp datestd year1995 month4 day26 volume 209 issue 3 pages 944 952 language eng ids pubmed7733988 medline95251725 pmid7733988 update datestd year2000 month2 day1 source org taxname Rattusnorvegicus common Norwayrat db db taxon tagid10116 orgname namebinomial genus Rattus species norvegicus mod subtypestrain subname OLETF LETOandZucker lineage Eukaryo
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!