对一条新及基因序列进行生物信息学及分析.doc

上传人:wux****ua 文档编号:8625857 上传时间:2020-03-30 格式:DOC 页数:52 大小:1.13MB
返回 下载 相关 举报
对一条新及基因序列进行生物信息学及分析.doc_第1页
第1页 / 共52页
对一条新及基因序列进行生物信息学及分析.doc_第2页
第2页 / 共52页
对一条新及基因序列进行生物信息学及分析.doc_第3页
第3页 / 共52页
点击查看更多>>
资源描述
对一条新的基因序列进行生物信息学的分析 海南中学 作者 许汝言 指导老师 黄小 葵 论文摘要 本研究的主要内容是运用生物信息学的手段结合生物学实验 方法对从一株产 甘露聚糖酶的新菌种 A tabescens EJLY2098 获得的新基因序列 命名为 man 进行生物信息学的分析 针 对然后结合利用所获得的信息设计生物学方法证实其生物学功能 关键词 甘露聚糖酶 A tabescens EJLY2098 生物信息学 论文目的和意义 英国 自然 杂志网络版 2006 年 5 月 18 日报道 科学家已对 含有 2 23 亿个碱基对 占人类基因组中碱基对总量的 8 左右的人 类第一号染色体完成测序 宣告持续 16 年的人类基因组计划全部完 成 作为人类自然科学史上重要的里程碑 人类基因组 的研究已 从 结构基因组 阶段进入 功能基因组 阶段 在人类基因组计 Comment l1 Comment l2 划后相继推出的水稻基因组计划 马铃薯基因组计划 草鱼基因组 计划等 和快速增长的微生物基因测序 海量 的基因信息的积累 催生了 功能基因组 时代的来临 针对充分利用 海量 基因组 信息的生物信息学不仅应运而生 而且为以注释 阐明基因功和利 用基因生物学功能的 后基因组时代 的研究发挥了重大作用 生物信息学是把基因组 DNA序列信息分析作为源头 在获得了蛋 白质编码区的信息后 进行蛋白质空间结构的预测和模拟 然后依据 特定蛋白质的功能进行必要的药物设计 就是说 生物信息学的主要 任务是组织和分析生物学数据 而生物学数据的分析离不开计算机算 法的运用 因此 可以说生物信息学是一门集生命科学 计算机科学 数学 物理学为一身的多学科交叉的前沿学科 生物信息学的主要研究对象是序列 即一维的分子排列顺序所分 析 包括 DNA分子碱基序列和编码蛋白质的氨基酸序列 DNA 序列分 析的主要任务是基因识别和发现某些功能区 如启动子 增强子等 DNA序列研究的最终目的是说明遗传语言的语法和语法规则 从而最 终读懂 DNA序列 蛋白质的结构预测研究始终是生物信息学的核心 内容之一 目前研究工作是利用一级结构中的氨基酸排列顺序所隐藏 的信息来预测蛋白质的高级结构 而蛋白质结构研究的最终目标是阐 明肽链的折叠规律 即所谓破译 第二套生物学密码 基因组计划 积累了大量生物信息 而生物信息学的任务就 是挖掘和利用这些信息 从众多生命信息中发现统一的 本质的 有用 的规律 而这些规律必将促进生命科学 如结构生物学 生物技术 药 物设计 分子进化等研究工作的进展 所以 生物信息学将在 后基因组 的时代 发挥极其重要的作 用 这将有助于全部读懂人类基因组的全部信息 有助于揭示基因组 物质结构的复杂性 有助于生命起源和生物进化问题的最终解决 有 助于识别与鉴定人类特定疾病的相关基因 有助于药物设计理论和方 法的改进和提高 1 10 研究现状 随着信息学大环境的改善 如信息高速公路 国际互联网的发展 生 物信息学发展迅速 美国 日本及欧洲各国的生物信息学已相继在 Internet 上建立了各自的网络节点 进行管理大型数据库 为研究人 员提供研究数据的分析 处理 采集 交换的服务 国际互联网所 到之处 都有各种研究机构的联网 数据库的建立 开展生物信息学 研究 各种数据库各具特色 GenBank EMBL DDBJ 是三大核苷酸 及蛋白质数据库 GDB 数据库主要收集遗传学制图的资料 CEPH 的 数据库收集 YACcontig Genethon CHLC 储存遗传学标记系列 Whiethead 研究所的数据库可了解全部 18000 个 STS 及联系作图的 信息 另外还有突变序列的数据库在建立之中 在各类数据库建立 的同时 数据库设计中出现了集成化趋势 集成化包括 各类数据的 集成 数据库与数据分析软件的整合 各种数据库分析 测序应用 软件包也被开发出来 11 除了数据库 数据分析软件的发展 生物信息学中比较基因组学 的发展也较为突出 其中河豚 鼠 猪 牛和马的基因组与人基因 组的比较研究 秀丽隐杆线虫与人基因组的比较研究 酵母与人基因 组的比较研究 支原体与嗜血流感杆菌基因组的比较研究 都取得了 成果 从比较中分离到一些人类遗传病的候选基因 鉴定了一些新克 隆的基因 为人类基因组的分析提供了有益的数据 随着计算机技术的发展和渗透 生物信息学在人类基因组中大规 模测序的自动化控制 测序结果分析处理 序列数据的计算机管理 各类遗传图谱 物理图谱的绘制 研究数据网络获取 分析和交换 以数据分析的结果辅助基因组研究等都发挥着不可替代的功能 显示 出越来越重要的作用 全长 cDNA 序列 man 的生物信息学分析 前言 随着因特网在上世纪 90 年代的出现和信息技术的迅猛发展 生命科学也相伴走向信息化 其主要标志就是人类基因组计划的 实施 这一计划及其相继展开的众多的基因组计划使得生物学数 据急剧增加 而传统的实验手段却远远不能满足对这些数据的解 释 使之上升到科学知识的高度 9 10 随着人类基因组计划的实施 分子生物学家提供了大量的有关生物 分子的数据 如何将这些从实验室中取得的生物信息进行整理 并能 对以后的研究提供资料和依据 这就需要运用到现代计算机技术对这 些原始数据进行收集 整理和分析 从而是人们在研究过程中及时得到 有效的生物信息 因此 生物信息学不仅是一门学科 也是研究过程中 的一项技术和开发工具 核酸序列分析是生物信息学应用中的一个重 要方面 DNA 序列分析可分两大类 1 面向测序的 DNA 序列分析 2 指定 DNA 序列的分析 通过一个简单序列相似性的比较可以对未知 序列进行初步的功能预测 对后续实验确定初步研究方向 12 本论文 通过对从真菌 tabescens 中克隆出一个基因的全长 cDNA 进行生 物信息的分析 预测这个未知 cDNA 的功能 目前因特网上有许多生物学信息库 采用不同的算法 对生物学数 据进行从序列水平到结构层次 进而到功能的多种分析 本章的分 析主要利用这些数据库和相关软件完成 材料和仪器 1 生物技术实验室从一株产 甘露聚糖酶的新菌种 A tabescens EJLY2098 克隆出一个全长 cDNA 命名为 man 2 可以连接国际互联网的计算机 核酸序列的基本分析 运用 DNAMAN 软件分析核酸序列的分子质量 碱基组成和碱 基分布 同时运用 BioEdit 版本 7 0 5 3 软件对 man 做酶切谱分析 碱基同源性分析 运用 NCBI 信息库的 BLAST 程序对 man 进行碱基同源性分析 Translated query vs protien database blastx 网站如下 http www ncbi nlm nih gov BLAST 参数选择 TRANSLATE D query PROTEIN database blastx nr stander1 开放性阅读框 ORF 分析 利用 NCBI 的 ORF Finder 程序对 man 做开放性阅读框分析 网 址如下 http www ncbi nlm nih gov projects gorf orfig cgi 参数选择 Genetic Codes 1 Standard 对蛋白质序列的结构功能域分析 运用简单模块构架搜索工具 Simple Modular Architecture Research Tool SMART 对 manORF 出的蛋白质序列进行蛋白质结 构功能域分析 该数据库由 EMBL 建立 其中集成了大部分目前已 知的蛋白质结构功能域的数据 12 网址如下 http smart embl heidelberg de 运用 NCBI 的 BLAST 程序再对此蛋白质序列进行 rpsBlast 分 析 rpsblast 分析其保守功能域 参数选择 Search Database CDD v2 07 11937PSSMs Expect 0 01 Filter Low complexity Search mode multiple hits 1 pass 同源物种分析 用 DNAMAN 软件将蛋白质序列与 GHF5 的 甘露聚糖酶序列和 GHF6 的 甘露聚糖酶序列序列比对 根据结果绘出系统进化树 并 进行分析 蛋白质一级序列的基本分析 运用 BioEdit 版本 7 0 5 3 软件对 man ORF 翻译的蛋白的一些 基本性质 对分子量 等电点 氨基酸组成等作出分析 二级结构和功能分析 信号肽预测 利用丹麦科技大学 DTU 的 CBS 服务器蛋白质序列的信号肽 signal peptide 预测 进入 Prediction Serves 页面 网址如下 http www cbs dtu dk services SignalP 参数选择 Eukaryotes Both GIF inline Standard 疏水性分析 利用瑞士生物信息学研究所 Swiss Institute of Bioinformatics SIB 的 ExPASy 服务器上的 ProtScale 程序 13 对 ORF 翻译后的氨基 酸序列做疏水性分析 网址如下 http us expasy org cgi bin protscale pl 参数选择 Hphob Kyte Composition 388 A 358 C 351 G 386 T 0 OTHER Percentage 26 2 A 24 1 C 23 7 G 26 0 T 0 0 OTHER Molecular Weight kDa ssDNA 457 73 dsDNA 914 24 ORIGIN 1 ACGCGGGGGA AAGATGCATC TGCTCGCTTT TCTGTCTCTG AGTACATTCC TGTGCTCTGC 61 GTTCGCTGCT GTTCCTGAGT GGGGCCAATG TGGCGGCATT GGATGGACAG GACAGACCAC 121 TTGCGTTAGT GGTACAGTAT GCGCAGCTCT CAATGACTAT TATTCTCAAT GTGTGCCTGG 181 AACGGCCACA ACAACGGCCG CTCCCACGAC TGCTACATCA ACAACCATTT CTTCCACTTC 241 TCGCACAACT GCTACGTCGA CCACAGCTTC CGCACCATCT TCTACTGGCT TTGTAACTAC 301 CTCTGGCACA GAGTTCCGCC TCAACGGTGC CAAATTTACT ATCTTCGGCG CCAACTCATA 361 CTGGGTCGGG TTGATGGGCT ATAGCACTAC AGATATGAAT AAAGCCTTCG CAGACATCGC 421 GGCTACAGGT GCCACCGTCG TCCGCACATG GGGCTTCAAT GAGGTAACGA GTCCTAACGG 481 GATTTATTAC CAGAGTTGGT CCGGAAGTAC ACCAACTATC AACACAGGTT CTACGGGTCT 541 TCAAAACTTT GATGCCGTCG TCGCTGCTGC TGCTGCACAT GGCTTGAGGC TTATTGTTGC 601 CATAACGAAC AACTGGTCCG ACTATGGTGG AATGGATGTA TACGTTAACC AAATTGTCGG 661 GTCTGGCTCT GCGCACGATT TATTCTATAC CGACTGTGAG GTTATATCTA CTTACATGAA 721 CTACGTCAAG ACCTTCGTCT CGCGCTATGT GAACGAACCT ACTATTTTAG GTTGGGAGCT 781 TGCAAATGAA CCTAGATGCA AGGGGAGTAC CGGGACGACC TCTGGATCAT GCACTGCAAC 841 GACTATCACA AAATGGGCCG CGGCAATTTC AGCGTACATC AAGTCGATCG ATCCCAACCA 901 TCTTGTCGGG ATAGGAGATG AAGGGTTCTA CAATGAACCT AGCGCACCAA CATATCCATA 961 TCAAGGTAGC GAAGGTATCG ATTTTGATGC AAATTTGGCC ATTAGTAGCA TTGATTTCGG 1021 TACATTCCAT TCCTATCCTA TCAGCTGGGG TCAAACCACT GATCCTCAGG GATGGGGTAC 1081 GCAATGGATC GCTGATCATG CAACGTCAAT GACAGCTGCG GGAAAGCCCG TAATCTTAGA 1141 GGAGTTTGGA GTCACCACTA ATCAAGCAAC TGTTTATGGC GCCTGGTATC AGGAAGTTGT 1201 CTCTTCGGGT CTTACTGGTG CTCTTATTTG GCAAGCTGGT TCTTATTTAT CATCCGGAGC 1261 TACTCCGGAC GACGGATATG CAATTTATCC TGATGATCCT GTATATTCCC TGGAAACCTC 1321 CTATGCGGTT ACATTGAAAG CGCGGGCGTA GGATAGGGTA CAGAATAAAT TTTGCTCCGA 1381 TGTGGTACTG TAGCCGAGCG GCTTGACTAT GTGAATAAAA ATAGCACTGT TGTCACGATC 1441 GATCAACACC TAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAA 对其所做对其所做的酶切谱分析结果如下 对 DQ286392 的酶切图 见附录 1 单酶切统计 见下表 Restriction table Enzyme Recognition frequency Positions AccI GT mk AC 2 258 640 AloI GAACnnnnnnTCCnnnnnnn nnnnn 1 632 AloI GGAnnnnnnGTTCnnnnnnn nnnnn 1 600 AlwI GGATCnnnn n 5 833 885 1056 1095 1290 ApoI r AATT y 3 333 992 1368 BanI G GyrC C 4 327 348 429 1179 BbeI G GCGC C 2 352 1183 BbsI GAAGACnn nnnn 1 531 BbvI GCAGCnnnnnnnn nnnn 7 53 156 551 554 557 560 1103 BceAI ACGGCnnnnnnnnnnnn nn 3 199 211 540 BcgI CGAnnnnnnTGCnnnnnnnnnn nn 3 1003 998 1294 BcgI GCAnnnnnnTCGnnnnnnnnnn nn 3 969 1032 1260 BclI T GATC A 1 1094 BfrBI ATG CAT 1 17 BglI GCCn nnn nGGC 1 91 BmrI ACTGGGnnnn n 1 371 BpuEI CTTGAGnnnnnnnnnnnnnn nn 1 605 BsaHI Gr CG yC 2 349 1180 BsaJI C CnnG G 2 859 1309 BsaWI w CCGG w 3 501 1254 1265 BsaXI ACnnnnnCTCCnnnnnnn nnn 1 215 BsaXI GGAGnnnnnGTnnnnnnnnn nnn 1 185 BseMII CTCAGnnnnnnnn nn 3 30 67 1080 BseRI GAGGAGnnnnnnnn nn 1 1155 BseYI C CCAG C 1 1045 BsgI GTGCAGnnnnnnnnnnnnnn nn 1 559 BsiEI CG ry CG 3 199 889 1440 BsiHKAI G wGCw C 2 57 1223 BslI CCnn nnn nnGG 4 81 449 963 1272 BsmAI GTCTCn nnnn 3 40 743 1205 BsmBI CGTCTCn nnnn 1 743 BsmFI GGGACnnnnnnnnnn nnnn 1 827 Bsp1286I G dGCh C 2 57 1223 BspCNI CTCAGnnnnnnn nn 3 31 68 1079 BspEI T CCGG A 3 501 1254 1265 BsrI ACTG Gn 4 290 366 618 1220 BsrBI CCG CTC 2 201 1399 BsrDI GCAATG nn 1 1089 BstF5I GGATG nn 4 108 641 1077 1251 BstZ17I GTA TAC 1 641 Bsu36I CC TnA GG 1 1066 BtgI C CryG G 1 859 BtsI GCAGTG nn 1 832 Cac8I GCn nGC 4 25 781 1234 1345 ClaI AT CG AT 3 889 979 1440 EaeI y GGCC r 3 184 196 997 EagI C GGCC G 1 196 EarI CTCTTCn nnn 1 1208 EciI GGCGGAnnnnnnnnn nn 1 306 FauI CCCGCnnnn nn 2 1112 1336 FokI GGATGnnnnnnnnn nnnn 4 115 648 1084 1238 FspI TGC GCA 2 143 673 HaeII r GCGC y 2 352 1183 Hin4I GAynnnnnvTCnnnnnnnn nnnnn 3 690 1079 1111 Hin4I GAbnnnnnrTCnnnnnnnn nnnnn 3 722 1079 1111 HincII GTy rAC 2 259 647 HpaI GTT AAC 1 647 HphI GGTGAnnnnnnn n 1 1145 Hpy8I GTn nAC 5 259 510 641 647 752 Hpy188III TC nn GA 10 75 502 728 823 908 1191 1255 1266 1290 1435 HpyF10VI GCn nnnnn nGC 11 67 92 418 430 452 562 571 574 871 997 1099 KasI G GCGC C 2 348 1179 MboII GAAGAnnnnnnn n 5 223 271 335 531 1195 MlyI GAGTCnnnnn 2 479 1159 MmeI TCCrACnnnnnnnnnnnnnnnnnn nn 1 643 MnlI CCTCnnnnnn n 9 311 330 455 580 692 830 1075 1133 1328 MscI TGG CCA 1 999 MslI CAynn nnrTG 1 50 MspA1I CmG CkG 3 861 1045 1116 MwoI GCnn nnn nnGC 11 66 91 417 429 451 561 570 573 870 996 1098 NarI GG CG CC 2 349 1180 NlaIV GGn nCC 5 84 329 350 431 1181 NsiI A TGCA T 1 19 PleI GAGTCnnnn n 2 478 1158 PshAI GACnn nnGTC 1 735 PvuI CG AT CG 2 889 1440 PvuII CAG CTG 2 1045 1116 SacII CC GC GG 1 862 SalI G TCGA C 1 257 SfaNI GCATCnnnnn nnnn 5 4 26 542 786 977 SfcI C TryA G 4 380 388 424 1389 SfoI GGC GCC 2 350 1181 SmlI C TyrA G 1 584 TatI w GTAC w 2 42 507 TspDTI ATGAAnnnnnnnnn nn 5 411 732 802 934 949 TspGWI ACGGAnnnnnnnnn nn 1 1288 TspRI nnCAsTGnn 3 839 1064 1432 Enzymes that cut five or fewer times Enzyme Recognition frequency Positions AccI GT mk AC 2 258 640 AloI GAACnnnnnnTCCnnnnnnn nnnnn 1 632 AloI GGAnnnnnnGTTCnnnnnnn nnnnn 1 600 AlwI GGATCnnnn n 5 833 885 1056 1095 1290 ApoI r AATT y 3 333 992 1368 BanI G GyrC C 4 327 348 429 1179 BbeI G GCGC C 2 352 1183 BbsI GAAGACnn nnnn 1 531 BceAI ACGGCnnnnnnnnnnnn nn 3 199 211 540 BcgI CGAnnnnnnTGCnnnnnnnnnn nn 3 1003 998 1294 BcgI GCAnnnnnnTCGnnnnnnnnnn nn 3 969 1032 1260 BclI T GATC A 1 1094 BfrBI ATG CAT 1 17 BglI GCCn nnn nGGC 1 91 BmrI ACTGGGnnnn n 1 371 BpuEI CTTGAGnnnnnnnnnnnnnn nn 1 605 BsaHI Gr CG yC 2 349 1180 BsaJI C CnnG G 2 859 1309 BsaWI w CCGG w 3 501 1254 1265 BsaXI ACnnnnnCTCCnnnnnnn nnn 1 215 BsaXI GGAGnnnnnGTnnnnnnnnn nnn 1 185 BseMII CTCAGnnnnnnnn nn 3 30 67 1080 BseRI GAGGAGnnnnnnnn nn 1 1155 BseYI C CCAG C 1 1045 BsgI GTGCAGnnnnnnnnnnnnnn nn 1 559 BsiEI CG ry CG 3 199 889 1440 BsiHKAI G wGCw C 2 57 1223 BslI CCnn nnn nnGG 4 81 449 963 1272 BsmAI GTCTCn nnnn 3 40 743 1205 BsmBI CGTCTCn nnnn 1 743 BsmFI GGGACnnnnnnnnnn nnnn 1 827 Bsp1286I G dGCh C 2 57 1223 BspCNI CTCAGnnnnnnn nn 3 31 68 1079 BspEI T CCGG A 3 501 1254 1265 BsrI ACTG Gn 4 290 366 618 1220 BsrBI CCG CTC 2 201 1399 BsrDI GCAATG nn 1 1089 BstF5I GGATG nn 4 108 641 1077 1251 BstZ17I GTA TAC 1 641 Bsu36I CC TnA GG 1 1066 BtgI C CryG G 1 859 BtsI GCAGTG nn 1 832 Cac8I GCn nGC 4 25 781 1234 1345 ClaI AT CG AT 3 889 979 1440 EaeI y GGCC r 3 184 196 997 EagI C GGCC G 1 196 EarI CTCTTCn nnn 1 1208 EciI GGCGGAnnnnnnnnn nn 1 306 FauI CCCGCnnnn nn 2 1112 1336 FokI GGATGnnnnnnnnn nnnn 4 115 648 1084 1238 FspI TGC GCA 2 143 673 HaeII r GCGC y 2 352 1183 Hin4I GAynnnnnvTCnnnnnnnn nnnnn 3 690 1079 1111 Hin4I GAbnnnnnrTCnnnnnnnn nnnnn 3 722 1079 1111 HincII GTy rAC 2 259 647 HpaI GTT AAC 1 647 HphI GGTGAnnnnnnn n 1 1145 Hpy8I GTn nAC 5 259 510 641 647 752 KasI G GCGC C 2 348 1179 MboII GAAGAnnnnnnn n 5 223 271 335 531 1195 MlyI GAGTCnnnnn 2 479 1159 MmeI TCCrACnnnnnnnnnnnnnnnnnn nn 1 643 MscI TGG CCA 1 999 MslI CAynn nnrTG 1 50 MspA1I CmG CkG 3 861 1045 1116 NarI GG CG CC 2 349 1180 NlaIV GGn nCC 5 84 329 350 431 1181 NsiI A TGCA T 1 19 PleI GAGTCnnnn n 2 478 1158 PshAI GACnn nnGTC 1 735 PvuI CG AT CG 2 889 1440 PvuII CAG CTG 2 1045 1116 SacII CC GC GG 1 862 SalI G TCGA C 1 257 SfaNI GCATCnnnnn nnnn 5 4 26 542 786 977 SfcI C TryA G 4 380 388 424 1389 SfoI GGC GCC 2 350 1181 SmlI C TyrA G 1 584 TatI w GTAC w 2 42 507 TspDTI ATGAAnnnnnnnnn nn 5 411 732 802 934 949 TspGWI ACGGAnnnnnnnnn nn 1 1288 TspRI nnCAsTGnn 3 839 1064 1432 Enzymes that do not cut AarI AatII Acc65I AclI AfeI AflII AflIII AgeI AhdI AleI AlwNI ApaI ApaLI AscI AseI AsiSI AvaI AvrII BaeI BaeI BamHI BanII BbvCI BciVI BglII BlpI Bme1580I BmgBI BmtI BplI BpmI Bpu10I BsaI BsaAI BsaBI BsiWI BsmI BspHI BspMI BsrFI BsrGI BssHII BssSI BstAPI BstBI BstEII BstXI BstYI DraI DraIII DrdI Eco57I EcoICRI Eco57MI EcoNI EcoO109I EcoRI EcoRV FalI FseI FspAI HgaI HindIII KpnI MfeI MluI NaeI NcoI NdeI NgoMIV NheI NotI NruI NspI PacI PciI PflMI PmeI PmlI PpiI PpiI PpuMI PsiI PspOMI PsrI PsrI PstI RsrII SacI SanDI SapI SbfI ScaI SexAI SfiI SgrAI SmaI SnaBI SpeI SphI SrfI SspI StuI StyI SwaI TaqII TaqII Tth111I XbaI XcmI XhoI XmaI XmnI ZraI 碱基同源性分析 DQ286392序列的BLASTX分析结果 见图1 图1 DQ286392序列的BLASTX分析结果 Score E Sequences producing significant alignments Bits Value gi 82659769 gb ABB88954 1 mannanase Armillariella tabescens 768 0 0 gi 7208638 emb CAB76904 1 CEL4a mannanase Agaricus bisporus 532 2e 149 gi 1679597 emb CAA90423 1 CEL4b mannanase Agaricus bisporus 528 3e 148 gi 110627661 gb ABG79370 1 Man5D Phanerochaete chrysosporium 513 1e 143 gi 116508737 gb EAU91632 1 hypothetical protein CC1G 09314 473 2e 131 gi 110627663 gb ABG79371 1 Man5C Phanerochaete chrysosporium 467 6e 130 gi 119485791 ref XP 001262238 1 endo 1 4 beta mannosidase p 278 6e 73 gi 121715087 ref XP 001275153 1 endo 1 4 beta mannosidase p 277 9e 73 gi 70983951 ref XP 747501 1 endo 1 4 beta mannosidase Asper 272 4e 71 gi 70982592 ref XP 746824 1 endo 1 4 beta mannosidase Asper 261 7e 68 gi 84621433 gb ABC59553 1 beta mannanase Aspergillus sulphureu 260 2e 67 gi 83775912 dbj BAE66031 1 unnamed protein product Aspergillus 258 8e 67 gi 558311 gb AAA67426 1 mannanase 254 7e 66 gi 119488588 ref XP 001262744 1 endo 1 4 beta mannosidase N 252 3e 65 gi 115402327 ref XP 001217240 1 hypothetical protein ATEG 08 250 2e 64 以下省略 由分析结果可知 DQ286392 和其他物种的 甘露聚糖酶相似性最 高 尤其是与 Agaricus bisporus 物种的 CEL4a 和 CEL4b 的 甘露 聚糖酶的相同性达到 64 和 63 相似性均达到 76 以下是 DQ286392 分别与 CEL4a 和 CEL4b 序列对比 gi 7208638 emb CAB76904 1 CEL4a mannanase Agaricus bisporus Length 439 Score 532 bits 1371 Expect 2e 149 Identities 284 442 64 Positives 339 442 76 Gaps 7 442 1 Frame 2 Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 F L A A VP WGQCGG GWTG T C SG C N YSQC PG T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRGWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64 Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T T T T GFV SGT F LNG K T G NSYWVGL G Sbjct 65 PPTTTTSQTTAPPTTSHPVST GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117 Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST MN AF DIA G T VRTWGFNEVTSPNG YYQSWSG PTINTG GL NFD V Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177 Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 742 AAA A G RLIVA TNNW DYGGMDVYVNQ VG G HDLFYT YV TFVS Sbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYVRTFVS 237 Query 743 RYVNEPTILGWELANEPRCKgstgttsgsctattitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT WELANEPRCKGSTGTTSG CT TT T WA SA IK ID NHLV IGDE Sbjct 238 RYANEPTVMAWELANEPRCKGSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297 Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN P APTYPYQGSEG DF ANLAISS DF TFHSYP WGQ D WGTQWI DHA Sbjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357 Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W EV SSGLTG LIWQAGS LS G T DGYA Sbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEVESSGLTGDLIWQAGSHLSTGDTHNDGYA 417 Query 1283 IYPDDPVYSLETSYAVTLKARA 1348 YPD PVY L S A K RA Sbjct 418 VYPDGPVYPLMKSHASAMKNRA 439 gi 1679597 emb CAA90423 1 CEL4b mannanase Agaricus bisporus Length 439 Score 528 bits 1360 Expect 3e 148 Identities 280 442 63 Positives 336 442 76 Gaps 7 442 1 Frame 2 Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 F L A A VP WGQCGG WTG T C SG C N YSQC PG T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRDWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64 Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T T T GFV SGT F LNG K T G NSYWVGL G Sbjct 65 PPATTTSQTTAPPTTSHPVST GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117 Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST MN AF DIA G T VRTWGFNEVTSPNG YYQSWSG PTINTG GL NFD V Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177 Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 742 AAA A G RLIVA TNNW DYGGMDVYVNQ VG G HDLFYT Y FVS Sbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYGRAFVS 237 Query 743 RYVNEPTILGWELANEPRCKgstgttsgsctattitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT WELANEPRCKGSTGTTSG CT TT T WA SA IK ID NHLV IGDE Sbjct 238 RYANEPTVMAWELANEPRCKGSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297 Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN P APTYPYQGSEG DF ANLAISS DF TFHSYP WGQ D WGTQWI DHA Sbjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357 Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W E SSGLTG LIWQAGS LS G TP DGYA Sbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEIESSGLTGDLIWQAGSHLSTGDTPNDGYA 417 Query 1283 IYPDDPVYSLETSYAVTLKARA 1348 YPD PVY L S A K RA Sbjct 418 VYPDGPVYPLVKSHASAMKNRA 439 开放性阅读框 ORF 分析 用 NCBI 的 ORF Finder 对 DQ286392 序列作开放阅读框分析 结果如 图 2 序列 DQ286392 14 1351 位存在一个长 1338bp 的开放阅读框 编 码为 445 个氨基酸 起始密码子为 ATG 终止密码子为 TAG 编码区 两侧为 13bp 的 5 非翻译区和 100bp 的 3 非翻译区 1 13bp 1352 1451bp 而且在 3 末端的 polyA 尾上游 88bp 和 38bp 处各有一个加尾信号 为 AATAAA 进一步表明所获得片段 包括全长的 mRNA3 非翻译区 将该蛋白质序列命名为 MAN 序列 MAN 的开放阅读框及其编码的氨基酸序列如下 14 atgcatctgctcgcttttctgtctctgagtacattcctgtgctct M H L L A F L S L S T F L C S 59 gcgttcgctgctgttcctgagtggggccaatgtggcggcattgga A F A A V P E W G Q C G G I G 104 tggacaggacagaccacttgcgttagtggtacagtatgcgcagct W T G Q T T C V S G T V C A A 149 ctcaatgactattattctcaatgtgtgcctggaacggccacaaca L N D Y Y S Q C V P G T A T T 194 acggccgctcccacgactgctacatcaacaaccatttcttccact T A A P T T A T S T T I S S T 239 tctcgcacaactgctacgtcgaccacagcttccgcaccatcttct S R T T A T S T T A S A P S S 284 actggctttgtaactacctctggcacagagttccgcctcaacggt T G F V T T S G T E F R L N G 329 gccaaatttactatcttcggcgccaactcatactgggtcgggttg A K F T I F G A N S Y W V G L 374 atgggctatagcactacagatatgaataaagccttcgcagacatc M G Y S T T D M N K A F A D I 419 gcggctacaggtgccaccgtcgtccgcacatggggcttcaatgag A A T G A T V V R T W G F N E 464 gtaacgagtcctaacgggatttattaccagagttggtccggaagt V T S P N G I Y Y Q S W S G S 509 acaccaactatcaacacaggttctacgggtcttcaaaactttgat T P T I N T G S T G L Q N F D 554 gccgtcgtcgctgctgctgctgcacatggcttgaggcttattgtt A V V A A A A A H G L R L I V 599 gccataacgaacaactggtccgactatggtggaatggatgtatac A I T N N W S D Y G G M D V Y 644 gttaaccaaattgtcgggtctggctctgcgcacgatttattctat V N Q I V G S G S A H D L F Y 689 accgactgtgaggttatatctacttacatgaactacgtcaagacc T D C E V I S T Y M N Y V K T 734 ttcgtctcgcgctatgtgaacgaacctactattttaggttgggag F V S R Y V N E P T I L G W E 779 cttgcaaatgaacctagatgcaaggggagtaccgggacgacctct L A N E P R C K G S T G T T S 824 ggatcatgcactgcaacgactatcacaaaatgggccgcggcaatt G S C T A T T I T K W A A A I 869 tcagcgtacatcaagtcgatcgatcccaaccatcttgtcgggata S A Y I K S I D P N H L V G I 914 ggagatgaagggttctacaatgaacctagcgcaccaacatatcca G D E G F Y N E P S A P T Y P 959 tatcaaggtagcgaaggtatcgattttgatgcaaatttggccatt Y Q G S E G I D F D A N L A I 1004 agtagcattgatttcggtacattccattcctatcctatcagctgg S S I D F G T F H S Y P I S W 1049 ggtcaaaccactgatcctcagggatggggtacgcaatggatcgct G Q T T D P Q G W G T Q W I A 1094 gatcatgcaacgtcaatgacagctgcgggaaagcccgtaatctta D H A T S M T A A G K P V I L 1139 gaggagtttggagtcaccactaatcaagcaactgtttatggcgcc E E F G V T T N Q A T V Y G A 1184 tggtatcaggaagttgtctcttcgggtcttactggtgctcttatt W Y Q E V V S S G L T G A L I 1229 tggcaagctggttcttatttatcatccggagctactccggacgac W Q A G S Y L S S G A T P D D 1274 ggatatgcaatttatcctgatgatcctgtatattccctggaaacc G Y A I Y P D D P V Y S L E T 1319 tcctatgcggttacattgaaagcgcgggcgtag 1351 S Y A V T L K A R A 对蛋白质序列的结构功能域分析 结果如图 3 和图 4 图 3 用 Smart 对 manORF 出的蛋白质序列结构功能域分 析 图 4 rpsblast 结果 由分析结果可知 MAN 有 甘露聚糖酶的结构域外 还含有 CBD 纤维素结合域 和 GHF5 的结合域 同源物种分析 MAN 与 GHF5 的 甘露聚糖酶序列比对 CLUSTAL multiple sequence alignment A aculeatus A bisporus MKPAIRFIILAISISLATADVPVWGQCGGRGWT T reesei A fumigatus MPSKKPLSNSTAFSLSKNSQITFSVLGIMHPLPSVALLSAIGAVAAQVGPWGQCGGRSYT A sulphureus A tabescens MHLLAFLSLSTFLCSAFAAVPEWGQCGGIGWT H jecorina A aculeatus MKLSHMLLSLASLGVA TALRTPNHNA A bisporus GETACASGSSCVVQNEWYSQCLPGSTTPTNPPPTTTTSQTTAPP TTSHP T reesei A fumigatus GETSCVSGWSCVLFNEWYSQCQPATTTSTSSVSATAAPSSTSSSKESVPSATTSKKPVPT A sulphureus MKLSSSLLTLASLALANLSTALPKASPAPSTSSSS A tabescens GQTTCVSGTVCAALNDYYSQCVPGTATTTAAPTTATSTTISSTSR TTATSTTASAP H jecorina MMMLSKSLLSAATAASALAAVLQP VP A aculeatus ATTAFPSTSGLHFTIDGKTGYFAGTNSYWIGFLTN NDDVDLVMSQLAASDLKILRVWGF A
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!