第三讲-生物催化剂的基因数据挖掘课件

上传人:仙*** 文档编号:241655095 上传时间:2024-07-13 格式:PPT 页数:66 大小:5.41MB
返回 下载 相关 举报
第三讲-生物催化剂的基因数据挖掘课件_第1页
第1页 / 共66页
第三讲-生物催化剂的基因数据挖掘课件_第2页
第2页 / 共66页
第三讲-生物催化剂的基因数据挖掘课件_第3页
第3页 / 共66页
点击查看更多>>
资源描述
1 基因数据挖掘基因数据挖掘 2 宏基因组技术宏基因组技术1 基因数据挖掘基因数据挖掘1.1 基因组数据库基因组数据库1.2 基因组数据的挖掘方法基因组数据的挖掘方法1.3 酶基因数据挖掘案例酶基因数据挖掘案例生物催化工程的发展前沿与现状生物催化工程的发展前沿与现状Natural enzymesStructure-guidedprotein engineeringDirected evolutionmethodologiesBioinformatics Now 1990sPre 1970s 1970s 1980s生物催化工程的生物催化工程的发展前沿发展前沿与现状与现状Pre 1970s 1970s 1980s 1990s Now Natural enzymesStructure-guidedprotein engineeringDirected evolutionmethodologiesBioinformatics传统生物催化剂的开发周期太长传统生物催化剂的开发周期太长生物催化剂在细胞中的含量太低生物催化剂在细胞中的含量太低Gene后基因组时代网上公开的基因组后基因组时代网上公开的基因组序列中包含海量的新酶基因信息序列中包含海量的新酶基因信息生物催化剂的发现生物催化剂的发现:从挖土到挖基因从挖土到挖基因!为什么要做酶的基因克隆?为什么要做酶的基因克隆?酶在工业应用上的局限:量少:许多酶在野生状态下表达量较低;娇嫩:酶容易失活底物的溶解性和耐受性:天然的酶并非为工业生产而生!整细胞实际上是多酶体系如何升级改进?有了基因,可以?从基因本质上改善酶的性质大量重组表达还可以研究:结构与功能的关系、进化2019-07-141.1基因数据库资源基因数据库资源基因组计划项目的迅猛增加基因组计划项目的迅猛增加截止至2019年8月20日,已完成全基因组测序的细胞生物有1909种,正在进行的基因组计划还有11456种。genomesonline.orgAs of 15 April 2019),GenBank release 183.0 has 135,440,924 loci,126,551,501,141 bases,from 135,440,924 reported sequences Five websites that all biologists should knowNCBI(The National Center for Biotechnology Information;ncbi.nlm.nih.gov/EBI(The European Bioinformatics Institute)ebi.ac.uk/DDBJ(DNA Data Bank of Japan)ddbj.nig.ac.jpSwissProt/ExPASy(Swiss Bioinformatics Resource)expasy.cbr.nrc.ca/sprot/PDB(The Protein Databank)rcsb.org/PDB/EBI(ebi.ac.uk/)SRS database interfaceEMBL,SwissProt,and many moreMany server-based toolsClustalW,DALI,NCBI(The National Center for Biotechnology Information;ncbi.nlm.nih.gov/基本局部比对搜索工具基本局部比对搜索工具(Basic Local Alignment Search Tool)NCBI上上BLAST服务的网址:服务的网址:ncbi.nlm.nih.gov/blast/NCBI的的BLAST程序及数据库下载网址:程序及数据库下载网址:ftp:/ftp.ncbi.nlm.nih.gov/blastSwissProt(expasy.cbr.nrc.ca/sprot/)Curation!Error rate in the information is greatly reduced in comparison to most other databases.Extensive cross-linking to other data sourcesSwissProt is the gold-standard by which other databases can be measured,and is the best place to start if you have a specific protein to investigateA few more resources to be aware ofHuman Genome Working Draft(人类基因组)genome.ucsc.edu/TIGR(The Institute for Genomics Research)(基因研究院)tigr.org/Celeracelera/克雷格文特尔生于1946年10月14日,美国颇具传奇色彩的生物学家和创业家。文特尔在测量人类基因组工程中发挥了关键作用并创建了基因研究院(The Institute for Genomic Research)。2019年他被评为时代杂志最有影响力的100人之一5。(Model)Organism specific information:Yeast:genome-stanford.edu/Saccharomyces/Arabidopis:tair.org/Mouse:jax.org/Fruitfly:fruitfly.org/Nematode:wormbase.org/Nucleic Acids Research Database Issuenar.oupjournals.org/(First issue every year)2019-07-141.1 基因组数据挖掘方法基因组数据挖掘方法What is bioinformatics?什么是生物信息学?什么是生物信息学?什么是生物信息学?什么是生物信息学?生物信息学利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对,基因识别,基因重组,蛋白质结构预测,基因表达,蛋白质反应的预测,以及建立进化论的模型。Examples of BioinformaticsDatabase interfacesGenbank/EMBL/DDBJ,Medline,SwissProt,PDB,Sequence alignmentBLAST,FASTAMultiple sequence alignmentClustal,MultAlin,DiAlignGene findingGenscan,GenomeScan,GeneMark,GRAILProtein Domain analysis and identificationpfam,BLOCKS,ProDom,Pattern Identification/CharacterizationGibbs Sampler,AlignACE,MEMEProtein Folding predictionPredictProtein,SwissModeler1.通过序列比对工具通过序列比对工具BLAST学习,学习,了解蛋白编码基因的功能注释了解蛋白编码基因的功能注释原理原理2.介绍多序列联配工具介绍多序列联配工具ClustalX序列比对分析(BLAST)序列比对的进化基础序列比对的目的:从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系通过判断两个序列之间的相似性来判定两者是否具有同源性相似性:直接的数量关系,如:序列之间相似部分的百分比同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断选择物种选择物种选择选择blast程序程序QuerySequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslatedThe different versions of BLAST以Blastx为例:目标序列为目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC6个读码框翻译5端到端到3端端第一位起始:第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第二位起始:第二位起始:TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第三位起始:第三位起始:GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到端到5端端第一位起始:第一位起始:GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第二位起始:第二位起始:CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第三位起始:第三位起始:GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T选择数据库选择数据库序列或目标序列的序列或目标序列的GI号号以文件格式上传以文件格式上传BlastN与核酸相关的数据库与核酸相关的数据库与蛋白质相关的数据库与蛋白质相关的数据库BlastP进行比对的数据库进行比对的数据库图形化结果图形化结果E值(值(E-value)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。接近零,发生这一事件的可能性越小。ClustalW/X的运行本地运行命令行操作的Clustal W(linux&windows)窗口化操作的ClustalX(windows)下载页面:ftp:/ftp.ebi.ac.uk/pub/software/clustalw2 欧洲生物学中心(EBI)还提供了Clustal W的网上运行服务(ebi.ac.uk/clustalw)目标序列目标序列各种参数设定各种参数设定下载下载ClustalXJalview结果下载结果下载酶基因数据挖掘的策略某一物种基因组数据库的挖掘综合数聚库的挖掘基于特定功能的基因数据挖掘基于特定酶特定结构域的基因数据挖掘关键在于什么?1.3 酶基因数据挖掘案例酶基因数据挖掘案例环氧水解酶的基因组数据挖掘环氧水解酶的基因组数据挖掘 Recently,several research groups including Swapandeep Singh Chimnia(India),Dick B.Janssen(The Netherlands),Sung Gyun Kang(Korea),Qing Zhu(China)etc have shown great interest in Bacillus sp.EHs and have achieved some improvements.Although 15 Bacillus spices contained EHs,only the EH from Bacillus subtilis has been cloned,but with very low enzyme activity and selectivity.We searched for probable EH genes from B.megaterium.As a result,an epoxide hydrolase from B.megaterium ECU1001 was cloned and purified.The rBMEH exhibited high activity and excellent enantioselectivity toward aryl glycidyl ethers.Finally,several epoxides have been successfully obtained in excellent yields and optical purities on the preparative scale.The whole genome sequence of Bacillus megaterium QMB1551 and Bacillus megaterium DSM319 have been published online just recently.Conserved motifs in epoxide hydrolases:1.catalytic triad D/E/H2.HGXP motif3.Sm-X-Nu-X-Sm-Sm motif(Sm=small residue,X=any residue and Nu=nucleophile)4.Two tyrosines The epoxide hydrolases(EC 3.3.2.-)catalyze the hydrolytic ring opening of epoxides producing the corresponding vicinal diol.Most EHs turned out to be members of a large superfamily of enzymes with a common three-dimensional structure,the/hydrolase fold enzymes.Epoxide hydrolase(环氧水解酶)(环氧水解酶)Multiple Sequence Alignment of EHsThe protein accession numbers are:Bacillus megaterium ECU1001 (BMEH,this work);Bacillus subtilis(yfhM,O31581);Erythrobacter litoralis HTCC2594(ElEH,Q2N9T8);Glycine max(GmEH,soybean sEH),Q39856;Solanum tuberosum(StEH,potato sEH),Q41413;Bradyrhizobium japonicum(ephA,Q89VD3);Homo sapiens(EPHX2,Human sEH),P34913.The identical,conserved,and conserved residues are highlighted by nucleophilic residue,acidic residue,oxyanion hole,and histidine.Regions of putative motif are boxed.The amino acid sequence corresponding to the two tyrosines of active site motif is underlined.BMEH was a probable epoxide hydrolasePhylogenetic analysis of EHsBMEH belongs to soluble EH group Whole genome sequence of B.megaterium To clone an EH from B.megaterium,sequence searches(H-G-X-P and Sm-X-Nu-X-Sm-Sm motif)against ORFs of B.megaterium QM B1551 whose genome sequence was just published in GenBank were performed using the GLIMMER v3.02 program of NCBI and the basic local alignment search tool(BLAST)program.EH was purified from the cell free extract of recombinant E.coli by His-tag affinity column.Lane M,the protein size standard;Lane 1,the purified rBMEH.Purification of the rBMEHThe specific activity of purified rBMEH was 83 U/mg protein for PGE.33.4 kDaPreparation of BMEH40 g powder,12.5 U/mg powderOne EH unit(U)was defined as the amount of enzyme required for the hydrolysis of 1 mol of Phenyl glycidyl ether(PGE)per minute under the assay conditions.Lyophilized enzyme powders were obtained from 5-L fermenter;Cells were induced with 0.5 mM IPTG at 25oC As a result,an epoxide hydrolase from B.megaterium was cloned and purified.The recombinant BMEH exhibited high activity and excellent enantioselectivity toward glycidyl ethers.Epoxide hydrolaseCatalytic formPGE Conc.mMTime minEAspergillus nigercells20240n.i.aAgrobacterium radiobacterenzyme1n.i.a12Bacillus megateriumenzyme20258Table.The comparison of kinetic resolution of EHs and the rBMEH toward PGEa n.i.:no information.还原酶的基因数据挖掘还原酶的基因数据挖掘Cloning and expressionBacillus subtilis 168 genomegenomic DNA of Bacillus sp.ECU0013DNAProteinsE.coli BL21(pET28a-YueD)E.coli BL21(pET28a-FabG)E.coli BL21(pET28a-YtbE)Purification of recombinant reductasesHis trap Ni-NTA column,1ml(0.72.5 cm)Elution:an increasing gradient from 10 to 500 mM of imidazole Flow rate:1 ml/min FabGYueDFigure 1.SDS-PAGE analysis of the purified enzymes.Protein bands were visualized by silver staining.YtbE 基因数据挖掘获得生物催化剂基因数据挖掘获得生物催化剂基因源微生物基因源微生物目标目标基因数基因数活性活性表达数表达数细菌枯草芽孢杆菌3312假单胞杆菌326粘质沙雷氏菌62酵母酿酒酵母159真菌烟曲霉262棒曲霉51合计合计11632重组酯酶库的构建重组酯酶库的构建(2009.01-2009.06)重组还原酶库的构建重组还原酶库的构建(2019.01-2019.06)基因源微生物基因源微生物目标基目标基因数因数活性表活性表达数达数细菌乳杆菌61棒杆菌31红球菌31酵母假丝酵母1610赭色掷胞酵母30鲁氏接合酵母11克鲁维酵母31合计合计35152019-07-14 2 宏基因组技术宏基因组技术2.1宏基因组(metagenome)的概念基因组:某个生物(纯培养)的全部遗传物质。宏基因组(元基因组,环境基因组):来源于环境样本的全部DNA。非培养微生物环境样本:海水、油藏、土壤1克土壤样本中可能含有上万种微生物,因此宏基因组中的单一DNA序列量很大(大于人基因组)宏基因组技术的优势土壤微生物资源丰富,据估计土壤微生物资源丰富,据估计1 g土壤大约有土壤大约有4 000-7 000种近种近1O亿的细菌,生物量可达亿的细菌,生物量可达3003 000kg/ha。原因:任何培养基和培养技术都不能完全再现土壤原因:任何培养基和培养技术都不能完全再现土壤微生物的自然生存环境(化学和生态环境);微生物的自然生存环境(化学和生态环境);宏基因组技术:从环境样品中提取总宏基因组技术:从环境样品中提取总DNA,切割成,切割成一定长度的一定长度的DNA片段与载体连接,转入宿主细胞,片段与载体连接,转入宿主细胞,构建成土壤宏基因组文库,然后筛选目的基因。此构建成土壤宏基因组文库,然后筛选目的基因。此技术技术避开传统微生物分离纯培养方法避开传统微生物分离纯培养方法,成为开发不,成为开发不可培养土壤微生物资源的新途径。可培养土壤微生物资源的新途径。可培养生物占环境样本总生物的百分比例可培养生物占环境样本总生物的百分比例海水Seawater 0.001-0.01 淡水Freshwater 0.25 富营养湖水Mesotrophic Lake 0.1-1 未污染的河口Unpolluted Estuarine 0.1-3 淤泥Act.Sludge1-15 沉淀Sediment0.25 土壤Soil0.3 样本(%)2.2 宏基因组技术的应用宏基因组技术的应用在短短几年内,宏基因组学研究已渗透到各个领域,包括在短短几年内,宏基因组学研究已渗透到各个领域,包括海洋、土壤、热液口、热泉、人体口腔及胃肠道等,并在海洋、土壤、热液口、热泉、人体口腔及胃肠道等,并在医药、替代能源、环境修复、生物技术、农业、生物防御医药、替代能源、环境修复、生物技术、农业、生物防御及伦理学等各方面显示了重要的价值。及伦理学等各方面显示了重要的价值。筛选功能基因筛选功能基因如:酶如:酶/抗生素代谢有关抗生素代谢有关生态学生态学(静态(静态/动态)动态)直接鸟枪法测序,发现新基因(很可能来自非培养微生物)直接鸟枪法测序,发现新基因(很可能来自非培养微生物)2.3 宏基因组研究技术的一般流程宏基因组研究技术的一般流程1.分离分离DNA方法依样本不同方法依样本不同直接法与间接法直接法与间接法2.构建克隆或表达文库构建克隆或表达文库质粒质粒Cosmid,FosmidBAC3.文库的筛选筛选文库的筛选筛选序列驱动序列驱动功能驱动功能驱动底物诱导基因表达法底物诱导基因表达法4.目的基因的序列和功能分析目的基因的序列和功能分析From Figure 2 in Daniel,R.(2019)The Metagenomics of Soil Nature Reviews Microbiology 3:470-478.环境样品环境样品宏基因组研究方法的难点宏基因组研究方法的难点宏基因组技术难点在于宏基因组技术难点在于DNADNA的纯化和表达的纯化和表达腐殖酸等杂质常干扰酶切、连接和转化;腐殖酸等杂质常干扰酶切、连接和转化;基因的活性表达需要正确读码框下的功能域全基因的活性表达需要正确读码框下的功能域全长、均衡密码子偏爱性、正确的折叠和修饰机长、均衡密码子偏爱性、正确的折叠和修饰机制;制;如何提高命中率?如何提高命中率?DNADNA提取和纯化方法提取和纯化方法载体的改进载体的改进筛选方法筛选方法思考题1 世界上主要的基因组数据库有哪些?如何世界上主要的基因组数据库有哪些?如何从这些数据库中挖掘目标酶基因?从这些数据库中挖掘目标酶基因?2 什么是宏基因组技术?简述其主要技术流什么是宏基因组技术?简述其主要技术流程。程。谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!