五基因结构预测与基因表达分析课件

上传人:风*** 文档编号:159132974 上传时间:2022-10-08 格式:PPT 页数:95 大小:15.31MB
返回 下载 相关 举报
五基因结构预测与基因表达分析课件_第1页
第1页 / 共95页
五基因结构预测与基因表达分析课件_第2页
第2页 / 共95页
五基因结构预测与基因表达分析课件_第3页
第3页 / 共95页
点击查看更多>>
资源描述
Chapter 5 基因结构预测基因结构预测与基因表达分析与基因表达分析蛋白质序列蛋白质序列翻翻译译调控元件分析调控元件分析编码区预测编码区预测基因结构分析基因结构分析选择性剪切选择性剪切SNP序列比对序列比对功能注释功能注释KEGGGO系统发育树系统发育树蛋白质理化性质蛋白质理化性质二级结构预测二级结构预测结构域分析结构域分析重要信号位点分析重要信号位点分析三级结构预测三级结构预测基因预测和基因结构分析基因预测和基因结构分析u生物信息学中的重要内容之一生物信息学中的重要内容之一u预测编码蛋白质的基因预测编码蛋白质的基因u排除重复序列排除重复序列u确定开放阅读框(确定开放阅读框(open reading frame,ORF)内含子内含子/外显子外显子剪切位点识别;选择性剪切分析剪切位点识别;选择性剪切分析 (一)(一)基因预测的基本分析内容基因预测的基本分析内容u确定基因的调控区确定基因的调控区核心启动子核心启动子/转录因子结合位点转录因子结合位点/转录启始位转录启始位点的识别;转录终止信号的预测;点的识别;转录终止信号的预测;CpG 岛的识别等岛的识别等 ATG TGA5-UTR3-UTRExon 1Exon 2Promoter (二)(二)基因预测的基本方法基因预测的基本方法 1.序列相似性搜索序列相似性搜索基因组基因组DNA序列序列A.在在6个阅读框中进行翻译并与蛋白质数据库中的序个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如列进行比较分析(如Blastx)B.对对EST数据库中同一生物的数据库中同一生物的cDNA序列进行比较序列进行比较分析(如分析(如Blastn)确定基因数目和对应的确定基因数目和对应的ORFu 分析举例:水稻分析举例:水稻Xa21基因区段基因区段DNA序列(序列(U37133)v CDS:1-2677 bp处和处和3521-3921 bp处处v Blastx分析结果分析结果(检索蛋白质数据库):与(检索蛋白质数据库):与水稻蛋白质序列比较水稻蛋白质序列比较v Blastn分析结果分析结果(检索(检索est other数据库):数据库):与水稻与水稻cDNA序列比较序列比较 取决于数据库中取决于数据库中EST数据的数量和长度数据的数量和长度 通过通过“Tree view”查看与查看与U37133序列序列同源的其它同源的其它EST序列序列 有些蛋白质序列是推测获得的有些蛋白质序列是推测获得的Blastx结果结果与与cDNA的比对结果的比对结果 2.根据模式序列预测基因根据模式序列预测基因u 各种基因预测软件各种基因预测软件u 取决于人们取决于人们对已知基因结构特征的认识对已知基因结构特征的认识u 采用统计学方法采用统计学方法v 基于一个或多个已知序列模式对未知序基于一个或多个已知序列模式对未知序列进行分类列进行分类v 密码子偏爱性密码子偏爱性v 对发现的模式进行统计检验对发现的模式进行统计检验 启动子结构启动子结构 外显子、内含子外显子、内含子u 原核微生物(大肠杆菌原核微生物(大肠杆菌lexA基因的基因的DNA模式)模式)v LexA repressor的结合位点(启动子区段)的结合位点(启动子区段)CTGNNNNNNNNNNCAGv 与与RNA聚合酶相互作用位点(聚合酶相互作用位点(-10至至-35的启动的启动子区)子区)TTGACA和和TATAATv 核糖体结合位点(转录起始位点后)核糖体结合位点(转录起始位点后)GGAGGu 真核生物真核生物v 基因结构复杂基因结构复杂v 已知外显子、内含子外显子边界、启动子序已知外显子、内含子外显子边界、启动子序列特征列特征基因预测方法基因预测方法 不同方法预测不同方法预测 核酸序列出现频率统计法 同源比较法 隐马尔可夫模型法 决策树方法 语言学方法 神经网络分析法 训练数据集有针对性训练数据集有针对性 原核生物vs.真核生物 动物vs.植物基因预测软件基因预测软件基因结构分析工具基因结构分析工具GENSCANhttp:/genes.mit.edu/GENSCAN.htmlWeb/LinuxGeneMarkhttp:/www.ebi.ac.uk/genemark/http:/opal.biology.gatech.edu/GeneMark/WebGene Finderhttp:/rulai.cshl.org/tools/genefinder/(Dr.Michael Zhang)WebFGENESHhttp:/ LinuxFgeneSB/FgeneSVhttp:/ http:/compbio.ornl.gov/generation/WebGeneBuilder http:/r.it/webgene/genebuilder.html WebFGENESH+/+http:/ Web/LinuxGenomeScan http:/genes.mit.edu/genomescan.html WebGeneWise http:/www.sanger.ac.uk/Software/Wise2/WebGRAILhttp:/grail.lsd.ornl.gov/grailexp/Web/Linux/WindowsBCM Gene Finderhttp:/searchlauncher.bcm.tmc.edu/seq-search/gene-search.htmlWebu 目前还没有一个基因预测工具可以完全正确地预测一个目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因基因组中的所有基因(Mathe C,Sagot MF,Schiex T,Rouze P.Current methods of gene prediction,their strengths and weaknesses.Nucleic Acids Res.30(19):4103-4117,2002)u 目前最好的基因预测工具预测一个基因组中的所有外显目前最好的基因预测工具预测一个基因组中的所有外显子的准确率最多达到子的准确率最多达到75%,预测基因结构的准确率,预测基因结构的准确率100相似度相似度95%S.Gupta et al.,Genome wide identification and classification of alternative splicing based on EST data,2004,20(16):2579-2585基因周围调控序列分析基因周围调控序列分析CpG岛位于真核生物基因转录起始位点上游,GC含50%,长度200bp转录起始位点(Transcription start site,TSS)PY2CAPY5核心启动子(Core promoter element)TATA box,Pribnow box 上游启动子元件(Upstream promoter element)CAAT box,GC box,SP1,Otc转录终止信号AAUAAA,UUUUUU操纵子、终止子、增强子、沉默子启动子数据库启动子数据库TransFac http:/www.gene- http:/www.epd.isb-sib.ch/TRRD http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd Jasparhttp:/jaspar.cgb.ki.se/cgi-bin/jaspar_db.plZhang Labhttp:/rulai.cshl.org/software/index1.htm DBTSShttp:/dbtss.hgc.jp/index.htmlMIRAGEhttp:/www.ifti.org/Bacillus subtilis http:/dbtbs.hgc.jp/Drosophila melanogaster http:/www-biology.ucsd.edu/labs/Kadonaga/DCPD.html E.coli http:/arep.med.harvard.edu/ecoli_matrices/Human http:/zlab.bu.edu/mfrith/HPD.html PlantProm http:/ Planthttp:/www.dna.affrc.go.jp/PLACE http:/oberon.fvms.ugent.be:8080/PlantCARE/index.html Saccharomyces cerevisiae http:/cgsigma.cshl.org/jian/CpG Island 分析分析CpG Island http:/ finderhttp:/ Network Promoter Predictionhttp:/www.fruitfly.org/seq_tools/promoter.htmlWebSoftberry:BPROM,TSSP,TSSG,TSSWhttp:/ ftp:/ariane.gsf.de/pub/win95_NT/ConsInspector.exeWindows/LinuxCisterhttp:/zlab.bu.edu/mfrith/cister.shtmlWeb Promoter预测Cis-regulatory elements analysisPlantCARE转录终止信号预测转录终止信号预测Hcpolyahttp:/r.it/webgene/wwwHC_polya.htm1Web POLYAHhttp:/ http:/rulai.cshl.org/tools/polyadq/polyadq_form.htmlWeb编码区综合分析举例编码区综合分析举例CpG岛分析No调控序列所在位置Cister结果:881-896 CCAAT908-923 CCAAT转录终止信号GetOrfGenScan735-773 964-1020 1054-1146 1112-1156 1341-1625 1054-1490(1054-1145,1268-1490)CCTAGTCCAGACGCCATGGGT比对分析(Blastx,Blastn,Blastp)Blastx结果:gamma globin:1054-11461266-1493 http:/zlab.bu.edu/mfrith/HPD.htmlHuman gene 5HSA004013:-10001000基因表达分析基因表达分析利用已发表基因芯片数据分析目标基因的表达情况 GEO serves as a public repository for a wide range of high-throughput experimental data.These data include single and dual channel microarray-based experiments measuring mRNA,miRNA,genomic DNA(arrayCGH,ChIP-chip,and SNP),and protein abundance,as well as non-array techniques such as serial analysis of gene expression(SAGE),mass spectrometry peptide profiling,and various types of quantitative sequence data.GEO数据库查询数据库查询根据关键词查询或或根据GEO accession查询可下载这两种格式作进一步分析探针探针不同处理条件下的基因表达量不同处理条件下的基因表达量TXT格式如何判断目标基因所对应的芯片探针?根据soft格式文件中探针的注释信息利用PlantGDB数据库中的PLEXdb Probe Match工具查询选择数据库选择数据库粘贴目标基因粘贴目标基因CDS序列序列其它资源其它资源GenevestigatorGenevestigator is a reference expression database and meta-analysis system.It allows biologists to study the expression and regulation of genes in a broad variety of contexts by summarizing information from hundreds of microarray experiments into easily interpretable results.A user-friendly interface allows you to visualize gene expression in many different tissues,at multiple developmental stages,or in response to large sets of stimuli,diseases,drug treatments,or genetic modifications.This type of meta-analysis is core to understanding the spatio-temporal-response regulation of genes,to identify or validate biomarkers,and to find out which subnetworks are commonly affected in different diseases and conditions.注册后可以免费试用以软件以软件Genevestigator tool的形式在的形式在PC机上打开进行操作。目机上打开进行操作。目前整合了拟南芥、水稻、人、老鼠等物种的基因芯片表达数据前整合了拟南芥、水稻、人、老鼠等物种的基因芯片表达数据Plant Expression DatebaseArrayexpresshttp:/www.ebi.ac.uk/microarray-as/ae/芯片表达数据分析GEPS(Gene Expression Pattern Scanner)需要输入的文件格式GEPS分析所用数据格式,以分析所用数据格式,以txt为扩展名保存为扩展名保存根据芯片文件中数据根据芯片文件中数据类型进行选择类型进行选择 查找共表达的基因;具有相查找共表达的基因;具有相似表达的基因等。似表达的基因等。共表达的基因表示在相同组共表达的基因表示在相同组织或处理条件下表达量相当,织或处理条件下表达量相当,彼此间可能存在互作;彼此间可能存在互作;相似表达的基因相似表达的基因,不考虑其,不考虑其表达水平高低,表达水平高低,只是看其表达只是看其表达变化趋势是否一致,这些基因变化趋势是否一致,这些基因可能行使相同或相似的功能可能行使相同或相似的功能探察不同基因在不同组织探察不同基因在不同组织中的特异表达情况中的特异表达情况基因间表达变化的比较芯片表达数据分析Cell Montagehttp:/cellmontage.cbrc.jp/cgi-bin/index.cgi芯片表达数据分析dChip(生物软件网上很多此类软件)读入分析数据建立filter文件(必须的)参数设定聚类分析,包括基因聚类和sample聚类颜色深浅表示在不同组织中表达量的高低图片缩放和放大可利用“上下左右箭头”或结合ctrl键上机操作上机操作1.熟悉和掌握基因结构及调控元件预测工具FgeneSH与PlantCARE等的使用;2.掌握microarray data的查询与下载,学会芯片数据分析工具GEPS及dChip的使用。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!