基因家族分析套路

上传人:无*** 文档编号:101745913 上传时间:2022-06-05 格式:DOC 页数:12 大小:476.50KB
返回 下载 相关 举报
基因家族分析套路_第1页
第1页 / 共12页
基因家族分析套路_第2页
第2页 / 共12页
基因家族分析套路_第3页
第3页 / 共12页
点击查看更多>>
资源描述
-基因家族分析套路一近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢.今天小编带你认识一下不测序也能发文章的思路-全基因组基因家族成员鉴定与分析现在这一领域可是很热奥;一、根本分析内容n 数据库检索与成员鉴定n 进化树构建n 保守domain和motif分析.n 基因构造分析.n 转录组或荧光定量表达分析.二、数据库检索与成员鉴定1、数据库检索1首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了n Brachypodiumdb:.brachypodium.org/n TAIR:.arabidopsis.org/n RiceGenomeAnnotationProject:.n Phytozome:n Ensemble:ensembl.gramene.org/genome_browser/inde*.htmln NCBI基因组数据库:.ncbi.nlm.nih.gov/assembly/term=2已鉴定的家族成员获取。如何获得其他物种已发表*个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件可以从上述数据库中下载,然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以以下数据库中找:a.NCBI:nucleotideandproteindb.c.UniProtKB:.uniprot.org/uniprot/2、比对工具。一般使用blast和hmmer,具体使用命令如下:n LocalBLASTformatdbidb.faspF/T;blastallpblastp(orelse)iknown.fasddb.fasm8b2(orelse)e1e-5oalignresult.t*t.-b:outputtwodifferentmembersinsubjectsequences(db).n Hmmer(hiddenMarkovModel)search.ThesameasPSI-BLASTinfunction.Ithasahighersensitivity,butthespeedislower.mand:hmmbuild-informatafaknown.hmmalignknown.fa;hmmsearchknown.hmmdb.fasalign.out.3、过滤。n Identity:至少50%.n Coverregion:也要超过50%或者蛋白构造域的长度.n domain:必须要有完整的该蛋白家族的。工具pfamdb(pfam.sanger.ac.uk/)和NCBIBatchCD-search.(.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi).n EST支持n BlastandHmmer同时检测到4、通过上述操作获得*家族的所有成员基因家族分析套路二本次主要讲解在基因家族分析类文章中,进化局部分析的内容。主要是进化树的构建与分析。一、构建进化树的根本步骤、多序列比对.Muscleprogram.、Model选择.分别针对蛋白序列和核酸序列的模型选择程序。ProtTestprogramforproteinandModelTestorJmodetlestforDNA(user.qzone.qq./58001704/blog).、算法选择。三种.NJ,MLandBI.、软件选择。MEGA(bootstrapleast1000replicates),phyMLandMrbayes(user.qzone.qq./58001704/main).、进化树修饰.MEGA:view-optionsandsubtree-drawoptions.Alsocanbedecoratedinword(user.qzone.qq./58001704/main)二、具体步骤2.1多序列比对。一般采用muscle。因为MUSCLEisoneofthebest-performingmultiplealignmentprogramsaccordingtopublishedbenchmarktests,withaccuracyandspeedthatareconsistentlybetterthanCLUSTALW.2.2模型选择。对于用蛋白序列构建进化树的可以采用下面命令:java-*m*250m-classpathpath/ProtTest.jarprottest.ProtTest-ialignmfile.phy.运行结果如以下图注意:1“.Phyformat.Onlyallowtencharaters.注意名字不能重复一样。2AIC:AkaikeInformationCriterionframework.3Gammadistributionparameter(G):gammashape.3proportionofinvariablesites:I.2.3 构建进化树2.3.1意义:a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为MEKK,RafandZIK三个亚家族.b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近c基因家族复制分析。研究基因家族复制事件duplicationevents,两种复制事件类型常采用的标准:Tandemduplication:Identityandcoverregionmorethan70%andtightlylinked(Holub,2001).Chromosomalsegmentduplication:PlantGenomeDuplicationDatabase(PGDD:chibba.agtec.uga.edu/duplication/)2.3.2进化树。一般ML树比拟准确,但应结合方法,如NJ树,相互验证。2.3.3进化局部分析:KaKs计算2.3.3.1简单的方法.可以使用下面的网页PAL2NAL(.bork.embl.de/pal2nal/)2.3.3.2标准方法:.a.ParaAT:ParaAT.pl-htest.homologs-ntest.cds-atest.pep-pprocfa*tk-ooutputb.KaKs_Calculatorc.分歧时间计算:DivergenttimeTcalculation.T=Ks/2.10-9.d. Ka/Ks意义: Ka/Ks=1.中性进化。. Ka/KsKa/Ks1.正选择。Positivelyselectedgenesandproducefitnessadvantagemutationstoevolvenewfunctions.基因家族分析套路三本节主要讲基因构造分析套路1、Motif分析使用软件MEME,命令如下:memesample.fa-dnarevp-nmotifs10-modzoops-minw6-ma*w50meme_htmlFormat.html2、基因构造分布图可以使用在线GSDS2.0:website:gsds.cbi.pku.edu./用法如下:结果展示3、基因构造常见统计信息:自己e*cel或写程序统计a.Thenumberofintronande*on.b.Thesplicingintronpatterninculding0,1,2phase.c.Themarkedregion.Fore*amplekinasedomain.d.sequencelength.e.UTR.4、启动子分析。:主要做植物的:考前须知:a.IEbrower.b.Onlyonesequenceforoncesearchandthelengthwaslimitedin1000bp.c.DNAsequenceorigin:1000or1500bpupstreamofATGofonegene.分析结果:基因家族分析套路四一、转录组及芯片原始数据下载1、GEOdatesets/profile(.ncbi.nlm.nih.gov/gds).。用法见以下图。GEO数据ID命名规则:GPL-GSE-GSM.GPL:platformGSE:multipleseries.GSM:multiplesamples.GDSGSE.ThedifferenceconcentratedonthedatalabeledGDScanbeanalyzedforonegeneonline.Itissimpleandeasily.ThedatainthesameGPLcanbeusedtopareine*periment下面是在线分析转录组数据的用法:2、EBIArrayE*press(.ebi.ac.uk/arraye*press/)该数据库下载数据用法如下:3、PLE*db(.ple*db.org/).该数据库下载数据用法如下,注意用户名和密码!4、SRAdb(.ncbi.nlm.nih.gov/sra/)5、DRAdb二、数据处理拿到原始数据,要进展处理,才能进展后续数据分析。1、芯片数据。原始数据格式“.cel格式。以AffyMicroarray数据处理为例讲述主要的命令如下:library(affy);library(makecdfenv);librarybarleyGenome=make.cdf.env(“barleyGenome.cdf)mydataesetwrite.e*prs(eset,file=mydata.t*t)designcolnames(design)fitcontrast.matri*fit2fit2topTable(fit2,coef=1,adjust=fdr,sort.by=B,number=10)*Generateslistoftop10(number=10)differentiallye*pressedgenessortedbyB-values(sort.by=B)forfirstparisongroup.write.table(topTable(fit2,coef=1,adjust=fdr,sort.by=B,number=500),file=limma_plete.*ls,row.names=F,sep=t)*E*portspletelimmastatisticstableforfirstparisongroup.results-decideTests(fit2,p.value=0.05);vennDiagram(results)2、转录组数据处理。原始数据格式为sra或fastq格式。Sra可以转换为fastq然后运用下面的命令进展处理。1获得cleandata;fast*_clipper:clipadapter.fastq_quality_filter:basequalitycontrol.fastq_quality_trimmer:trim5lowqualitybases.2计算RPKM.bowtie2-buildpath/db.seqpath/dbtophatdbread.fastqbam_filterpath/accepted_hits.bamsamtoolsview-h-ooutput-uniq.samoutput_uniq.bame*celforcalculation(lowfrequencyreads5wereomitted).3差异表达的基因。寻找存在差异表达的家族成员,推测其可能的功能。有下面两种分析策略,均可采用。a.倍数法。对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因b.CV值。计算*个成员在不同处理下的基因表达变化。CV=SD/mean.Usedindifferenttissuesororgansanlysis. z.
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!