基因组数据分析PPT课件

上传人:钟*** 文档编号:400358 上传时间:2018-07-27 格式:PPT 页数:86 大小:4.27MB
返回 下载 相关 举报
基因组数据分析PPT课件_第1页
第1页 / 共86页
基因组数据分析PPT课件_第2页
第2页 / 共86页
基因组数据分析PPT课件_第3页
第3页 / 共86页
点击查看更多>>
资源描述
基因组数据注释和功能分析,1,通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理 介绍多序列联配工具ClustalX 分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法,2,序列比对的进化基础,序列比对的目的: 从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系通过判断两个序列之间的相似性来判定两者是否具有同源性 相似性:直接的数量关系,如:序列之间相似部分的百分比 同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断,3,BLAST,基本局部比对搜索工具 (Basic Local Alignment Search Tool)NCBI 上 BLAST 服务的网址:http:/www.ncbi.nlm.nih.gov/blast/NCBI 的 BLAST 程序及数据库下载网址: ftp:/ftp.ncbi.nlm.nih.gov/blast,4,选择物种,选择blast程序,5,Query Sequence,Amino acid Sequence,DNA Sequence,tBLASTx,BLASTx,BLASTn,tBLASTn,BLASTp,Nucleotide Database,Protein Database,Nucleotide Database,Nucleotide Database,Protein Database,Translated,Translated,6,7,与核酸相关的数据库,与蛋白质相关的数据库,8,选择数据库,序列或目标序列的GI号,以文件格式上传,9,配对与错配,空位罚分,10,PSI-BLAST: 位点特异迭代,11,打分矩阵: PAM 30 PAM 70 BLOSUM80 BLOSUM62 BLOSUM45,12,选择打分矩阵(scoring matrix),The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1. The BLOSUM family Based on local alignments. BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins.,13,进行比对的数据库,图形化结果,14,The Expect value (E) is a parameter that describes the number of hits one can “expect“ to see just by chance when searching a database of a particular size.,15,16,上机实习1:网上运行blastx和blastn,(NCBI blast网址:http:/www.ncbi.nlm.nih.gov/BLAST/)lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC对contig34进行网上blastn(演示), blastx(自行操作)比对,17,本地运行BLAST,下载 (http:/www.ncbi.nlm.nih.gov/blast/download.shtml ) 安装(安装到C:) 数据库的格式化(formatdb) 程序运行 (blastall),18,19,双击安装到D盘 产生三个文件夹 bin data doc,将 db,in复制到 Blast/bin文件夹下,bin含可执行程序(将数据库及需要比对操作的数据放入该文件); data文件夹含打分矩阵及演示例子的序列数据信息; doc文件夹含关于各子程序的说明文档。,20,数据库的格式化,formatdb命令用于数据库的格式化:formatdb option1option2option3 formatdb常用参数-i database_name 需要格式化的数据库名称-p TF 待格式化数据库的序列类型(核苷酸选F;蛋白质选T;默认值为T)例:formatdb -i db -p T,对蛋白质数据库“db”进行格式化,21,程序运行,blastall命令用于运行五个blast子程序:blastall option1option2option3 blastall常用参数四个必需参数-p program_name, 程序名,根据数据库及搜索文件序列性质进行选择;-d database_name,数据库名称, 比对完成格式化的数据库;-i input_file, 搜索文件名称;-o output_file, BLAST结果文件名称;2个常用参数-e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5;-F filter? 过滤低复杂性序列,默认为T,默认低复杂性序列不参加比对; 例: blastall -p blastx -d db -F F -i in -o out -e 2e-5,22,blast部分参数:,23,上机实习2:本地运行blastx,进入DOS命令行提示符状态 (“运行” cmd) 进入C盘 “cd ” 进入包含序列数据的bin目录下 “cd Blastbin” 察看目录下内容 “dir” 格式化数据库db “formatdb i db p T”运行blastx“blastall p blastx i in d db o out”察看结果 more out.txt,输入,数据库类型:F/T,Blast程序 序列输入 数据库 结果输出,24,25,输入“cd ”-回车 回到安装目录 C盘,输入“cd blastbin”-回车 到达blast程序下bin文件夹,26,输入“dir”-回车 察看bin文件夹下内容,bin文件夹下包含以.exe为后缀的程序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”,27,输入“more db”-回车 察看db文件内容,空格键翻页 输入“q”跳出,28,输入“formatdb i db p T ” -回车 对db数据库进行格式化,29,输入“dir ” -回车 察看bin文件夹下内容,格式化以后产生的文件,30,输入“blastall p blastx i in d db o out ” -回车 运行blastx程序,31,产生的结果文件 “out”,32,用”more out” 察看结果文件,33,EST数据注释小结:,一、注释评价相同物种中有高度相似的序列 其它物种有高度相似的序列 其它物种有中度相似的序列 其它物种相似度低的序列 含有某些结构域或者基序(motif),34,二、程序选择序列信息 BLAST FASTA(http:/www.ebi.ac.uk/fasta/)较高敏感度,但速度较慢(可通过ktup值调节) BLITZ(http:/www.ebi.ac.uk/searches/blitz.html)更为灵敏,所需时间更长三、低复杂度区域(LCRs) 低复杂度区域过滤 将该类区域转化为不明确字符(蛋白质用X,核酸用N),35,多序列比对的目的,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。,36,分子钟 不同生物系统的同一血红蛋白分子的氨基酸随着时间的推移而以几乎一定的比例相互量换着 (Zuckerkandl&Pauling,1962 ) 蛋白质,基因序列在单位时间以大致恒定的速度进行置换 直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的. 旁系同源(paralogs): 同源的基因是由于基因复制产生的.用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,37,paralogs,orthologs,38,多序列比对的应用:系统发育分析(phylogenetic analysis) 结构预测(structure prediction) 序列基序鉴定(sequence motif identification) 功能预测(function prediction)ClustalW/ClustalX:一种全局的多序列比对程序,可以用来绘制亲缘树,分析进化关系。 MEGA4,39,ClustalW的运行,本地运行命令行操作的ClustalX(linux) 窗口化操作的ClustalX(windows)下载页面:(http:/www.ebi.ac.uk/clustalw)网上运行 (http:/www.ebi.ac.uk/clustalw),40,目标序列,各种参数设定,下载ClustalX,41,Jalview,结果下载,42,43,上机实习2:本地运行ClastalX,17-RNASE1.fasta多序列比对 (Multiple Alignment) 构建进化树 (Bootstrap N-J),44,在 C:zcnishiyan1clustalx1.83 文件夹下,找到clustalx.exe 双击打开,45,Clustalx窗口,46,点击File下拉菜单中 Load sequences选项, 打开序列文件17-RNASE1.fasta.txt,47,打开后的界面,48,可在Alignment下拉菜单中的Alignment Parameters中设定各个参数,49,点击Alignment下拉菜单中的Do Complete Alignment 进行比对,50,比对结果* : 和空格依次代表改为点的序列一致性由高到低,51,选择Trees下拉菜单中的Draw N-J Tree构建进化树,并且保存,52,在 C:zcnishiyan1clustalx1.83 文件夹下,找到njplotWIN95.exe 双击打开 用于打开进化树文件,53,在njplotWIN95中打开 刚才构建的进化树 (文件后缀为.ph),54,在ClustalX中采用Bootstrap检验进化树,Bootstrap重复值至少为100 (默认设置为1000),55,在njplotWIN95中打开进化树 (文件后缀为.phb),56,点击 Bootstrap Value 前的方框 在各节点前显示该点所通过Bootstrap检验的次数,57,MEGA4,一个关于序列分析及比较 统计的工具包包含距离建树,MP等建 树法 自动或手动进行序列比对; 推断进化树; 估算分子进化率,进行进化假设测验; 联机进行数据库搜索; ,58,联机BLAST,59,输入序列号:NM_198232,选择数据库 (Nucleotide collection),60,61,选择符合要求的序列: 19386966 93209576 19386968 19386946,62,提取所选序列,63,64,以genbank格式显示,65,点击Add to Alignment,66,自动跳出序列窗口,67,进行ClustalW比对,68,DataExport AlignmentMEGA format 命名为17RNASE.meg,保存到目录C:zcnishixi1,69,70,更改参数设定为: 差异位点百分数(p-distance),显示两两序列间距离,71,进行分子钟检验(Molecular Clock Test),选择外类群(Outgroup): H. sapiens RNASE1 A和B序列 M. mulatta RNASE1 P. nemaeus RNASE1 采用默认设置,72,73,MEGA4可以识别fasta格式文件 将 17-RNASE1.fasta.txt 重命名为 17-RNASE1.fasta,74,编辑 标注保守区域 标注不匹配的区域,选择打开方式为MEGA4,打开17-RNASE1.fasta, 自动跳出序列窗口,75,在MEGA4主窗口构建进化树,76,选择Bootstrap重复次数,至少为100次,77,进化树的可靠性分析,Bootstrap Method,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列 重复上面的过程,得到多组新的序列 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性 至少进行100次重复取样,78,79,Oringinal tree Bootstrap consensus tree 节点上的值为通过Bootstrap检验的次数,选择模型为 P-distance,80,不同树型,Tree:树型选择 Branch:分支信息修改 Label:分支名称修改 Scale:标尺设定 Cutoff:cut off 值,81,82,上机练习3:MEGA4.0,83,谢谢!,84,选择构树方法,最大简约法(maximum parsimony,MP)对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。 基于距离矩阵 UPGMA (Unweighted Pair-Group Method using Anathematic Average)将类间距离定义为两个类成员距离的平均值,广泛应用于距离矩阵NJ(Neighbor-joining)把所有n个序列两两比对 ,构建NJ树(起指导作用),每个对比后的成对序列都可以跟第三条序列或者另一个新的alignment比对,按照距离远近,用来决定下一个参与 比对的序列,85,86,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!