生物学常用软件简介.ppt

上传人:max****ui 文档编号:14515604 上传时间:2020-07-22 格式:PPT 页数:87 大小:5.05MB
返回 下载 相关 举报
生物学常用软件简介.ppt_第1页
第1页 / 共87页
生物学常用软件简介.ppt_第2页
第2页 / 共87页
生物学常用软件简介.ppt_第3页
第3页 / 共87页
点击查看更多>>
资源描述
生 物 信 息 学常 用 软 件 简 介,前言,生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 上面是狭义的生物信息学含义,也是现阶段生物信息学的基本工作.,内容概要,一 生物信息学软件的主要功能简介 1.数据的基本处理 2.序列的比对 3.基因/基因组的注释 4.Snp分析 5.进化分析 6.基因表达分析 7.蛋白质结构预测,二.生物学软件部分常见功能使用技巧 PCR 引物设计 DNA、蛋白质序列同源分析及进化树构建 Contig Express-DNA 序列片断拼接 DNA 模拟电泳,三 生物信息学软件的系统平台 生物信息学软件一般可以分成商业的和开源的两大类,大部份商业的软件都是用在windows平台下的,而大部分开源软件是在unix/linux平台下的. 大部分的软件基于unix/linux平台.,一 生物信息学软件的主要功能简介,1.数据的基本处理 (1)数据的常用格式: 生物信息学中数据的常用格式有: Fasta、NBRF/PIR,EMBL、CLUSRAL、Genbank、phylip等。 这些格式虽然不同,但用一些软件可以进行转换,下面一起看一下Fasta和EMBL,FASTA格式又称Pearson的格式,该序列格式要求序列的标题行以大于号开头,下一行起为具体的序列。一般建议每行的字符数不超过60个,以方便程序处理。多条核苷酸序列格式即将该格式连续列出即可,ID identification code for sequence in the database AC accession number giving origin of sequenceDT dates of entry and modificationKW key cross-reference words for lookup up this entryOS, OC source organismRN, RP, RX, RA, RT, RL literature reference or source DR i. d. In other databasesCC Description of biological functionFH, FT information about sequence by base position or range of positiions source range of sequence, source organism misc_signal range of sequence, type of function or signal mRNA range of sequence, mRNA CDS range of sequence, position of intron mutation sequence position, change in sequence for mutationSQ count of A, C, G, T and other symbolsgaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc cttttgctgt 60atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg ttaacggcca 120./ symbol to indicate end or sequence,EMBL格式,(2)峰图转化(phred) Phred是phredphrap软件包的一部分,主要是用来分析和装配基因组中大片段序列。 phred能处理测序仪直接生成的色谱图,并且产生相关的信息。 phredphrap软件包由华盛顿大学分子生物技术学院的PhilGreen和BrentEwing开发,主要用于学术科研活动。官方网站: http:/www.phred.org 中文教程: ,(3)文件转换(phd2fasta) 作用:把phred或phrap的计算结果转换成fasta格式软件的主页: http:/bldg6.arsusda.gov/mtucker/Public/Consed/phd2fasta.html,(4)载体屏蔽(cross_match) 它是phrap软件的一部份,用于比对两套DNA序列,要求输入fasta格式的数据,输出的内容可以有三种:日志、被屏蔽了相应序列后的序列文件(也是用fasta格式),标准屏幕输出。,Cross_match is a general purpose utility for comparing any two DNA sequence sets using the Smith-Waterman algorithm. For example, it can be used to compare a set of reads to a set of vector sequences and produce vector-masked versions of the reads, a set of cDNA sequences to a set of cosmids, contig sequences found by two alternative assembly procedures (for example, phrap and xbap) to each other, or phrap contigs to the final edited cosmid sequence. It is slower but more sensitive than BLAST.,Dot plot of a cross_match comparison of strains MGAS8232 and SF370 genome sequences. cross_match was run with default parameters except the minimum match was set to 100,Smoot J. C. et.al. PNAS 2002;99:4668-4673,(5)序列的聚类拼接 I 序列组装(phrap) phrap is a program for assembling shotgun DNA sequence data. Among other features, it allows use of the entire read and not just the trimmed high quality part, it uses a combination of user-supplied and internally computed data quality information to improve assembly accuracy in the presence of repeats, it constructs the contig sequence as a mosaic of the highest quality read segments rather than a consensus, it provides extensive assembly information to assist in trouble-shooting assembly problems, and it handles large datasets.,(II)序列拼接(cap3) CAP sequence can do: 1. Use of forward-reverse constraints to correct assembly errors and link contigs. 2. Use of base quality values in alignment of sequence reads. 3. Automatic clipping of 5 and 3 poor regions of reads. 4. Generation of assembly results in ace file format for Consed. 5. CAP3 can be used in GAP4 of the Staden package.,2.序列的比对 序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。,(1)全局比对 I clustal w(多序列全局比对) CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。现在的版本是clustal w2,Clust w2可以用于核酸或蛋白质的多序列比对,也可以用来构建系统进化树。它的使用方式可以在线使用,也可以使用email使用。,II MUSCLE MUSCLE是一个开源软件,它的作用是可以对蛋白质和核酸进行多序列比对,在运行速度和精度上都比clustal w要好,它可以在网络上运行,也可以下载到本地运行。,3.1.3 HMMER HMMER是可以用来搜索使用统计模型或概要文件“隐马尔可夫模型”(HMM)的基因序列数据库的一个应用程序包。可以从http:/hmmer.wustl.edu/处免费下载HMMER应用程序包。可以在独立的HMMER服务器上安装HMMER应用程序包,也可以在联合服务器上安装它。,Programs in HMMER Currently, the HMMER package contains nine programs. Two of these are programs for database searching: hmmpfam Search an HMM database for matches to a query sequence. hmmsearch Search a sequence database for matches to a single profile HMM. The other programs in the package are: hmmalign Align sequences to an existing model. hmmbuild Build a model from a multiple sequence alignment. hmmcalibrate Takes an HMM and empirically determines parameters that are used to make searches more sensitive, by calculating more accurate expectation value scores (E-values). hmmconvert Convert a model file into different formats, including a compact HMMER 2 binary format, and best effort emulation of GCG profiles. hmmemit Emit sequences probabilistically from a profile HMM. hmmfetch Get a single model from an HMM database. hmmindex Index an HMM database.,(2)局部比对 I blast: 基于局部比对算法的搜索工具,可用于核酸和蛋白质序列的局部比对。 最新的blast还可以检索pcr引物,II genwise Genwise用来做蛋白质和dna序列间的比对,软件比对过程中会考虑剪切位点的信息,所以可以定义出内含子/外显子结构,它可以把基因的多个外显子链接起来,从而得到基因整体的比对情况。 一次只能进行一条蛋白质序列和一条dna序列的比对。,(3)Fasta软件 另一个常用的核酸和蛋白质序列库搜索程序是FASTA,即FASTN和FASTP程序的新版本。FASTA首先在序列库中进行快速的初检,找出与待检序列高度相似的序列。这一快速检索局限于待检序列和序列库序列之间较短的完全相同序列区段上。,3.基因/基因组的注释 (1)重复序列分析 真核生物的基因组相当于基因的一股由只有一个复制DNA序列(也称单一DNA,unique sequence,single copy seqence,nonrepetitive sequence等)和具有多数反复存在的DNA顺序组成。称后者为重复顺序。 研究重复序列也具有十分重要的意义。,I Reaepat masker Repeat Masker 是一个屏蔽dna序列中转座子重复序列和低复杂度序列的程序,它将输入序列中已知的重复序列都屏蔽为N或X,并给出相应的重复序列统计列表。,II Trf 用来寻找DNA序列中的串联重复序列,重复单元可以从1bp到500bp,序列的大小可以超过5M.,III LTR_STRUC 它不同于其它基于序列同源比对的方法,而是根据转座子的结构特征,从dna序列上预测转座子的位置和结构。,(2)Rna分析 I trnascan 这个软件通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,可以识别约99%的真tRNA基因,软件可以在线使用,也可以下载单机版。,II microRNA的相关软件 microRNA也可写作miRNA,它广泛存在于真核生物中,是一组不编码蛋白质的短序列RNA,它本身不具有开放阅读框架ORF,是一类高度保守的基因家族。,常用到的软件有: MIRscan ProMir miRNAda 等,III snoRNA 这是近些年来生物学研究的一个热点,它可以独自转录,也可以由内含子编码。 Snoscan软件包可以用来对snoRNA进行预测和分析。,(3)基因预测 I Glimmer 主要用于原核生物,它对某一物种的已知基因序列生成一个马尔可夫模型参数集合,再应用这个参数集对dna序列进行基因预测。,II GlimmerM 是TCR最早开发的用于预测plasmodium falciparum的一个软件,适用于密度在20%左右的小的真核生物基因预测的软件。,III genscan Genscan是基于广义的隐马尔可夫模型的人类及脊锥动物基因预测软件。现在还有和适用于果蝇、拟南芥和玉米的专用版本。,IV twinScan 它是用于真核生物的基因结构预测的软件,通过基因组序列的比较来预测基因,比Genescan要精确。,V BGF 由北京 基因组研究所开发的,基于广义隐马尔可夫模型和动态规划算法的基因预测软件。主要用于水稻、家蚕、家鸡等物种的基因注释。,VI Fgenesh 英国的sanger中心开发的,基于广义隐马尔可夫模型的真核生物基因预测软件,已经测序的物种基本上都可以支持,准确性相对较高,特别是在植物基因预测上应用较广。,(4)基因功能注释 I Interproscan 是一个集成了蛋白质结构和功能位点的数据库,集成了许多数据库提供的蛋白质序列中的各种局域模式,提供了一个较为全面的分析工具。,II WEGO 由BGI开发,应用于许多重要的基因组计划中,如水稻基因组,家蚕基因组,已经成为基因注释分析下游的一个日常工具。,4.Snp分析 全称Single Nucleotide Polymorphisms,是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。 SNP成为第三代遗传标志,人体许多表型差异、对药物或疾病的易感性等等都可能与SNP有关,(1)Polyphred Polyphred是一个基于测序峰图预测SNP的一套软件,它可以考虑到双峰的情况,对杂合子的预测有一定的优越性。它的准确性和测序的质量有关,测序质量高,准确性也就高。,(2)SNPdector 是一个基于PCR重测序检测SNP的软件包,这个软件可以检测多种序列突变,特别是对于杂合子的检验。,5.进化分析 生物进化过程中生物大分子的演变,包括前生命物质的演变;蛋白质分子和核酸分子的演变以及细胞器和遗传机构(例如遗传密码)的演变。分子进化的研究可以为生物进化过程提供佐证,为深入研究进化机制提供重要依据。,(1)Phylip 是一套免费的系统发育推断软件包。 里面包含了许多的子程序 它主要可用来构建系统进化树,(2)Paml 是基于最大似然估计的对蛋白质和核酸序列进行系统发育分析的软件。可以实现系统发育树的构建、祖先序列估计、进化模拟和KaKs计算等。,(3)KaKs_calculator 是用于计算非同义替换率和同义替换率的软件程序包。采用模型选择和模型平均策略,集成了几个用于计算Ka和Ks的算法。,(4)FGF(fishing gene family) 由北京华大基因研究中心开发的一套用来在特定的基因组里查询蛋白质并构建该家族分子进化树的软件系统,可以用来分析基因的结构、拷贝数和进化关系等。,(5)Mega Mega是一款在windows平台下运行的分子进化和遗传学分析的软件。它由于界面友好,使用其来较为方便,所以,得到了许多研究人员的喜爱。,6.基因表达分析 (1)EST表达序列分析 EST指的是从一个随机选择的cDNA克隆进行5端和3端单一次测序获得的短的cDNA部分序列,代表一个完整基因的一小部份,在数据库中的长度20700bp不等。,EST预处理时用到的软件 Basecalling Phred Phd2fasta Cross_match Chimeric Blast Repeatemasker 等,(2)生物芯片分析 生物芯片分析的软件虽然很多,但是目前从反应样品制备到芯片制作,芯片检测,数据分析等一体化的软件还较少。 主要有以下几种软件。,I 基因芯片综合分析软件。 ArrayVision 7.0 功能强大的商业版基因芯片分析软件,不仅可以进行图像分析,还可以进行数据处理,方便protocol的管理功能强大,商业版正式版:6900美元。 Arraypro 4.0 Media Cybernetics公司的产品,该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者,相信arraypro也不会差。 phoretix Array Nonlinear Dynamics公司的基因片综合分析软件。 J-express 挪威Bergen大学编写,是一个用JAVA语言写的应用程序,界面清晰漂亮,用来分析微矩阵(microarray)实验获得的基因表达数据,需要下载安装JAVA运行环境JRE1.2后(5.1M)后,才能运行。,II 基因芯片阅读图像分析软件 ScanAlyze 2.44 斯坦福的基因芯片基因芯片阅读软件,进行微矩阵荧光图像分析,包括半自动定义格栅与像素点分析。输出为分隔的文本格式,可很容易地转化为任何数据库。,III 基因芯片数据分析软件 Cluster 斯坦福的对大量微矩阵数据组进行各种簇(Cluster)分析与其它各种处理的软件。 SAM Significance Analysis of Microarrays 的缩写,微矩阵显著性分析软件,EXCEL软件的插件,由Stanford大学编制。,IV 基因芯片聚类图形显示 TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。现已和Cluster成为了基因芯片处理的标准软件。 FreeView 是基于JAVA语言的系统树生成软件,接收Cluster生成的数据,比Treeview增强了某些功能。,V基因芯片引物设计 Array Designer 2.00 DNA微矩阵(microarray)软件,批量设计DNA和寡核苷酸引物工具,7.蛋白质结构预测 蛋白质结构预测可以分成三种方法: (1)同源性方法 (2)从头计算方法 (3)穿线法方法,所用的软件也十分的多,而且功能从一般到强大的都有,这里就不再赘述了。 有兴趣的同学可以参考一下网络。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!