通量测序相关名词

上传人:hao****021 文档编号:245118549 上传时间:2024-10-07 格式:PPT 页数:13 大小:289.85KB
返回 下载 相关 举报
通量测序相关名词_第1页
第1页 / 共13页
通量测序相关名词_第2页
第2页 / 共13页
通量测序相关名词_第3页
第3页 / 共13页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/11/6,#,高通量相关名词,Lane,也叫,channel,,单泳道,每条泳道包含,2,列(,column,),每列分布有多个小区(,tile,)。不同的测序平台,Flow Cell,中所含的,Lane,不一样,如,HiSeq 2000,是,2,个,flow cell,,每个,flow cell,中含有,8,个,lane,;,HiSeq 2500,是包含,2,个,mini flow cell,(快速运行模式)和,2,个,high output flow cell,,两个模式不能同时运行,其中每个,mini flow cell,包含,2,个,lane,,每个,high output flow cell,中包含,8,个,lane,;,Miseq,系统的,flow cell,仅含有,1,个,lane,。,Cluster,簇,在,Illumina,测序平台中会采用桥式,PCR,方式生产,DNA,簇,每个,DNA,簇才能产生亮度达到,CCD,可以分辨的荧光点。,Lane,Cluster,标签,在,Illumina,平台的多重测序(,Multiplexed Sequencing,)过程中会使用,Index,来区分样品,并在常规测序完成后,针对,Index,部分额外进行,7,个循环的测序,通过,Index,的识别,可以在,1,条,Lane,中区分,12,种不同的样品。,Barcode,与,Index,同义,多指在,Roche GS FLX 454,测序平台的,16S PCR,产物的测序过程中接头序列所包含的的用来区分不同样本的序列。,PF%,是指符合测序质量标准的簇的百分比,与测序的通量相关联。,Index,Barcode,PF%,一种序列存储格式。一个序列文件若以,FASTA,格式存储,则每一条序列的第一行以,“”,开头,而跟随,“”,的是序列的,ID,号(即唯一的标识符)及对该序列的描述信息;第二行开始是序列内容,序列短于,61nt,的,则一行排列完;序列长于,61nt,的,则每行存储,61nt,,最后剩下小于,61nt,的,在最后一行排列完;第二条序列另起一行,仍然由,“”,和序列的,ID,号开始,以此类推。,Fastq,是,Solexa,测序技术中一种反映测序序列的碱基质量的文件格式。第一行以,“”,符号开头,后面紧跟一个序列的描述信息;第二行是该序列的内容;第三行以,“+”,符号开头,后面可以是该序列的描述信息,也可省略;而第四行是第二行中的序列内容每个碱基所对应的测序质量值。,高通量测序平台产生的序列标签就称为,reads,。,Fasta,Fastq,Read,KEGG,是有关,Pathway,的主要公共数据库(参考文献,4,,,Kanehisa,,,2008,),通过,Pathway,分析能确定蛋白质参与的最主要生化代谢途径和信号转导途径。,KEGG,中的,pathway,是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从,NCBI,等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外,KEGG,中有一个,“,专有名词,”KO,(,KEGG Orthology,),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上,KO,(或,K,)标签。,K-mer,是指将,1,条,read,连续切割,挨个碱基划动得到的一系列序列长度为,K,的核苷酸序列。通俗的说,就是把每条,reads,连续切割变成一段段长度为,K,的序列。我们给出的分析是,K25,,即把,read,连续切割为,25bp,大小的序列片段。,Kmer,统计一定程度上反映了测序样本的复杂度,即测序样本中的物种丰度。物种越复杂,相同的,kmer,被测到的次数就越小。,KEGG(pathway),K-mer,测序得到的总碱基数与待测基因组大小的比值。如测一个物种的全基因组的重测序,基因组大小约为,5G,,测序获得,100G,的数据量,则测序深度为,20,。,指测序获得的序列占整个基因组的比例。由于基因组中的高,GC,、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为,Gap,。例如一个细菌基因组测序,覆盖率是,98%,,那么还有,2%,的序列区域是没有通过测序获得的,。,在,de novo,测序中拼接软件基于,reads,之间的,overlap,区,拼接获得的中间没有,gap,的序列称为,Contig,(重叠群),。,基因组测序深度,基因组覆盖率,Contig,基因组,de novo,测序,通过,reads,拼接获得,Contigs,后,往往还需要构建,454 Paired-end,库或,Illumina Mate-pair,库,以获得一定大小片段(如,3Kb,、,8Kb,、,10Kb,、,20Kb,)两端的序,列。,基于这些序列,可以确定一些,Contig,之间的顺序关系,这些先后顺序已知的,Contigs,组成,Scaffold,。,Reads,拼接后会获得一些不同长度的,Contigs,。将所有的,Contig,长度相加,能获得一个,Contig,总长度。然后将所有的,Contigs,按照从长到短进行排序,如获得,Contig 1,,,Contig 2,,,Contig 3Contig 25,。将,Contig,按照这个顺序依次相加,当相加的长度达到,Contig,总长度的一半时,最后一个加上的,Contig,长度即为,Contig N50,。举例:,Contig 1+Contig 2+Contig 3+Contig 4=Contig,总长度,*1/2,时,,Contig 4,的长度即为,Contig N50,。,Contig N50,可以作为基因组拼接的结果好坏的一个判断标准。,Scaffold,Contig N50,Scaffold N50,与,Contig N50,的定义类似。,Contigs,拼接组装获得一些不同长度的,Scaffolds,。将所有的,Scaffold,长度相加,能获得一个,Scaffold,总长度。然后将所有的,Scaffolds,按照从长到短进行排序,如获得,Scaffold 1,,,Scaffold 2,,,Scaffold 3Scaffold 25,。将,Scaffold,按照这个顺序依次相加,当相加的长度达到,Scaffold,总长度的一半时,最后一个加上的,Scaffold,长度即为,Scaffold N50,。举例:,Scaffold 1+Scaffold 2+Scaffold 3+Scaffold 4+Scaffold 5=Scaffold,总长度,*1/2,时,,Scaffold 5,的长度即为,Scaffold N50,。,Scaffold N50,可以作为基因组拼接的结果好坏的一个判断标准,。,指在转录组,de novo,测序时,用,454,平台测序完成后组装出的结果,一个,isotig,可视为一个转录本。,Scaffold N50,Isotig,指转录组,de novo,测序中,用,454,平台测序完成后组装出的结果获得的可聚类到同一个基因的转录本群。,GC,含量,全基因组范围内或在特定基因组序列内的,4,种碱基中,鸟嘌呤和胞嘧啶所占的比率。,Insertion/Deletion,,插入,/,缺失,在基因组重测序进行,mapping,时,进行容,Gap,的比对并检测可信的,Short InDel,,如基因组上小片段,50bp,的插入或缺失。在检测过程中,,Gap,的长度为,15,个碱基。,Isogroup,GC%,InDel,copy number variation,,基因组拷贝数变异,是基因组变异的一种形式,通常使基因组中大片段的,DNA,形成非正常的拷贝数量。如人类正常染色体拷贝数是,2,,有些染色体区域拷贝数变成,1,或,3,,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成,A-B-C-D,四个区域,则,A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D,分别发生了,C,区域的扩增及缺失,扩增的位置可以是连续扩增如,A-B-C-C-D,也可以是在其他位置的扩增,如,A-C-B-C-D,。,structurevariation,,基因组结构变异,染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起,CNV,的变化),染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组(,inter-chromosome trans-location,)等。,CNV,SV,是指某一物种或特定细胞在特定时期,/,功能状态下,多样本间不同基因在,mRNA,水平上表达量的差异,可通过,RPKM/FPKM,值来体现。,Reads Per Kilobase per Million mapped reads,Mortazavietal.,2008,,是指每,1,百万个,map,上,的,reads,中,map,到外显子的每,1K,个碱基上的,reads,个数。计算公式四,RPKM=10,6,C/NL/10,3,,其中,C,为唯一比对到目的基因的,reads,数;,N,为唯一比对到参考基因的总,reads,数,,L,是目的基因编码区的碱基数。,RPKM,法可以消除基因长度、数据量之间的差异进行计算基因表达量。,alternative splicing,大多数真核基因转录产生的,mRNA,前体是按一种方式剪接产生出一种,mRNA,,因而只产生一种蛋白质。但有些基因产生的,mRNA,前体可按不同的方式剪接,产生出两种或更多种,mRNA,,即可变剪接。,基因表达差异,RPKM,可变剪切,Gene fusion,,将基因组位置不同的两个或多个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因或嵌合体基因,该基因有可能翻译出融合或嵌合体蛋白。,通过进行,BLASTN/HMM,比对等查找基因归属的基因家族并添加相关功能注释。,基因融合,基因家族分析,Genome annotation,是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。常见的基因组注释有,GO,注释、,pathway,分析。,CpG island,是指,DNA,上一个区域,此区域含有大量相联的胞嘧啶(,C,)、鸟嘌呤(,G,),以及使两者相连的磷酸酯键(,p,)。基因组中长度为,300,3000 bp,的富含,CpG,二核苷酸的一些区域,主要存在于基因的,5,区域。启动子区中,CpG,岛的未甲基化状态是基因转录所必需的,而,CpG,序列中的,C,的甲基化可导致基因转录被抑制。,基因组注释,CpG,岛,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!