资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/12/30,#,外显子组测序在医学研究中的应用,外显子组测序在医学研究中的应用,1,一,外显子组测序技术简介,二,外显子组测序流程,三,外显子组测序信息分析内容,四,外显子组测序的应用方案,一外显子组测序技术简介二外显子组测序流程三外显子组测序信息,2,一、外显子组测序技术简介,外显子组序列仅占全基因组序列的,1%,左右,与人类,85%,致病基因突变相关。与全基因组测序相比,外显子组测序不仅费用较低,而且测序覆盖度更深,数据准确性更高。,外显子测序是指利用序列捕获技术将全基因组外显子区域,DNA,捕捉并富集后,再进行高通量测序的基因组分析方法。,一、外显子组测序技术简介 外显子组序列仅占全基因组序列的1%,3,二、外显子组测序流程,基因组,DNA,的随机打断,DNA,片段的末端修复和接头的连接,PCR,扩增文库,DNA,液相探针杂交捕获目的片段,PCR,扩增捕获的,DNA,片段,测序文库的检测,HiSeq 2500,测序,生物信息分析,二、外显子组测序流程基因组DNA的随机打断DNA片段的末端修,4,三、外显子组测序信息分析流程,三、外显子组测序信息分析流程,5,主要信息分析内容归类,3.1,、数据过滤与评估,3.2,、整体质量评估,3.3,、,SNP,检测与注释,3.4,、,InDel,检测与注释,3.5,、高级分析,主要信息分析内容归类3.1、数据过滤与评估,6,3.1,、数据过滤与评估,3.1、数据过滤与评估,7,过滤接头。对含接头的,reads,去除接头序列。,一条,reads,上,N,(未能确定出具体的碱基类型)的比例大于,5%,,则过滤掉该,reads,。,过滤低质量,reads,,过滤掉,Q3085%reads,。,3.1.1,、原始数据过滤,3.1.1、原始数据过滤,8,3.1.2,、,测序数据,统计与评估,测序质量值分布图,碱基含量分布图,3.1.2、测序数据统计与评估测序质量值分布图碱基含量分布图,9,3.2,、整体测序质量评估,3.2、整体测序质量评估,10,3.2.1,、,测序深度,统计,注:横坐标代表测序深度,纵坐标代表目标区域上对应深度的碱基数占总碱基数的百分比。目标区域的单碱基分布近似服从泊松分布。,3.2.1、测序深度统计注:横坐标代表测序深度,纵坐标代表目,11,3.2.2,、外显子,捕获统计,Target region stat,X1,X2,X3,X4,Length_of_target_region(Mb),1,118.70,118.70,118.70,118.70,Reads_mapping_ref(single reads),2,182.95,168.48,97.76,96.16,Mapping_datasize(Mb),3,13721,12636,9776,9616,Effective_sequences_on_target(Mb),5,92.05,90.86,66.84,64.37,Average_sequencing_depth_on_target,7,47.31,46.75,43.05,41.45,Mismatch_rate_in_target_region,8,Mismatch_rate_in_all_effective_sequence,9,Base_covered_on_target(Mb),10,6904,6815,6684,6437,Coverage_of_target_region,11,Fraction_of_target_covered_with_at_least_20 x,12,Fraction_of_target_covered_with_at_least_10 x,13,Fraction_of_target_covered_with_at_least_4x,14,当比对到参考基因组目标区域的数据量在,60%,之上,认为外显子捕获效率合格。,3.2.2、外显子捕获统计Target region sta,12,3.2.3,、染色体覆盖深度分布,注:横坐标为染色体长度,纵坐标为覆盖深度取对数。,3.2.3、染色体覆盖深度分布注:横坐标为染色体长度,纵坐标,13,3.3,、,SNP,检测及注释,3.3、SNP检测及注释,14,3.3.1,、,SNP,检测,SNP,的检测主要使用,GATK,软件工具包实现,。,BMK ID,SNP Number,Transition Number,Transversion Number,Ti/Tv,Ratio,Heterozygosity Number,Homozygosity Number,X1,985254,669172,316082,2.11,207400,777854,X2,842516,573399,269117,2.13,167179,675337,X3,263326,178220,85106,2.09,26436,236890,X4,289954,196145,93809,2.09,30446,259508,Total,1556901,3.3.1、SNP检测SNP的检测主要使用GATK软件工具,15,Type,R01,R02,R03,R04,INTERGENIC,449352,380794,113110,125682,INTRAGENIC,3425,2896,892,975,INTRON,401739,343966,111218,121865,UPSTREAM,24452,21350,6105,6521,DOWNSTREAM,95551,83565,27732,30377,UTR_3_PRIME,395,407,112,124,UTR_5_PRIME,2165,1891,776,850,SPLICE_SITE_ACCEPTOR,31,36,14,14,SPLICE_SITE_DONOR,61,54,19,21,CDS,NON_SYNONYMOUS_CODING,1971,1899,882,925,NON_SYNONYMOUS_START,2,1,0,0,START_GAINED,378,346,93,100,START_LOST,8,6,3,2,STOP_GAINED,26,24,10,8,STOP_LOST,5,3,1,0,SYNONYMOUS_CODING,1772,1732,923,940,SYNONYMOUS_STOP,1,1,0,0,Other,106,89,32,18,3.3.2,、,SNP,注释,TypeR01R02R03R04INTERGENIC4493,16,3.3.3,、,突变特征,突变频谱图,注:横坐标为不同类型的突变,纵坐标为不同类型突变对应的频率。,3.3.3、突变特征突变频谱图注:横坐标为不同类型的突变,纵,17,3.3.3,、,突变特征,突变位点上下文碱基偏好性,注:横坐标为突变位点上下文的碱基位置,,0,为,SNP,突变位点,负数代表突变位点前的碱基,正数代表突变位点后的碱基,纵坐标为不同碱基对应的比例。从图上可以看出,不同类型的,SNP,突变上下文具有不同的碱基偏好性。,3.3.3、突变特征突变位点上下文碱基偏好性注:横坐标为突变,18,3.4,、,InDel检测,及注释,3.4、InDel检测及注释,19,3.4.1,、,InDel检测,Region,R01,R02,R03,R04,Total,Insertion,51689,44234,15233,16573,92775,Deletion,57643,51061,16705,17840,107838,Heterozygosity,89744,78848,28586,30639,-,Homozygosity,19588,16447,3352,3774,-,Total,109332,95295,31938,34413,200613,3.4.1、InDel检测RegionR01R02R03R,20,Type,R01,R02,R03,R04,INTERGENIC,48070,41601,13579,14755,INTRAGENIC,410,337,123,117,INTRON,45413,39682,13701,14581,UPSTREAM,3060,2706,759,851,DOWNSTREAM,11633,10265,3553,3851,UTR_3_PRIME,33,31,7,4,UTR_5_PRIME,265,246,87,106,SPLICE_SITE_ACCEPTOR,15,23,6,4,SPLICE_SITE_DONOR,6,8,3,3,CDS,CODON_DELETION,15,16,3,5,CODON_INSERTION,12,5,0,2,EXON_DELETED,267,242,73,93,FRAME_SHIFT,94,92,27,30,CODON_DELETION,15,16,3,5,CODON_INSERTION,12,5,0,2,Other,19,24,12,6,3.4.1,、,InDel,注释,TypeR01R02R03R04INTERGENIC4807,21,3.5,、,高级分析,3.5、高级分析,22,3.5.1,、基因融合,注:最外圈表示人基因组及基因组上基因分布情况;文字代表发生基因融合的基因,ID,;红色线条代表染色体间基因融合;绿色线条代表染色体内基因融合,。,3.5.1、基因融合注:最外圈表示人基因组及基因组上基因分,23,3.5.2,、氨基酸替换预测,ChrID,Pos,Codons,Substitution,SNP Type,Prediction,Gene,chr1,881627,CTG-tTG,L615L,Synonymous,TOLERATED,ENSG00000188976,chr1,11884555,GAG-GgG,E198G,Nonsynonymous,TOLERATED,ENSG00000011021,chr1,12776344,ATG-tTG,M1L,Nonsynonymous,TOLERATED,ENSG00000188984,chr1,12919111,GAA-aAA,E83K,Nonsynonymous,DAMAGING,ENSG00000120952,chr1,16356501,GCC-aCC,A447T,Nonsynonymous,TOLERATED,ENSG00000186510,注:,Codons,:密码子的变化情况;,Substitution,:氨基酸的替换信息;,SNP Type,:,SNP,的类型;,Prediction,:预测结果,(damaging/tolerated),,,TOLERATED,表示这个突变是可以容忍的,即对蛋白质功能没有影响或影响很小,,DAMAGING,表示突变是有害的,即对蛋白质功能有较大影响;,Gene,:发生替换所在的基因。,3.5.2、氨基酸替换预测ChrIDPosCodonsSub,24,3.5.3,、样品间差异表达基因,COG,分类统计,COG,数据库是基于细菌、藻类、真核生物的系统进化关系构建得到的,利用,COG,数据库可以对基因产物进行直系同源分类。,注:横坐标为,COG,各分类内容,纵坐标为基因数目。在不同的功能类中,基因所占比例多少反映对应时期和环境下代谢或者生理偏向等内容,可以结合研究对象在各个功能类的分布作出科学的解释。,3.5.3、样品间差异表达基因COG分类统计COG数据库是,25,差异基因,GO,注释聚类图,topGO,有向无环图,3.5.4,、样品间差异表达基因,GO,分类,统计,差异基因GO注释聚类图 topGO有向无环图3.5.4、样,26,差异基因,KEGG,通路示意图,3.5.5,、样品间差异表达基因,KEGG,注释,差异基因KEGG通路示意图3.5.5、样品间差异表达基因K,27,四、外显子
展开阅读全文