高通量数据处理流程

上传人:ghjfj****21hg 文档编号:253041953 上传时间:2024-11-27 格式:PPTX 页数:36 大小:797.10KB
返回 下载 相关 举报
高通量数据处理流程_第1页
第1页 / 共36页
高通量数据处理流程_第2页
第2页 / 共36页
高通量数据处理流程_第3页
第3页 / 共36页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据,处,处理,流,流程,计算,机,机集,群,群,测序,控,控制PC,测序,仪,仪,1.,控,控制,测,测序,过,过程,决定,测,测序,长,长度,、,、填,加,加试,剂,剂、,控,控制,温,温度,、,、控,制,制反,应,应时,间,间、,拍,拍照,2.,图,图像,分,分析,对测,序,序仪,拍,拍照,的,的图,片,片进,行,行图,像,像分,析,析,,得,得到,亮,亮点,的,的光,强,强度,和,和坐,标,标,3.basecalling,由光,强,强度,得,得到,碱,碱基,序,序列,4.,数,数据,传,传输,将basecalling,结,结果,(,(二,进,进制,文,文件bcl),传,传输,到,到计,算,算机,集,集群,的,的存,储,储上,5.,数,数据,处,处理,将bcl,文,文件,转,转化,为,为后,续,续信,息,息分,析,析所,使,使用,的,的文,本,本文,件,件(fastq,qseq,),),6.index拆,分,分,7.,数,数据,质,质量,分,分析,8.,数,数据,备,备份,9.,后,后续,信,信息,分,分析.,图像,分,分析,及,及basecalling,基,基本,原,原理,1,2,3,4,C,C,C,C,G,G,G,T,T,A,A,A,Cycle1Cycle2Cycle3,对A,发,发出,的,的光,拍,拍照,对C,发,发出,的,的光,拍,拍照,对G,发,发出,的,的光,拍,拍照,对T,发,发出,的,的光,拍,拍照,图像,分,分析,及,及basecalling,基,基本,原,原理,1,2,3,4,T,C,C,A,A,T,G,C,A,C,G,G,Cycle1Cycle2Cycle3,由4,个,个cluster,得,得到4条,序,序列,:,:,ATA.,CCT.,GCG.,GAC.,图像,分,分析,对每,个,个图,片,片独,立,立的,处,处理,图像,锐,锐化,对图,片,片进,行,行快,速,速傅,里,里叶,变,变换(FFT),,在,在傅,里,里叶,空,空间,乘,乘以,滤,滤波,函,函数,后,后反,变,变换,识别cluster/,亮,亮点,信噪,比,比(,亮,亮度/背,景,景值)大,于,于阈,值,值的,亮,亮点,区,区域,计算,亮,亮点,光,光强,度,度和,位,位置,坐,坐标,在,亮点区,域,域,对,光,光强度,进,进行二,维,维插值,,,,求出,最,最大光,强,强度,,以,以及最,大,大光强,度,度对应,的,的位置,坐,坐标,将同一,个,个tile的,所,所有图,片,片中的,亮,亮点坐,标,标对齐,重,重叠,不同图,片,片之间,存,存在偏,移,移/拉,伸,伸/压,缩,缩(offset),系统、,稳,稳定的,:,:,4种光,折,折射率,不,不同、,滤,滤波片,不,不同、,光,光路不,同,同,所,以,以造成,成,成像的,偏,偏移/,拉,拉伸/,压,压缩,,可,可利用crosstalk,,,,计算,出,出偏移/拉伸/压缩,的,的数值(offset参数),偶然、,随,随机的,:,:,flowcell表,面,面不平,、,、自动,调,调整焦,距,距、机,械,械移动,不,不够精,确,确、随,机,机振动,,,,可利,用,用crosstalk解决,Crosstalk,AC光,谱,谱间有,交,交叠,GT光,谱,谱间有,交,交叠,,所,所以:,碱基A,的,的图片,中,中包含C发出,的,的光,碱基C,的,的图片,中,中包含A发出,的,的光,碱基T,的,的图片,中,中包含G发出,的,的光,不利:,不,不能直,接,接比较,光,光强度,大,大小而,得,得到碱,基,基,有利:,利,利用图,片,片中共,同,同的亮,点,点,将,所,所有图,片,片对齐,重,重叠,,解,解决offset问,题,题,A,C,A,C,光谱,光谱,滤波片,图像分,析,析流程,TemplateGeneration,利用AC之间,的,的crosstalk、GT之间,的,的crosstalk,将,前,前 2,个,个cycle,的,的图片,,,,与第,一,一个cycle的A,的,的图片,对,对齐重,叠,叠,确,定,定所有cluster的位,置,置坐标(x,y),Registrationand,IntensityExtraction,对于每,一,一个cycle:将4张图,片,片(ACGT)中的,所,所有亮,点,点与cluster,坐,坐标(x,y),对,对应,,计,计算每,个,个cluster的4种光,强,强度,对每个,图,图片独,立,立的处,理,理,图像,锐,锐化,、,、识,别,别cluster/亮,点,点、,计,计算,亮,亮点,光,光强,度,度和,位,位置,坐,坐标,TemplateGeneration,利用AC,之,之间,的,的crosstalk,、,、GT之,间,间的crosstalk,,将,将前2,个,个cycle,的,的图,片,片,,与,与第,一,一个cycle的A的,图,图片,对,对齐,重,重叠,,,,确,定,定所,有,有cluster,的,的位,置,置坐,标,标(x,y),A,C,G,T,A,G,T,C,Cycle1 Cycle2,1,2,4,3,A,Cycle1 A Cycle1 C Cycle1 AC,C,A,C,Cycle2 A Cycle2 C Cycle1 AC,A,C,A,C,1,2,3,G,T,Cycle2 G Cycle2 T Cycle1 AC,G,T,A,C,G,T,Cycle1 G Cycle1 T,G,T,1,2,4,3,1,2,4,3,图像,分,分析,结,结果,Cluster坐标,Cycle1,Cycle2,Cycle3,.,(1053,1543),A 1000,A 500,A 23,.,C 800,C 900,C 26,.,G 20,G -18,G 500,.,T 24,T -12,T 300,.,(1923,1723),A -13,A 1000,A 33,.,C -12,C 800,C 24,.,G 40,G 25,G 500,.,T 700,T 20,T 300,.,(1032,1231),A 500,A 50,A 1000,.,C 900,C 40,C 800,.,G 26,G 500,G -20,.,T 32,T 300,T -20,.,.,.,.,.,.,Crosstalk,固有发光能力不同,,需要归一化,Basecalling,Crosstalk,校,校正,4种,光,光强,度,度归,一,一化,(用DNA样,品,品计,算,算参,数,数),Phasing/Prephasing,校正,(用DNA样,品,品计,算,算参,数,数),对于,每,每个cluster:,在每,个,个cycle,中,中,,比,比较4种,光,光强,度,度,,光,光强,度,度最,大,大的,就,就是,当,当前cycle测,到,到的,碱,碱基,,,,各cycle测,到,到的,碱,碱基,连,连起,来,来组,成,成这,个,个cluster,的,的碱,基,基序,列,列;,计算,每,每个,碱,碱基,的,的质,量,量值,4种,光,光强,度,度归,一,一化,2种光强度分布,2种光强度分布,A,C,G,T,phasing,Sequencingprimer,prephasing,Basecalling结,果,果:qseq,文,文件,每一,行,行表,示,示一,条,条reads(一,个,个cluster),每行,有,有11列,,,,tab,分,分隔,:,:,机器,编,编号,、,、run,序,序号,、,、Lane号,、,、Tile号,、,、X,坐,坐标,、,、Y,坐,坐标,、,、,index标,志,志、read1/read2标,志,志、,碱,碱基,序,序列,、,、质,量,量序,列,列、,是否,通,通过,默,默认,的,的质,量,量筛,选,选标,准,准,Single-end(SE),测,测序,:,:,1个qseq,文,文件,Pair-end(PE),测,测序,:,:,2个qseq,文,文件,分,分别,存,存放read1和read2的,数,数据,;,;,2个,文,文件,的,的同,一,一行,属,属于,同,同一,个,个cluster,每条,序,序列(reads)长,度,度=,上,上机,测,测序,循,循环(cycle)数,量,量;,测序cycle数,量,量受,测,测序,试,试剂,盒,盒的,试,试剂,量,量限,制,制,,对于GA,有,有:36SE,、,、36+7/8SEindex,、,、45PE、36+7+45PEindex,、,、,76PE,、,、74+7+76PEindex、73+8+76PEindex,、,、,101PE、101+7/8+101PEindex,等,等,对于Hiseq:91PE、91+8,+91,PEindex、,101PE、101+8+101PEindex,Basecalling结,果,果:qseq,文,文件,列,意义,表示法,1,机器编号,2,run序号,整数,3,Lane号,整数1到8,4,Tile号,整数,5,X坐标,整数,6,Y坐标,整数,7,index标志,index序列或者“0”,8,read1/read2标志,1表示read1;2表示read2,9,碱基序列,大写ACGT和.:,ACCCAACTCATCTGAAACA,10,质量序列,每个碱基有一个质量值,用字符表示:字符的ASCII码值-64=质量值,bbbcbb_bb_aSaV,11,是否通过默认的质量筛选标准,1表示通过;0表示不通过,质量差,fastq文,件,件,每4,行,行表,示,示一,条,条reads(一,个,个cluster),第一,行,行:序,列,列ID,,包,包含index序,列,列及read1或read2标,志,志:,第二行:,碱,碱基序列,,,,大写“ACGTN”,第三行:,“,“+”,,省,省略了序,列,列ID,第四行:,质,质量值序,列,列:字符,的,的ASCII码值-64=,质,质量值,Single-end(SE)测序,:,:1个fastq,文,文件,Pair-end(PE),测,测序:2,个,个fastq文件,分,分别存放read1和read2的,数,数据;,Read1的fastq文,件,件*1.fq中,第,第一条reads,:,:,FC61FL8AAXX:1:17:1012:19200#GCCAAT/1,CCACTGTCATGTGAACATCACAGAGACATTTCTTGA,+,bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_,Read2的fastq文,件,件*2.fq中,第,第一条reads,:,:,FC61FL8AAXX:1:17:1012:19200#GCCAAT/2,AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA,+,QVVVVYVYWWYPWYYTYYWUYYYVVWW,质量值,FC61FL8AAXX:1:17:1012:19200#GCCAAT/1,CCACTGTCATGTGAACATCACAGAGACATTTCTTGA,+,bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_,表示方法Illumina:,字,字符的ASCII值-64=质量值,(Sanger:字符,的,的ASCII值-33=,质,质量值),范围 GA Illumina1.3+(09年3月,之,之后):2,35 B,c,GA Illumina1.0(09年3,月,月之前):-5,40;,h,Hiseq:2:38 B,f,质量值与错,误,误率理论关,系,系:Q=-10log10(e),质量值计算,方,方法:根据,光,光强信号信,噪,噪比、光强,度,度衰减、GC含量等参,数,数,计算质,量,量值,fastq,文,文件,fastq,文,文件,每条序列(reads
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!