《数据处理流程BGI》PPT课件.ppt

上传人:w****2 文档编号:16567304 上传时间:2020-10-13 格式:PPT 页数:33 大小:1.33MB
返回 下载 相关 举报
《数据处理流程BGI》PPT课件.ppt_第1页
第1页 / 共33页
《数据处理流程BGI》PPT课件.ppt_第2页
第2页 / 共33页
《数据处理流程BGI》PPT课件.ppt_第3页
第3页 / 共33页
点击查看更多>>
资源描述
数据处理流程 计算机集群 测序控制 PC 测序仪 1.控制测序过程 决定测序长度、填加试剂、 控制温度、控制反应时间、 拍照 2.图像分析 对测序仪拍照的图片进行 图像分析,得到亮点的光 强度和坐标 3.basecalling 由光强度得到碱基序列 4.数据传输 将 basecalling结果 (二进制文件 bcl) 传输到计算机集群 的存储上 5.数据处理 将 bcl文件转化为后续信息 分析所使用的文本文件 ( fastq,qseq) 6.index拆分 7.数据质量分析 8.数据备份 9.后续信息分析 . 图像分析及 basecalling基本原理 1 2 3 4 C C C C G G G T T A A A Cycle1 Cycle2 Cycle3 对 A发出 的光拍照 对 C发出 的光拍照 对 G发出 的光拍照 对 T发出 的光拍照 图像分析及 basecalling基本原理 1 2 3 4 T C C A A T G C A C G G Cycle1 Cycle2 Cycle3 由 4个 cluster得到 4条序列: ATA. CCT. GCG. GAC. 图像分析 对每个图片独立的处理 图像锐化 对图片进行快速傅里叶变换 (FFT),在傅里叶空间乘以滤波函数后反变换 识别 cluster/亮点 信噪比 (亮度 /背景值 )大于阈值的亮点区域 计算亮点光强度和位置坐标 在 亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度 对应的位置坐标 将同一个 tile的所有图片中的亮点坐标对齐重叠 不同图片之间存在偏移 /拉伸 /压缩 (offset) 系统、稳定的: 4种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移 /拉伸 / 压缩,可利用 crosstalk,计算出偏移 /拉伸 /压缩的数值 (offset参数 ) 偶然、随机的: flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可 利用 crosstalk解决 Crosstalk AC光谱间有交叠, GT光谱间有交叠,所以: 碱基 A的图片中包含 C发出的光 碱基 C的图片中包含 A发出的光 碱基 T的图片中包含 G发出的光 不利:不能直接比较光强度大小而得到碱基 有利:利用图片中共同的亮点,将所有图片对齐重叠,解决 offset问题 A C A C 光谱 光谱 滤波片 图像分析结果 Cluster坐标 Cycle1 Cycle2 Cycle3 . (1053,1543) A 1000 A 500 A 23 . C 800 C 900 C 26 . G 20 G -18 G 500 . T 24 T -12 T 300 . (1923,1723) A -13 A 1000 A 33 . C -12 C 800 C 24 . G 40 G 25 G 500 . T 700 T 20 T 300 . (1032,1231) A 500 A 50 A 1000 . C 900 C 40 C 800 . G 26 G 500 G -20 . T 32 T 300 T -20 . . . . . . Crosstalk 固有发光能 力不同, 需要归一化 Basecalling Crosstalk 校正 4种光强度归一化 (用 DNA样品计算参数) Phasing/Prephasing 校正 (用 DNA样品计算参数) 对于每个 cluster: 在每个 cycle中,比较 4种光强度, 光强度最大的就是当前 cycle测到 的碱基,各 cycle测到的碱基连起 来组成这个 cluster的碱基序列; 计算每个碱基的质量值 A C G T phasing Sequencing primer prephasing Basecalling结果: qseq文件 每一行表示一条 reads(一个 cluster) 每行有 11列, tab分隔: 机器编号、 run序号、 Lane号、 Tile号、 X坐标、 Y坐标、 index标志、 read1/read2标志、碱基序列、质量序列、 是否通过默认的质量筛选标准 Single-end(SE)测序: 1个 qseq文件 Pair-end(PE)测序: 2个 qseq文件分别存放 read1和 read2的数据; 2个文件的同一行属于同一个 cluster 每条序列 (reads)长度 =上机测序循环 (cycle)数量; 测序 cycle数量受测序试剂盒的试剂量限制, 对于 GA有: 36SE、 36+7/8SEindex、 45PE、 36+7+45PEindex、 76PE、 74+7+76PEindex、 73+8+76PEindex、 101PE、 101+7/8+101PEindex 等 对于 Hiseq: 91PE、 91+8+91PEindex、 101PE、 101+8+101PEindex Basecalling结果: qseq文件 列 意义 表示法 1 机器编号 2 run序号 整数 3 Lane号 整数 1到 8 4 Tile号 整数 5 X坐标 整数 6 Y坐标 整数 7 index标志 index序列或者“ 0” 8 read1/read2标志 1表示 read1; 2表示 read2 9 碱基序列 大写 ACGT和 .: ACCCAACTCATCTGAAACA 10 质量序列 每个碱基有一个质量值,用字符表示: 字符的 ASCII码值 -64=质量值 bbbcbb_bb_aSaV 11 是否通过默认的质量筛选标准 1表示通过; 0表示不通过,质量差 fastq文件 每 4行表示一条 reads(一个 cluster) 第一行: 序列 ID,包含 index序列及 read1或 read2标志: 第二行:碱基序列,大写“ ACGTN” 第三行:“ +”,省略了序列 ID 第四行:质量值序列:字符的 ASCII码值 -64=质量值 Single-end(SE)测序: 1个 fastq文件 Pair-end(PE)测序: 2个 fastq文件分别存放 read1和 read2的数据; Read1的 fastq文件 *1.fq中第一条 reads: FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_ Read2的 fastq文件 *2.fq中第一条 reads: FC61FL8AAXX:1:17:1012:19200#GCCAAT/2 AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA + QVVVVYVYWWYPWYYTYYWUYYYVVWW 质量值 FC61FL8AAXX:1:17:1012:19200#GCCAAT/1 CCACTGTCATGTGAACATCACAGAGACATTTCTTGA + bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_ 表示方法 Illumina:字符的 ASCII值 - 64 = 质量值 (Sanger:字符的 ASCII值 - 33 = 质量值 ) 范围 GA Illumina1.3+(09年 3月之后 ): 2,35 B,c GA Illumina1.0 (09年 3月之前 ): -5,40 ;,h Hiseq: 2:38 B,f 质量值与错误率理论关系: Q =-10 log10(e) 质量值计算方法:根据光强信号信噪比、光强度衰减、 GC含量等参数,计算质量值 fastq文件 fastq文件 每条序列 (reads)长度 read1和 read2分别去除了最后一个碱基,即: 36 SE 有效长度为 35 101 PE 有效长度为 100(read1)+100(read2) 101+8+101 PEindex 有效长度为 100(read1)+100(read2) Read1中所有 reads长度相同, Read2中所有 reads长度相同, 但是 Read1和 Read2长度可以不相同,取决于上机测序循环 (cycle)数量 质量筛选 (PF): Illumina标准流程输出的 fastq文件,去除了 qseq文件中没有通过默认 质量筛选标准的低质量序列 (reads) GA正常 PF比例: DNA 8090%, RNA 7085% 每个 Lane的正常产量范围: GA 2030M PF reads Read1和 Read2各有 2030M Hiseq 6080M PF reads Read1和 Read2各有 6080M 碱基总产量 = Read1的产量 + Read2的产量 = reads数量 (Read1的长度 + Read2的长度 ) fastq文件产量( GA) 样品类型 上机测序类型 平均产量 (Gbp/Lane) 正常产量 (Mreads/Lane) SmallRNA 36SE 0.70 20 ( 2个样品混合上 1个 lane) 表达谱 36SE 0.70 20 ( 4个样品混合上 1个 lane) Chip-seq 36SE 0.88 25 MeDIP-seq 45PE 2.20 25 转录组 76PE 3.81 25 ( 2个样品混合上 1个 lane) De novo 101PE 6.00 30 De novo 76PE 4.50 30 De novo 45PE 2.64 30 外显子 76PE 4.50 30 重测序 101PE 6.00 30 重测序 76PE 4.50 30 重测序 45PE 2.64 30 Meta 76PE 4.50 30 甲基化 76PE 3.75 25 甲基化 45PE 2.20 25 fastq文件产量( Hiseq vs GA) GA HiSeq FC面积 mm2/FC 510 1440 tile面积 mm2 /tile 0.53125 5.625 tile /Lane 120 32 raw cluster (万 /tile) 28 250 270 310 350 PF 85% 87% 87% 87% 85% PF cluster (万 /tile) 23.8 218 235 270 298 cluter K/mm2 527 444 480 551 622 reads M/Lane 28.6 69.6 75.2 86.3 95.2 101PE Gb/Lane 5.7 13.9 15.0 17.3 19.0 91PE Gb/Lane 12.5 13.5 15.5 17.1 文库质控问题 1: Pair-end关系 800bp及以下文库 5 3 3 5 PCR primer1反向互补 (包含 5adapter反向互补 ) PCR primer1 (包含 5adapter) PCR primer2 (包含 3adapter反向互补 ) PCR primer2反向互补 (包含 3adapter) Read1测序 Read2测序 5 5 3 3 与参考序列比较 或者: 总之, Read1, Read2与参考序列比对结果: 一正 (F)一反 (R),且 F的位点坐标小于 R的位点坐标 Read1 Read2 参考序列正向 5 5 3 3 参考序列反向互补 Read2 Read1 参考序列正向 5 5 3 3 参考序列反向互补 F R 参考序列正向 5 5 3 3 参考序列反向互补 总之, Read1, Read2于参考序列比对结果: 一正 (F)一反 (R),且 F的位点坐标小于 R的位点坐标 文库插入片段长度 F R 参考序列正向 5 5 3 3 参考序列反向互补 Insert-size Insert-size 5 PCR primer1 PCR primer2 3 3 5 文库分子长度 2100检测报告 文库长度分布 与参考序列比对得到 insert-size分布 正常 insert-size分布 基因组 DNA 外显子 PCR-free文库 异常 insert-size分布 2K及以上文库 文库质控问题 1: Pair-end关系 与参考序列比较 或者: 总之, Read1, Read2于参考序列比对结果: 一正 (F)一反 (R),且 F的位点坐标大于 R的位点坐标 Read1 Read2 参考序列正向 5 5 3 3 参考序列反向互补 Read2 Read1 参考序列正向 5 5 3 3 参考序列反向互补 F R 参考序列正向 5 5 3 3 参考序列反向互补 正常 insert-size分布 2K 56K PCR-free文库 10K 异常 insert-size分布 文库问题 2: adapter污染 空载: adapter与 adapter直接连接,中间没有插入片段,导致 read1测到 3adapter, read2测到 5adapter的反向互补 reads尾部测到 adapter 插入片段过短 插入片段长度小于上机测序循环 (cycle)数,导致 read1尾 部测到 3adapter, read2尾部测到 5adapter的反向互补 5 3 3 5 PCR primer1反向互补 (包含 5adapter反向互补 ) PCR primer1 (包含 5adapter) PCR primer2 (包含 3adapter反向互补 ) PCR primer2反向互补 (包含 3adapter) adapter空载较多 导致碱基含量波动 客户 PCR引物污染 导致碱基含量波动 文库质控问题 3:文库随机性 GC含量偏差: 实验技术(打断、 PCR、测序) 本身 特点,导致高 GC和低 GC区 域测序覆盖度偏低,甚至某些区域覆盖不到; PCR-free建库技术可减少 PCR带来的随机性问题 duplication PCR扩增出很多一模一样的母版分子,测序结果中很多条 reads 是一样的; 基因组自身重复序列含量高导致 duplication偏高; 数据量越大, duplication比例越高 文库质控问题 4:其它物种、样品污染 测序质控问题 raw Cluster密度 正常 raw Cluster密度: 2030万 /GAtile, 200350万 /HiSeqtile Cluster制备时,控制文库浓度,达到适当的 raw Cluster密度 密度过低 产量低;密度过高 质量差 样品差异: 200小片段能够容忍的密度较高, 800bp片段 以及 RNA样品、特殊样品,应适当降低密度 通过默认质量筛选标准比例 (PF) 用 read1前 25cycle的信噪比进行筛选; 正常 PF比例: DNA 80%, RNA 70%; raw Cluster密度越高, PF比例越低; 当 raw Cluster密度超高时,图像分析识别出的 raw Cluster数量小于真实值,此时 PF比例会低于正常; 测序质控问题 光强度信号 受到环境温度、测序仪温度控制、测序仪聚焦、 CS试剂、 测序试剂、样品等因素共同影响; 测序长度越长,光强度降低越多; 碱基含量不均匀的样品,光强度会有波动,但属于正常 碱基含量 样品本身 测序问题导致有偏向性的测序错误 质量值 Q20:质量值大于等于 20的碱基数量 /所有碱基数量 reads尾部质量低 Error-rate 与参考序列比较,能够 map的 reads中: 错误的碱基数量 /(正确的 +错误的碱基总数 ); 与参考序列质量有关; 人、小片段文库: 101PE 1%2% 环化大片段 error-rate高于小片段文库 reads尾部 error-rate高 正常光强度、碱基含量、质量值、 Error-rate 异常光强度、碱基含量、质量值、 Error-rate 异常光强度与碱基含量
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!