《芯片原理与技术》课件基因芯片数据处理

上传人:考试不挂****2941... 文档编号:243050586 上传时间:2024-09-14 格式:PPTX 页数:58 大小:2.38MB
返回 下载 相关 举报
《芯片原理与技术》课件基因芯片数据处理_第1页
第1页 / 共58页
《芯片原理与技术》课件基因芯片数据处理_第2页
第2页 / 共58页
《芯片原理与技术》课件基因芯片数据处理_第3页
第3页 / 共58页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015/11/18,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015/11/18,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015/11/18,#,张彦婷,郑州大学生命科学学院,基因芯片数据处理,基因芯片(,gene chip,),,又称,DNA,微阵列(,DNA microarray,),,就是将大量已知,DNA,探针,整齐、高密度地,固定,在一块类似邮票大小的固体(如玻璃片、硅片或尼龙布等)支持物上;用标记好的核酸,样品进行杂交,,进而通过,检测,杂交后标记信号的强弱来判断样品中与探针对应的靶序列是否存在,数量。,基因芯片的基本原理,:,碱基互补匹配,。,基因芯片,基 因 芯 片 流 程,样品制备,芯片制备,杂交,杂交信号检测,数据分析,芯片杂交,基因,芯片图像的获取和处理,数据,的预处理,和归一化,差异表达基因分析,芯片数据的可靠性分析,基因,聚类和可视化分析,基因,注释和功能分析,基因,调控网络分析,基 因 芯 片 流 程,杂交反应,封闭:,对芯片进行封闭以降低杂交背景,杂交:,将已标记的靶分子加样到芯片上,使其在特定温度下与互补序列退火,洗涤:,洗涤芯片除去未结合或微弱结合的杂交分子,芯片杂交,芯片杂交,基因,芯片图像的,获取和处理,数据,的预处理和归一化,芯片,数据的可靠性分析,差异表达,基因分析,基因,聚类和可视化分析,基因,注释和功能分析,基因,调控网络分析,基 因 芯 片 流 程,数据获取,扫描,信号点定位,数据提取,是指将与目标靶分子反应结合后的生物芯片上成千上万个点阵的生物反应结果阅读出来,转变成可供计算机处理的数据,包括三个步骤:,基因芯片图像的获取和处理,Cy3,和,Cy5,Cy3,激发波长,532nm,Cy5,激发波长,635nm,基因芯片图像的获取和处理,芯片扫描仪,与荧光标记的目标,DNA,杂交后,必须用扫读装置将芯片测定结果转变成可供分析处理的图象数据。,目前商品化的芯片扫描仪有,2,类:,激光共聚焦芯片扫描仪,和,CCD,芯片扫描仪,。,根据,芯片扫描仪,采用的光电耦合器件,可分为,2,类:光电倍增管型和,CCD,型。,根据,激发光源,的不同还可分为,:激光型和非激光型,。,基因芯片图像的获取和处理,激光共聚焦显微镜,的原理,是基于,PMT,(,photomultiplier tube,,光电倍增管)的检测系统;,CCD,(,charge-coupled devices,,电荷偶合装置)摄像原理检测光子。,前者检测灵敏度、分辨率均较高,但扫描时间长;后者扫描时间短,但灵敏度和分辨率不如前者。,基因芯片图像的获取和处理,激光共聚焦芯片扫描仪以激光作为激发光源,以产生较高强度的发射荧光,可大大提高检测的灵敏度,一般采用,2,种或,2,种以上不同波长的激光器作为激发光源。用,光电倍增管检测,,有较高的灵敏度。,Genetic microsystems,公司的,GMS 418 Array Scanner.,价格,8,20,万美元。,CCD,采用高压汞灯作为激发光源,结构比较简单。,Genemic Solutions,公司,Gene Tac TM 1000,等。,价格比较便宜,,在,5,万美元左右。,CCD,一次可成像很大面积的区域,,而以,PMT,为基础的荧光扫描仪则是以单束固定波长的激光来扫描,因此或者需要激光头,或者需要目的芯片的机械运动来使激光扫到整个面积,这样就需要耗费较多的时间来扫描;,但是,CCD,有其缺点,:目前性能最优越的,CCD,数字相机的成像面积只有,1612mm,(像素为,10m,),因此要达到整个芯片的面积,2060mm,的话,需要数个数码相机同时工作,或者也可以以降低分辨率为代价来获得扫描精度不是很高的图像。由于灵敏度和分辩率较低,比较适合临床诊断用。,基因芯片图像的获取和处理,Laser,PMT,Dye,Glass Slide,Objective Lens,Detector lens,Pinhole,Beam-splitter,光电倍增管,/,激光共聚焦扫描,基因芯片图像的获取和处理,激光共聚焦的光路原理,基因芯片图像的获取和处理,激光共聚焦的光探测器,检测荧光光子,并把微弱的荧光信号转变为模拟的电信号,基因芯片图像的获取和处理,CCD,成像技术:主要用于中、高密度基因芯片的检测,CCD,扫描仪,扫描仪的技术指标:,噪音与信噪比,灵敏度与动态检测范围,像素与分辨率,基因芯片图像的获取和处理,同时,扫描与分次扫描,一次扫描得到一种荧光图像(单通道),扫描多次得到多个荧光图像,叫作分次扫描。得到的图像需要用软件对几种荧光图像进行重叠对准处理,有时还需要操作者手工重叠对准干预。,一次扫描得到多个荧光图像(多通道)叫作同时扫描。图像重叠简单仅需用软件将多个图像叠加,不需要调准值。,同时扫描需要硬件的增加。,基因芯片图像的获取和处理,基因芯片图像的获取和处理,生物芯片,扫描过程中应注意的问题,由于芯片扫描仪有极高的灵敏度和分辨率,在芯片制作、杂交和清洗过程中都应该在洁净的环境中,进行,芯片完成杂交和清洗后应尽可能立即扫描测定,防止荧光标记靶分子降解,仪器放置在平稳坚固的平台上。,基因芯片图像的获取和处理,植根区域生长法,(SRG),Fixed Circle,划格或定位:图像内信号点的初步定位,图象分割,(Segmentation),:将点从背景中分离,出来,在分割过程中将像素强度从界定区域提取出来,信号点定位,基因芯片图像的获取和处理,基因芯片图像的获取和处理,数据提取,将芯片图像中的各种数值量化,如信号值、背景值等,每个像素的灰度值在,0-65535,之间,芯片杂交,基因,芯片图像的获取和处理,数据,的预处理,和归一化,芯片,数据的可靠性分析,差异表达,基因分析,基因,聚类和可视化分析,基因,注释和功能分析,基因,调控网络分析,基 因 芯 片 流 程,Tiff,图像文件是生物芯片实验数据的最初载体,图像处理分析软件能读取,Tiff,图像文件,自动定位并识别芯片上每个点。定量各点的背景,信号强度。计算点的质量测定值,将图像转化为原始数据,原始数据不能直接用于下游统计学分析和数据聚类分析需要经过预处理,数据预处理,芯片的预处理和归一化,原始数据的预处理可分为如下几个步骤 :,背景校正;,缺失值处理;,数据过滤和标记;,数据转换,归一化,芯片的预处理和归一化,1.,背景校正,背景校正用于杂交点相对于前景信号强度的背景噪音进行调整,加和性背景校正,:通常,该点的相对信号强度即为其绝对表达值和相对背景值的差值,芯片的预处理和归一化,芯片背景,芯片的预处理和归一化,校正方法,局部背景校正,(,local background correction,),亚栅格背景校正,(,subgrid background correction,),分组背景校正,(,group background correction,),空白点背景校正,(,blank background correction,),2.,缺失值处理,当点为空点或相对背景强度高于绝对信号强度时,该点的数据出现缺失,替代方案:,使用重复点数据填充,利用基因间的相关性进行填充,K,最近邻法,芯片的预处理和归一化,3.,数据过滤和标记,数据标记,是对不可信或不可靠的数据作标记,有两种方法处理标记后的数据:,-,过滤且去除,-,标记但不去除,芯片的预处理和归一化,4.,数据转换,图像分析软件提取的基本数据为像素的荧光强度值,而在后续的分析中通常使用荧光强度的对数值,生物学上易于理解和解释,使数据的分布满足对称性和近似正态分布、满足常用统计分析方法。,使用的方便性,芯片的预处理和归一化,5.,归一化(,normalization,)处理,由于样本差异、荧光标记效率和检出率的不平衡,需对,cy3,和,cy5,的原始提取信号进行均衡和修正才能进一步分析实验数据,,Normalization,正是基于此种,目的,。,测量到的,Cy3,和,Cy5,的荧光强度受许多因素的影响,造成测量值的变异:,-,随机变异:无法控制,-,系统变异:归一化,芯片的预处理和归一化,微阵列中系统误差的几种图形呈现方式,1. log,2,R,与,log,2,G,散点图,芯片的预处理和归一化,2. MA,散点图,芯片的预处理和归一化,3.,分组盒式图,芯片的预处理和归一化,归一化的依据,在特性相似的情况下。生物体内表达水平改变的基因只占全基因组非常小的一部分,来自于每个样本大约相等的被标记分子杂交覆盖了全基因组大部分基因的芯片,从而对每个样本,所有杂交点的杂交强度总合应该是相等的,-,芯片内的数据标准化,(within slide normalization),-,芯片间的数据标准化,(Cross slide normalization),芯片的预处理和归一化,用于归一化的非差异表达基因的选择,归一化的第一步是选择非差异表达基因或不变表达基因,-,全部基因,-,管家基因,-,对照,芯片的预处理和归一化,芯片,内的数据标准化,(within slide normalization),芯片内的数据标准化,主要是去除每张芯片的系统误差,这种误差主要是由荧光染色差异,点样机,器,,或者杂交试验所产生的,通过标准化,使每个基因的表达点都具有独立性,。,芯片,内数据标准化的常用方法是局部加权回归分析:,Lowess (,LocallyWeighted Linear Regression) normalization,。,芯片的预处理和归一化,标准化前后的散点图,左图是未标准化处理的散点图,右图是经,LOWESS,处理的散点图,任何芯片数据进行分析前,都必须进行数据的校正,芯片的预处理和归一化,Log Green,Log Red,Normalization,A=(,Log Green,+,Log Red,)/2,M=,Log Red,-,Log Green,M vs. A Plot (45,o,rotation),(,Log Green,+,Log Red,)/2,Log Red,-,Log Green,Loess Fit,Normalized (,Log Green,+,Log Red,)/2,Normalized,Log Red,-,Log Green,M vs. A after Normalization,Normalized Log Green,Normalized Log Red,Normalized Data,在点的周围,考虑背景及两色染色差异,均一化后来消除这种差异,芯片间的数据标准化,(Cross slide normalization),平均数、中位数标准化,(mean or median normalization),尺度调整的标准化,(,Scale Normalization,),分位数标准化,(,Quantile Normalization,),芯片的预处理和归一化,Between slides normalization,芯片的预处理和归一化,平均数、中位数标准化,(mean or median normalization),由于五种组织(,seeding,、,tiller,、,root,、,panicle1,、,panicle2,)是分别在五张芯片上作杂交试验的,所以第一步的标准化是将五张试验芯片的数据调整到同一水平,常用的方法是平均数、中位数标准化,(mean or median normalization),。即:将五组实验的数据的,log ratio,中位数或平均数调整为,0,。,芯片的预处理和归一化,Slide 2,Cy3,Cy5,Slide 1,Cy3,Cy5,median,Q3=75,th,percentile,Q1=25,th,percentile,minimum,maximum,上图中的一个箱式图表示基因在一种染色下的强度的分布情况。所以每两个,channel,对应一张芯片的数据。图中共有,12,个,channel,,分别对应,6,张芯片数据,且每一张芯片中包含的基因是相同的。上图是双色数据在标化前的分布情况。,芯片的预处理和归一化,Log Mean Signal Centered at 0,芯片杂交,基因,芯片图像的获取和处理,数据,的预处理和均一化,差异表达基因分析,芯片数据的可靠性分析,基因,聚类和可视化分析,基因,注释和功能分析,基因,调控网络分析,基 因 芯 片 流 程,基因表达谱芯片的,主要目的,之一:发现两个样本差异表达基因,差异表达基因也可称为,阳性基因,:包括上调表达基因和下调表达基因,差异表达基因的挑选,非重复实验,倍数法,Z,值法,重复实验,T,检验,P,值,差异表达基因分析,倍数法,取样本基因和参照基因的比(,R/G ratio,),,作为每个样本基因的相对表达量,(relative intensity),。选择相对表达量,可以在一定程度上减少芯片之间,荧光染色,扫描所产生的系统偏差,Ratio=Ri/Gi,2 up regulation, 0.5 down regulation,差异表达基因分析,基因表达模式,mRNA Cy5/Cy3 = r,time / h,1,5,0,_,_,Start of experiment,up-regulation,induction,down-regulation,repression,差异表达基因分析,Log,2,(,Red intensity,/,Green intensity,),Ratio=,log,2,(R/G),时间,T,基因表达情况,原始的比值数据,Log,2,对数转换,0,基因的标准表达,1.0,0.0,1,相对标准表达无改变,1.0,0.0,2,两倍上调表达,2.0,1.0,3,两倍下调表达,0.5,-1.0,差异表达基因分析,差异表达基因分析,cDNA,基因表达实例,Data on,G,genes for,n,samples,Genes,mRNA samples,Gene expression level of gene,i,in mRNA sample,j,=,(,normalized,) Log(,Red intensity,/,Green intensity,),sample1sample2sample3sample4sample5 ,1 0.46 0.30 0.80 1.51 0.90.,2-0.10 0.49 0.24 0.06 0.46.,3 0.15 0.74 0.04 0.10 0.20.,4-0.45-1.03-0.79-0.56-0.32.,5-0.06 1.06 1.35 1.09-1.09.,差异表达基因分析,Z,值法,对于,处在同一张芯片上的基因,一般我们认为只有小部分基因是有表达,差异,,同时信号比值在经过对数转换后,,整张芯片上的基因比值近似于正态分布,。,实际中常对值取其,Z,值,,Z,=(X-)/,,其中,,X,表示该基因的表达比值,,表示整张芯片上所有基因的比值平均数,,表示整张芯片上所有基因的方差,。,当,Z,值大于,2,或者,-2,时,表示基因表达值在平均比值加,2,倍方差以外,这样的差异就具有统计学意义,可以认为是差异表达基因。,差异表达基因分析,把,2,作为,Z,值的判断标准,这种方法会,选取,5%,的差异表达基因,虽然,Z,值法可以帮助我们发现差异基因,但是它也有很大的缺点,如果在给定的基因内不存在差异表达基因,当我们利用,Z,值方法来发掘差异基因时,它总能给出,Z,值的绝对值大于或者小于,2,的基因,即,增加了假阳性率,。同时,当我们关于“整张芯片中只有小部分基因是有表达差异”的假设不成立,既有大量基因有表达差异的时候,,Z,值法又会,增加假阴性率,。,差异表达基因分析,重复实验,差异基因的筛选,(t-test),主要用于样本含量较小(例如,n30,),,呈正态分布的样品,t,检验是用,t,分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著,t,检验的,p,值,是否达到显著水平,- P,值,0.05,,说明存在显著性差距,差异表达基因分析,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!