芯片数据预处理方法

上传人:知**** 文档编号:252754613 上传时间:2024-11-19 格式:PPTX 页数:18 大小:765.93KB
返回 下载 相关 举报
芯片数据预处理方法_第1页
第1页 / 共18页
芯片数据预处理方法_第2页
第2页 / 共18页
芯片数据预处理方法_第3页
第3页 / 共18页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/3/8,#,基因芯片数据预处理,分类,4,个技术环节,基因,芯片(,gene chip,),又称,DNA,微阵列(,microarray,),是由大量,DNA,或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是,通过碱基互补配对检测生物信息。,实验要求:,单通道,一张,芯片,检验一,种状态;,双通道,差异表达基因的筛选,储存的生物信息,:寡核苷酸芯片(常为单通道)、,cDNA,芯片(常为双通道),基因芯片制备,样品,制备,mRNA,提取等,杂交反应,信号检测与分析,基因芯片的实验,流程(双通道),单,通道,/,双通道基因芯片实例,杂交,完成后,要对基因芯片进行“读片”,即应用激光共聚焦荧光扫描显微镜,对基因芯片表面的每个位点进行检测。,基因芯片数据分析:对从基因芯片高密度,杂交点阵图,中提取的,杂交点荧光信号,进行定量分析,通过有效数据筛选和相关基因表达谱聚类,发现基因的表达谱和功能之间的联系。,探针,荧光值,基因,表达值,?,计算机“读片”机理,cDNA,芯片、载,有较长片段的寡核苷酸芯片采用双色荧光系统:目前常用,Cy3,一,dUTP,(,绿色)标记对照组,mRNA,,,Cy5,一,dUTP,(红色)标记样品组,mRNA,用,不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计算机并进行信息处理,给出,每个点,在不同波长下的,荧光强度值及其,比值,,同时,计算机还给出直观的显色图,。,在,样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,,,这些,信号就代表了样品中基因的转录表达,情况。,将,样品中的,DNA/RNA,标上,荧光标记,,则可以定量检验基因的表达水平。,数据预处理分析流程:算法,(以,cDNA,芯片为例),探针水平数据获得(计算机扫描图像),数据预处理:背景处理、数据清洗、提取表达值、标准化、汇总,获取基因表达数据:判断差异基因表达,聚类和分析,1,探针水平数据(,probe-level data,)的获得,提取,生物样品的,mRNA,并反转录成,cDNA,,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素,信号,,由此获得的,图像,就是基因芯片的原始数据(,raw data,),,也叫探针水平数据,。,获取,探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(,pre-processing,),以获得基因表达数据(,gene expression data,)。基因表达数据是芯片数据处理的基础,。,基因,芯片探针水平数据处理的,R,软件包有,affy,affyPLM,affycomp,gcrma,等。,2,预处理,2.1,背景(,background,)处理,背景,处理即过滤芯片杂交信号中属于,非特异性的,背景噪音,部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为,背景,但,此法存在芯片不同区域背景扣减不均匀的,缺点。,也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或,综合整个芯片非杂交点背景所得的,平均吸光值,做为,背景。,背景,处理之后,我们可以将芯片数据放入一个矩阵中:,其中,各字母的意义如下:,N,:条件数;,G,:基因数目(一般情况下,,GN,);,行向量,mi=(mi1,mi2,miN),表示基因,i,在,N,个条件下的表达水平(这里指绝对表达水平,亦即荧光强度值);,列向量,mj=(m1j,m2j,mGj),表示在第,j,个条件下各基因的表达水平(即一张芯片的数据);,元素,mij,表示第基因,i,在第,j,个条件下(绝对)基因表达数据。,m,可以是,R,(红色,,Cy5,,代表样品组)。也可以是,G,(绿色,,Cy3,代表对照组)。,2.2,数据,清洗(,data cleaning,),经过,背景校正后的芯片数据中可能会产生,负值,还有一些,单个异常大(或小)的,峰(谷)信号(随机噪声)。对于,负值和噪声信号,,通常的处理方法就是将其,去除,,常见数据经验型,舍弃方法有:标准值或奇异值舍弃法;变异系数,法;,前景值,200,;前景值,-,平均数,/,前景值,-,中位数,80,%,等等。然而,,数据的,缺失对,后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响,。,Affy,公司的芯片分析系统会直接将负值修正为一个固定值。,对,数据的删除,通常是删去所在的列向量或行向量。一个比较常用的做法是,事先定义个阈值,M,。若行(列)向量中的缺失数据量达到阈值,M,,则删去该向量。若未达到,M,,有两种方法处理,一是以,0,或者用基因表达谱中的平均值或中值代替,另一个是分析基因表达谱的模式,从中得到相邻数据点之间的关系,据此利用相邻数据点估算得到缺失值(类似于插值),。,填补缺失值(,k,临近,法),:,利用与待补缺基因距离最近的,k,个临近基因的表达值来预测待填补基因的表达值。根据邻居基因在样本中的,加权平均,估计缺失值。,2.3,提取表达值,由于芯片,数据的小样本和大变量的特点,导致,数据分布呈偏,态、标准差,大,。,对数,转换,能使上调、下调的基因连续分布在,0,的周围,更加符合正态分布,同时对数转换使荧光信号强度的标准差减少,利于进一步的,数据分析。,cDNA,芯片:对,双通道数据使用,Cy5,(红)和,Cys3,(绿)两种荧光标记分别标记,case,和,control,样本的,cDNA,序列。扫描仪采用,两种波长,对,基因芯片的图像进行扫描,根据每个点的,光密度,值,计算相,对应的,绝对表达量,(intensity,),;然后,图像分析软件通过芯片的背景噪音以及杂交点的光密度分析,对每个点的,intensity,校准,,,利用,Cy5/Cy3,的值,获取,case,与,control,组不同基因的表达值,ratio,(,(,R/G,ratio,);一般选择,以,2,为底的,对数,转化数据,比如,R/G=1,,,则,log,2,R/G=0,,,即认为表达量没有发生变化,当,R/G=2,或者,,,R/G=0.5,,则,log,值为,1,或,1,,这是可以认为表达量都发生两倍的,变化。,以下的数据处理都是对,log,2,R/G,的形式进行分析。,2.4,归一化,经过,背景处理和数据清洗处理后的修正值反映了基因表达的,水平。,然而在芯片试验中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果之前必需将其归一化(,normalization,,也称作标准化),。,数据,的归一化目的是调整,由于基因芯片技术,引起的误差,不是调整生物,RNA,样本的差异。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据,也需归一化。常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率,统计法等。,比率,统计法,此,方法用于标准化同一块芯片上杂交的两种样品,并且建立于以下的假设之上:在近似的两个样品中,虽然基因有上调和下调,但一些基本的基因(如管家基因)的表达量是近似相同的。由此得出一个近似概率密度公式:比率,T=R/G,(,R,和,G,分别是芯片上第,K,个点的红光和绿光的强度),经过迭代算法处理得到一个平均表达比率及其可信限,用于数据的标准化计算。,常用,的方法是平均数、中位数标准化,(mean or median normalization,),:将,各组实验的数据的,log ratio,中位数或平均数调整在同一水平,。中位数,标准化,:将,每个芯片上的数值减去各自芯片上,log Ratio,值的,中位数,使得,所有芯片的,log Ratio,值中位数就变成了,0,,从而不同芯片间,logRaito,具有可比性,。,3,差异,基因表达,分析,经过,预处理,探针水平数据转变为基因表达数据。为了便于应用一些统计和数学术语,基因表达数据仍采用矩阵形式。,倍数,分析方法:,倍数变换,fold change,,单纯的,case,与,control,组表达值相比较,对没有重复实验样本的芯片数据,或者双通道数据采用这种方法(该方法是对基因芯片的,ratio,值从大到小排序,即,cy5/cy3,比值,一般,0.5-2.0,之间内的基因不存在差异表达,范围之外存在差异表达。缺点是倍数选取具有任意性,可能不恰当),参数,法,分析(,t,检验):,当,t,超过根据可信度选择的标准时,比较的两样本被认为存在着差异。但小样本基因芯片实验会导致不可信的变异估计,此时采用调节性,T,检验,。,非,参数分析:,由于微阵列数据存在“噪声”干扰而且不满足正态分布假设,用,t,检验有风险。非参数检验并不要求数据满足特殊分布的假设,所以可使用非参数方法对变量进行筛选。如,经验贝叶斯法、芯片显著性分析,SAM,法。,常用,的利用,R,的,limma,包使用,t,检验筛选差异表达基因,,,利用,R,的,siggenes,包使用,SAM,方法筛选差异表达基因。,False Discovery Rate(FDR,),在,基因芯片的实验中,每一个基因,/,探针,都是一个独立的,实验。基因,芯片:高通量,,1,000,个基因,/,探针。,因此,无论怎么比较,总会有一些基因会是统计显著性差异表的,可能是,随机产生,的。,如何,评估表达差异基因预测的,有效性,?,FDR,=p-value*No.of Genes,例,:,1,000,个探针的双通道芯片,以,p-value 0.01,为域值,发现,7,个上调基因,,5,个下调基因,分析结果是否具有统计学意义,?计算:,FDR=0.01*1,000=10(,随机,),。,7,个上调基因,,5,个下调基因,10,,因此上例计算的结果无统计学意义。,FDR,必须远小于发现的差异表达基因,数目。,另一种常用基因芯片,寡核苷酸表达谱芯片的数据预处理,:由于探针长度较,短(,20-25bp,),采用匹配,/,失配,探针对,方法,,即设计,一个特异的寡核苷酸,(,PM,匹配,)、同时,设计一个非特异性的寡核苷酸探针(,MM,失配,),该,探针仅仅在中间位置有一个碱基,替换。用,PM,与,MM,之间的,差值,作为信号,强度,,来解决寡核苷酸之间非特异性杂交的噪声,影响,。一般设计,11-20,对探针来检测一个转录本。,寡核苷酸芯片与,cDNA,芯片的数据预处理差别主要集中在转录表达值的获取,即如何将,11-20,对探针值转化为单个转录的表达值呢,常用三种预处理方法,即,MAS,、,RAM,法、,MBEI,法。,MAS,方法将芯片分为,k,(默认值为,16,)个网格区域,用每个区域使用信号强度最低的,2%,探针去计算背景值和噪声。,R,M A,该方法,使用回旋,(,convolution),模型计算出芯片的非,特异,杂交背景均值,然后以,P M,值减去该均值获得,校正,的,P M,值,再以对数相加,模型计算,转录的表达,值。,使用,软件提取表达值:,R,的,affy,包,ReadAffy(),函数可以读取,Affy,公司出的,CEL,格式寡聚核苷酸芯片原始数据,并使用,exprs,函数,(),查看,表达值,。,谢谢,请多多指教!,了解,芯片预处理的原理和步骤,后,,,完全,可以用一个,R,函数,完成,数据,处理,得到表达值,,,如,Affy,包提供,的处理函数,expresso,(,),。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 开题报告


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!