资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第七章 基因芯片数据分析,Microarray Data Analysis,第一节 芯片平台及数据库,(General Microarray Platform and Database ),一、cDNA微阵列芯片,寡核苷酸芯片类似于cDNA芯片,但是在探针的设计上优于cDNA芯片,它的探针并不是来源于cDNA克隆,而是预先设计并合成的代表每个基因特异片段的约50mer左右长度的序列,然后将其点样到特定的基质上制备成芯片,从而克服了探针序列太长导致的非特异性交叉杂交和由于探针杂交条件变化巨大导致的数据结果的不可靠。,二、寡核苷酸芯片,五、基因表达仓库,Gene Expression Omnibus,GEO,六、斯坦福微阵列数据库,The Stanford Microarray Database,SMD,第二节 基因芯片数据预处理,(General Microarray Data Type and Database ),一、基因芯片数据提取与过滤,(一),cDNA微阵列芯片,(二),Affymetrix公司的原位合成芯片,定性信息提取:P/A/M(Present/Absent/Marginal),定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值,数据过滤,数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据。,过闪耀现象,物理因素导致的信号污染,杂交效能低,点样问题,其它,二、数据补缺,(一)数据缺失类型,非随机缺失,基因表达丰度过高或过低,随机缺失,与基因表达丰度无关,数据,补缺主要针对随机缺失情况,(二)数据补缺方法,1、简单补缺法,missing values = 0 expression,missing values = 1 expression (arbitrary signal),missing values = row (gene) average,missing values = column (array) average,2、K近邻法,选择与具有缺失值基因的k个邻居基因,用邻居基因的加权平均估计缺失值,参数:,邻居个数,距离函数,3、回归法,三、数据标准化,(一)为什么要进行数据标准化,存在不同来源的系统误差,染料物理特性差异(热和光敏感性,半衰期等),染料连接效能,点样针差异,数据收集过程中扫描设施,不同芯片差异,实验条件差异,(二)运用哪些基因进行标准化处理,芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同),不同条件间稳定表达的基因(如持家基因),控制序列(spiked control ),合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。,1、片内标化(Within-slide normalization),(1) 全局标化(Global normalization),(三) cDNA芯片数据标准化处理,假设: R=k*G,方法:,C=log,2,k:中值或均值,(2) 荧光强度依赖的标化(Intensity dependent normalization),为什么,方法: scatter-plot smoother lowess拟合,c(A) 为,M,vs,A,的拟合函数,标化后的数据,(3) 点样针依赖的标化(Within-print-tip-group normalization),为什么,一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。,method,(4) 尺度调整(Scale adjustment),为什么,调整不同栅格(grids)间的数据离散度,方法:计算不同栅格的尺度因子,2、片间标化(Multiple-slide normalization),线性标化法(Linear scaling methods),与芯片内标化的尺度调整(Scale adjustment) 方法类似,非线性标化法(non-linear methods),分位数标化法(Quantile normalization),两张芯片的表达数据的分位数标化至相同,即分布于对角线上。,3、染色互换实验(dye-swap experiment ),的标化,实验组 对照组,芯片1 cy5(R) cy3(G),芯片2 cy3(G) cy5(R),前提假设:,cc,方法:,1、 提取定性信号,(1)对每个探针对计算R,R = (PM - MM) / (PM + MM),(2)比较R与定义的阈值Tau(小的正值,默认值为0.015 ).,(3) 单侧的Wilcoxons Signed Rank test产生p值,根据p值定义定量信号值,Present call,Marginal call,Absent call,(四) Affymetrix芯片数据标准化,2、提取定量信号,(1)分析步骤,获取探针水平数据,背景值效正,标准化处理,探针特异背景值效正,探针集信号的汇总,(2)分析方法,M = log,2,R - log,2,G,A = (log,2,R + log,2,G)/2,前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。,第三节 差异表达分析,(Analysis of Differentially Expression Gene ),一、倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值,判断基因是否差异表达,二、统计学方法,1、t检验法,运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性,2、方差分析,方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。,三、SAM (Significance Analysis of Microarrays,),(一) 多重假设检验问题,型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。,型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。,在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(False Discovery Rate)值等,。,(二) 分析步骤,计算统计量,扰动实验条件,计算扰动后的基因表达的相对差异统计量,计算扰动后的平均相对差异统计量,确定差异表达基因阈值:以最小,的正值和最大的负值作为统计阈,值,运用该阈值,统计在值中超,过该阈值的假阳性基因个数,估,计假阳性发现率FDR值。,通过调整FDR值的大小得到差异,表达基因。,四、信息熵,运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。,第四节,基因芯片数据的聚类分析,(Cluster Analysis of Microarray Data),(一)相似性测度,几何距离,线性相关系数,非线性相关系数,互信息,其它,(二),层次聚类,层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。,在对含非单独对象的类进行合并或分裂时,常用的类间度量方法,(三)k均值聚类,基本思想,(四)自组织映射聚类,基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变,第五节 基因芯片数据的分类分析,(Classification of Microarray Data ),一、线性判别分类器,二、k近邻分类法,基本思想,三、决策树,(一)基本思想,决策树又称为多级分类器,利用决策树分类可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决,决策树的结构:一个树性的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布,(二)分析步骤:提取分类规则,进行分类预测,在构造决策树的过程中最重要的一点是在每一个分裂节点确定用那个属性来分类(或分裂),这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理,决策树分类算法,output,训练集,决策树,input,(三)衡量准则,信息增益Information gain,基尼指数Gini index,第六节 常用的表达谱分析软件,(General Microarray Analysis Software ),ArrayTools,DChip(DNA-Chip Analyzer),SAM,R语言和BioConductor: affy、marray、limma,Matlab: Bioinformatics Toolbox,
展开阅读全文