第二讲 cdna芯片与基因表达分析.

资源描述

Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,LOGO,第二讲 cDNA芯片与基因表达分析,第一部分 cDNA芯片回顾,第二讲 cDNA芯片与基因表达分析,cDNA微阵列芯片,cDNA芯片的特点,原理：,cDNA是与mRNA互补的DNA分子，长约0.25kb,通过碱基互补配对原则进行探针与待测mRNA之间的分子杂交产生信号，反映待检mRNA水平，在一定程度上体现基因的表达水平,寡核苷酸芯片的特点,原理：,通过碱基互补配对原则进行杂交，检测对应片段是否存在、存在量的多少,优点：,可以通过原位合成法制备；,探针长度小，减少二级结构形成；,减少非特异杂交，能有效区分有同源序列的基因；,无需扩增，防止扩增失败影响实验；,杂交温度均一，提高杂交效率,缺点：,当寡核苷酸序列较短时，单一的序列不足以代表整个基因，需要用多段序列,cDNA芯片的优缺点,cDNA芯片的优点,序列长度长，可直接检测待检mRNA,结合敏感性强,信号强度大,cDNA芯片的缺点,探针退火温度差异大,存在非特异性交叉杂交,cDNA芯片应用领域,基因表达分析,等位基因探查,基因多态性分析,表达谱数据库,基因表达仓库,Gene Expression Omnibus，GEO,斯坦福微阵列数据库,The Stanford Microarray Database，SMD,其他常用基因表达数据库,ArrayExpress、CGED,第二部分 cDNA表达芯片数据预处理,第二讲 cDNA芯片与基因表达分析,基因芯片数据提取,对数转换,对芯片数据做对数化转换后，数据可近似正态分布,数据过滤,数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据,过闪耀现象,物理因素导致的信号污染,杂交效能低,点样问题,其它,数据补缺,(一)数据缺失类型,非随机缺失,基因表达丰度过高或过低,随机缺失,与基因表达丰度无关，数据,补缺主要针对随机缺失情况,数据补缺方法,简单补缺法,missing values = 0 expression,missing values = 1 expression (arbitrary signal),missing values = row (gene) average (median),missing values = column (array) average (median),K近邻法,选择与具有缺失值基因的k个邻居基因,用邻居基因的加权平均估计缺失值,参数:,邻居个数,距离函数,回归法,数据标准化,数据标准化的原因,存在不同来源的系统误差,染料物理特性差异,(,热和光敏感性，半衰期等,),染料连接效能,点样针差异,数据收集过程中扫描设施误差,不同芯片差异,实验条件差异,施加标准化处理的基因,芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同),不同条件间稳定表达的基因(如管家基因),控制序列(spiked control ),合成DNA序列或外源的DNA序列，在不同条件下表达水平相同。,1、片内标化(Within-slide normalization),(1) 全局标化(Global normalization),cDNA芯片数据标准化处理,假设： R=k*G,方法:,C=log,2,k：中值或均值,(2) 荧光强度依赖的标化(Intensity dependent normalization),为什么,方法: scatter-plot smoother lowess拟合,c(A) 为,M,vs,A,的拟合函数,标化后的数据,(3) 点样针依赖的标化(Within-print-tip-group normalization),为什么,一张芯片的不同区域运用不同的点样针点样，从而引入点样针带来的系统误差。,method,(4) 尺度调整(Scale adjustment),为什么,调整不同栅格(grids)间的数据离散度,方法：计算不同栅格的尺度因子,2、片间标化(Multiple-slide normalization),线性标化法(Linear scaling methods),与芯片内标化的尺度调整(Scale adjustment) 方法类似,非线性标化法(non-linear methods),分位数标化法(Quantile normalization),两张芯片的表达数据的分位数标化至相同，即分布于对角线上。,3、染色互换实验(dye-swap experiment ),的标化,实验组对照组,芯片1 cy5(R) cy3(G),芯片2 cy3(G) cy5(R),前提假设：,cc,方法:,M = log,2,R - log,2,G,A = (log,2,R + log,2,G)/2,前面提及的标准化方法仅效正了数据分布的中心，在不同的栅格间log-Ratios 的方差也不同。,第三部分 cDNA表达芯片数据分析,第二讲 cDNA芯片与基因表达分析,差异表达分析,一、倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值，判断基因是否差异表达,二、t检验法,运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性,三、方差分析,方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。,通过方差分析的假设检验判断组间变异是否存在，如果存在则表明基因在不同条件下的表达有差异。,四、SAM （Significance Analysis of Microarrays,),(一) 多重假设检验问题,型错误（假阳性）即在假设检验作推断结论时，拒绝了实际上正确的检验假设，即将无差异表达的基因判断为差异表达。,型错误（假阴性）即不拒绝实际上不正确的，即将有差异表达的基因判断为无差异表达。,在进行差异基因挑选时，整个差异基因筛选过程需要做成千上万次假设检验，导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率，需要进行纠正。常用的纠正策略有Bonferroni效正，控制FDR（False Discovery Rate）值等,。,(二) 分析步骤,计算统计量,扰动实验条件，计算扰动后的基因表达的相对差异统计量,计算扰动后的平均相对差异统计量,确定差异表达基因阈值：以最小,的正值和最大的负值作为统计阈,值，运用该阈值，统计在值中超,过该阈值的假阳性基因个数，估,计假阳性发现率FDR值。,通过调整FDR值的大小得到差异,表达基因。,五、信息熵,运用信息熵进行差异基因挑选时，不需要用到样本的类别信息，所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。,数据的聚类分析,一、聚类目的,基于物体的相似性,将物体分成不同的,组,二、基因表达谱数据的聚类,对基因进行聚类,识别功能相关的基因,识别基因共表达模式,对样本进行聚类,质量控制,检查样本是否按已知,类别分组发现亚型,样本,基因,基因表达谱,三、距离尺度函数,几何距离,线性相关系数,非线性相关系数,互信息,其它,四、聚类算法,(一)层次聚类,层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数，树状的聚类结构可以展示嵌套式的类别关系。,在对含非单独对象的类进行合并或分裂时，常用的类间度量方法,2000年,Alizadeh,等运用基因芯片数据，基于层次聚类算法证实了,DLBCL,肿瘤病人在,mRNA,层面确实存在两种亚型,(二)k均值聚类,基本思想,(三)自组织映射聚类,基本思想：在不断的学习过程中，输出层的神经元根据输入样本的特点进行权重调整，最后拓朴结构发生了改变,(四)双向聚类,双向聚类就是识别基因表达谱矩阵中同质的子矩阵，运用特定的基因子类识别样本子类。,基因芯片数据的分类分析,一、线性判别分类器,二、k近邻分类法,基本思想,三、PAM分类法（Prediction Analysis for Microarray）,基因1,基因2,基本思想,每类样本的质心向所有样本的质心进行收缩，即收缩每个基因的类均值，收缩的数量由值决定。当收缩过程发生时，某些基因在不同类中将会有相同的类均值，这些基因就不具有类间的区别效能。,计算统计量,对公式经过变换得到,收缩各类的均值,分析步骤,判断新样本类别,当,四、决策树,(一)基本思想,决策树又称为多级分类器，利用决策树分类可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决,决策树的结构：一个树性的结构，内部节点上选用一个属性进行分割，每个分叉都是分割的一个部分，叶子节点表示一个分布,(二)分析步骤：提取分类规则，进行分类预测,在构造决策树的过程中最重要的一点是在每一个分裂节点确定用那个属性来分类(或分裂）,这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理,决策树分类算法,output,训练集,决策树,input,(三)衡量准则,信息增益Information gain,基尼指数Gini index,(四)决策树的修剪,消除决策树的过适应问题,消除训练集中的异常和噪声,所涉及的方法很多，比如先剪枝算法（print）与后剪枝（sprint 算法）等等,五、分类效能评价,(一)构建训练集和检验集,n倍交叉验证（n-fold cross validation）,Bagging（bootstrap aggregation）,无放回随机抽样,留一法交叉验证（leave-one-out cross validation，LOOCV）,(二)分类效能,灵敏度(sensitivity，recall),特异性(specificity),阳性预测率（positive predictive value，precision）,阴性预测率（negative predictive value）,均衡正确率（balanced accuracy）,正确率（correct or accuracy）,表达谱分析结果注释,单基因注释,基于文献检索的注释方法Reference Validation (PubMed/PubMatrix),基于基因查证,疾病数据库,利用本体论构建基因功能注释体系,Gene Ontology (GO)收录人类9000个基因约12万条注释信息,分为Molecular Function（MF）、Biological Process（BP）和Cellular Component（CC）三大类注释体系,采用有向无环图结构，具有层次性,超几何分布,Fisher精确检验,DAVID注释工具,利用通路信息进行基因注释,KEGG：代谢、信号、疾病,其他通路数据库,辅助工具,商业化cDNA表达芯片,人14K基因表达谱cDNA芯片,所点基因有,13824个,包含 11203个Unigene，其中已知基因 8568个，EST2635个,主要包括有关细胞分化、细胞信号转导、细胞结构、细胞成分、基因和蛋白表达、代谢、假基因等已知功能或者与疾病相关的人类基因,疾病与基因表达的关系研究，建立表达谱与疾病的关系模型；,肿瘤机理研究，寻找新的抗癌药物作用位点，肿瘤的早期诊断，肿瘤的预防；,发育、分化、调亡过程的机制，相关的信号转导途径研究；,从EST中寻找新基因；,基因的功能研究；,药物的靶位点研究，毒理研究。,大鼠10K基因表达谱cDNA芯片,覆盖9753种基因，其中Unigene7116条，同源基因1758条，7116个Unigene中已知基因 2058条，EST 5057条,多个质控样品的多次重复，保证结果的可靠性,可获得相应的基因克隆，用于进一步的功能研究,应用领域,基因表达谱的识别；,信号转导通路的研究；,组织或疾病特征性分子表达的识别和鉴定；,疾病亚型的基因表达水平区分、药物效应和药物作用靶点识别研究。,人细胞凋亡相关基因cDNA芯片,人细胞凋亡基因表达谱cDNA芯片（V1.0）含细胞凋亡相关基因458个。,这些基因根据它们的结构与功能等被分成：,死亡受体及其配体和其它相关蛋白,Caspases、Bcl-2 家族,Calpains,Death Kinases,Granzymes,DNA fragmentation proteins,其它细胞调亡相关的蛋白、老化与衰老相关蛋白,应用领域,细胞调亡的分子机制,细胞调亡与肿瘤的关系,衰老的机制与寿命的延长,相关的药物研制与开发,其他与细胞调亡有关的研究,人细胞周期相关基因cDNA芯片,人细胞周期基因表达谱cDNA芯片含细胞周期相关蛋白和细胞分裂相关基因283个,其中包括：Cyclin、CDK、,CDK 抑制因子、有丝分裂与减数分裂相关蛋白基因、细胞分裂与胞浆移动相关蛋白基因等。,应用领域,细胞周期内不同时期的基因表达变化,细胞周期与肿瘤发生和抑制的关系,细胞周期与发育和分化的关系,细胞分裂的机制和过程,开发和研究以细胞周期和,细胞分裂为作用位点的药物,人转录因子相关基因cDNA芯片,人转录因子基因表达谱cDNA芯片（V1.0）含转录因子类基因1362个，其中包括：,基本转录因子,转录促进因子和抑制因子,转录终止蛋白,其他转录相关蛋白基因等等,应用领域,各种生物过程中相关转录因子的寻找,转录过程的研究,基因表达的调控,与该过程有关的疾病,与该过程有关的药物,其他与转录因子相关的研究,人毒理代谢相关基因cDNA芯片,人毒理、代谢功能cDNA芯片含代谢相关基因1351个，其中包括：,与细胞能量代谢相关的酶类基因；,与细胞内外物质转运相关的基因；,参与能量代谢调控的各种激素和生长因子及其受体基因，同时包括了用于芯片质量控制和数据校正的阴性对照和空白对照。,应用领域,可用于各种代谢性疾病的临床及基础研究以及代谢性疾病治疗药物的筛选与评估；,可以分析药物先导化合物或中药有效成分对细胞中特定代谢相关的基因的表达谱变化；,可以预测可能的毒性和毒理机制及相关的药物开发。,大鼠受体、离子通道基因表达谱cDNA芯片,大鼠受体和离子通道芯片含相关基因418个。每张芯片上各基因均有4个重复，16个质控点，受体相关基因包括：,生长因子受体、干扰素受体、各类激素受体、细胞因子受体、神经激素受体、蛋白激酶、蛋白磷酸化酶、G 蛋白、orphan蛋白、核受体、死亡结构域受体等，离子通道相关基因包括配体、电压介导的各种离子通道、水通道、协助扩散蛋白、氨基酸和核苷酸转运蛋白、离子泵、其他小分子的转运蛋白等。,应用领域,细胞内信号传递途径；,神经系统相关的研究；,药物的开发、筛选及药理作用的研究；,疾病发生及治疗；,特定生物过程或疾病中各类细胞受体的表达情况；,受体和离子通道芯片其他相关领域的研究。,芯片表达数据的其它分析,主成分分析,主成分分析是一种通过降维技术把多个变量化为少数几个主成分,(,即综合变量,),的统计分析方法。这些主成分能够反映原始变量的绝大部分信息，它们通常表示为原始变量的某种线性组合,在基因表达分析中，主成分分析可以用于特征基因的提取,时间序列又称动态数列或时间数列，就是把各个不同时间的指标数值，,按时间先后顺序排列,起来所形成的统计数列,基因表达存在时空差异性，时间序列分析可以研究基因表达在时间上的联系性,时间序列和时间延迟调控,生存分析,研究既有事件的发生时间又有事件结局资料的统计学方法，强调所研究问题的结果变量是某一事件发生的时间,存在生存资料的表达数据可以研究特征基因集与预后之间的相关性,发育分析,对于每一套发育时间表达谱采用主成分分析方法构建发育时间线（DT）,以基因为对象，时间点为特征，选取与与发育时间最相关的主成分,将结果进行标准化形成基因随时间的有序排列，将变化基因比率转化为上、下调基因随时间线的概率分布，用以反映疾病与发育之间的量化关系,Meta分析,使用所有可用的资料增加估计的准确性,可以对表达谱数据的样本进行整合，也可以对表达谱数据获得的统计结果进行整合,经典数据集,Nature 1999 白血病mRNA表达谱分类数据,Nature 2005 miRNA表达谱分类癌症数据,Nature 2008 78组织的表达谱数据,NCI 60癌症表达谱数据（mRNA/miRNA),cMap(小分子刺激表达变化）,SNP与基因表达,外显子表达,eQTL,系统遗传学,网络遗传学,常用的表达谱分析软件,ArrayTools,SAM,Cluster和TreeView,R语言和BioConductor: affy、marray、limma,Matlab: Bioinformatics Toolbox,

展开阅读全文

第二讲 cdna芯片与基因表达分析.

最新文档