医学数据挖掘课件：差异和聚类分析

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,基因表达数据的获得与分析,基因表达数据的获得与分析,基因芯片数据的基础分析思路,预处理,差异表达基因筛选,聚类与分类,功能注释和富集分析,基因芯片数据的基础分析思路预处理,差异表达基因筛选,表达谱分析的主要目的之一就是挑出差异表达的基因。,何谓显著表达差异？,它通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外，达到一定的差异，具有统计学意义，同时也具有生物学意义。,在两个或多个条件下比较识别有显著表达差异的基因,，从中识别出与条件相关的特异性基因,例如，识别可用于肿瘤分型的特异基因等。,差异表达基因筛选表达谱分析的主要目的之一就是挑出差异表达的基,筛选差异表达基因的方法,倍数法,假设检验法,-t,检验,-,方差分析法（,ANOVA,）,-SAM(Significance Analysis of Microarrays),-,信息熵,筛选差异表达基因的方法倍数法,倍数法（,fold change,）,最早应用于基因芯片数据分析的方法，也是常用方法,一般,0.5-2.0,范围内的基因不存在明显的表达差异,该范围之外则认为基因的表达出现明显改变,.,优点是计算简单直观，缺点是倍数阈值的选取是任意的,而且,没有考虑到差异表达的统计显著性,，忽视了变化小的基因,实验样本中的表达值,对照样本中的表达值,倍数法（fold change）实验样本中的表达值对照样本中,t,检验,(t-test),判断基因在,两种,不同条件下的表达差异是否具有显著性,t检验(t-test)判断基因在两种不同条件下的表达差异,方差分析,(ANOVA),其目的是推断两组或多组资料的总体均数是否相同,检验,两类或多类样本,均数的差异是否有统计学意义,它将基因在样本之间的,总变异,分解为,组间变异,和,组内变异,两部分。通过方差分析的假设检验判断组间变异是否存在，如果存在则表明基因在不同条件下的表达有差异。,方差分析(ANOVA)其目的是推断两组或多组资料的总体均数,SAM,是通过,FDR,值矫正多重假设检验中的假阳性率,SAM,分析步骤,计算统计量，是,t,统计量的修正,扰动实验条件,，计算扰动后的基因表达的相对差异统计量,计算扰动后的平均相对差异统计量,估计,FDR,（,false discovery rate,）,SAM,(,significance analysis of microarrays,),SAM(significance analysis of,确定差异表达基因阈值：以最小,的正值和最大的负值作为统计阈,值，运用该阈值，统计在值中超,过该阈值的假阳性基因个数，估,计假阳性发现率,FDR,值。,通过调整,FDR,值的大小得到差异,表达基因。,SAM(,significance analysis of microarrays,),SAM(significance analysis of,实现程序,data-read.table(C:R,实现,miRNA_expression_all.txt,header=T);,rownames(data)-data,1;,data-data,-1;,d-data,1:60;,n-data,61:75;,fold_change-apply(d,1,mean)/apply(n,1,mean);#fold_change,值,ttest-matrix(0,nrow=dim(data)1,ncol=2);,for(i in 1:dim(data)1),t-t.test(ni,di,var.equal=T);,ttesti,1-t$statistic;,ttesti,2-t$p.value;,#t,检验的,P,值和,t,统计量,fdr-p.adjust(ttest,2,BH);#P,值的,BH,校正,实现程序data 1.5,且,fdr_BH0.1,index1 1.5);,index2-fdr0.1;,index-index1,result-cbind(rownames(data),fold_change,ttest,fdr);,colnames(result)-c(miRNA,Fold_change,TSores,PValues,fdr_BH);,result 1.5且fdr_BH0.,差异表达基因结果,15,个表达下调,miRNA,20,个表达上调,miRNA,结果,差异表达基因结果15个表达下调miRNA结果,基因芯片数据的基础分析思路,预处理,差异表达基因筛选,聚类,与分类,功能注释和富集分析,基因芯片数据的基础分析思路预处理,引言,物以类聚，人以群分,基于物体的,相似性,将物体,分成不同的组,引言物以类聚，人以群分基于物体的相似性将物体分成不同的组,基因表达谱数据的聚类,对基因进行聚类,识别功能相关的基因,识别基因共表达模式,对样本进行聚类,质量控制,检查样本是否按已知,类别分组,亚型识别,基因表达谱数据的聚类对基因进行聚类,距离尺度函数（相似性）,几何距离,欧氏距离,切氏距离,马氏距离,明氏距离,线性相关系数,皮尔森相关系数,非线性相关系数,斯皮尔曼秩相关,其他,距离尺度函数（相似性）几何距离,明氏距离,令,表示样品,与,的距离,设原始数据为,特别地，当,k,1,时，即为,绝对值距离,当,k,2,时，即为,欧氏距离,当,k,时，即为,切比雪夫距离,几何距离,明氏距离令表示样品与的距离设原始数据为特别地，当k1时，,1,2,3,4,5,20,18,10,4,4,7,10,5,5,3,25.2,36.3,28.9,11.5,17,欧氏距离,切比雪夫距离,120725.2欧氏距离切比雪夫距离,变量间相似系数,变量,和,的相关系数：,皮尔森相关系数,斯皮尔曼秩相关系数,又称等级相关系数，或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次，以各要素样本值的位次代替实际数据而求得的一种统计量。,变量间相似系数变量和的相关系数：皮尔森相关系数斯皮尔曼秩相,层次聚类,层次聚类算法将研究对象按照它们的相似性关系用,树形图,进行呈现，进行层次聚类时,不需要预先设定类别个数,，树状的聚类结构可以展示,嵌套,式的类别关系。,层次聚类层次聚类算法将研究对象按照它们的相似性关系用树形图进,层次聚类,在对含,非单独对象的类,进行合并或分裂时，常用的,类间度量方法,类,p,与,q,之间的距离,p,q,层次聚类在对含非单独对象的类进行合并或分裂时，常用的类间度量,欧氏距离,+,最小距离,AD,欧氏距离+最小距离AD,欧氏距离,+,最小距离,并,类,距,离,并,类,距,离,欧氏距离+最小距离并并,欧氏距离,+,最小距离,并,类,距,离,并,类,距,离,欧氏距离+最小距离并并,欧氏距离,+,最小距离,并,类,距,离,决定类的个数与类,观察此图，我们可以把,4,个样品分为,2,类,、,欧氏距离+最小距离并决定类的个数与类观察此图，我们可以,聚类法的基本步骤：,1.,计算,n,个样品两两间的距离，记作,D=,。,2.,构造,n,个类，每个类只包含一个样品。,3.,合并距离最近,的两类为一新类。,4.,计算新类与各当前类的距离,。,5.,重复步骤,3,、,4,，合并距离最近的两类为新类，直到所有的类并为一类为止。,6.,画聚类谱系图。,7.,决定类的个数和类。,准则：同一个聚类中的对象尽可能的接近或相关，不同聚类中的对象尽可能的原理或不同,聚类法的基本步骤：准则：同一个聚类中的对象尽可能的接近或相关,层次聚类,确定类别个数？,相似性阈值,指定类别数,层次聚类确定类别个数？,层次聚类,疾病的遗传异质性,Genetic heterogeneity refers to,multiple origins,causing the,same disorder,in different individuals.,层次聚类,层次聚类,层次聚类,层次聚类,层次聚类,层次聚类,Coupled two-way clustering(CTWC),采用嵌套式基因和疾病两个方向的循环搜索，识别,疾病亚类,及导致疾病亚类发生的对应,基因簇,层次聚类Coupled two-way clustering,程序,index-rownames(data)%in%result,1;,#,聚,miRNa,diff_expr-dataindex,;,hc-hclust(dist(diff_expr),ave);,plot(hc,hang=-1);,#,聚样本,diff_expr2-t(diff_expr);hc-hclust(dist(diff_expr2),ave);plot(hc,hang=-1,cex=0.5);,程序index-rownames(data)%in%r,医学数据挖掘课件：差异和聚类分析,

展开阅读全文

医学数据挖掘课件：差异和聚类分析

最新文档