SAM PowerPoint 演示文稿

上传人:lx****y 文档编号:242971683 上传时间:2024-09-13 格式:PPTX 页数:52 大小:1.55MB
返回 下载 相关 举报
SAM PowerPoint 演示文稿_第1页
第1页 / 共52页
SAM PowerPoint 演示文稿_第2页
第2页 / 共52页
SAM PowerPoint 演示文稿_第3页
第3页 / 共52页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2012-5-18,#,单击此处编辑母版标题样式,SAM ?,Significance Analysis of Microarrays,1,DNA,芯片,(DNA,微矩阵,),技术作为一种高通量的生物学分析平台,随着基因芯片技术的发展,积累了海量的基因表达数据。如何对这些数据进行有效地分析和挖掘以发现其中蕴含的信息和知识,是当前生物信息学研究的一项重要工作。,Our work,2,使用基因芯片显著性分析(,SAM,)方法将基因表达数据与临床特征数据(,eg.,生化检验指标、医学影像结果、癌症分期、组织切片结果等)关联,可以找到与该特征相关性强的基因,再结合其他方法或数据进一步分析,以揭示其内在的生物学意义。,When job met,“,SAM,”,3,特征基因,的选取问题对后续的数据分析与挖掘非常重要,决定了后续分析能否得到预期的结果。目前,有多种方法或策略可应用于特征基因的选取,其中一大类是经典的统计学方法;另外一大类方法是,专门针对芯片数据的特点设计的,。在后者中,有一种称作基因芯片显著性分析,(SAM),的方法在芯片分析领域被广泛应用。,SAM is necessary,for us,4,SAM is a statistical technique for finding significant genes in a set of microarray experiments.,它是由,Standford,大学开发的一个免费软件,目前广泛地被学术界所采用,进行挑选差异基因。,SAM,软件可以作为插件在,Office Excel,软件中进行应用,很容易被生物医学工作者掌握。,Proposed by Tusher , Tibshirani and Chu,,方法首次是由,Tusher,在,2001,年被提出,被确定为是识别基因芯片差异表达性基因的一种算法。,We call it ,基因芯片显著性分析,简称,SAM,So whats “SAM”,?,5,目前,针对差异表达基因的筛选,现阶段存在多种方法,包括传统的倍数法,( ratio,分析,),、,t,检验和方差分析、,Wilcoxon,非参数法, Bonferroni,修正法等,也有专门针对芯片数据特点的,SAM( significance analysis of microarray),方法等,这些方法都或多或少存在某些缺陷,: ,倍数法没有考虑基因表达的变异情况,结论没有经统计学的检验,;,差异表达倍数受极端值的影响严重,而极端值是微阵列实验中的常见现象,; t,统计量可能由于分母,(,标准误,),非常小,而在分子较小的情况下,(,基因在不同状态下的表达相差很小,),得到较大的值,在大量的基因中通常会有一部分基因具有很小的标准误,从而造成假阳性率,( false positive rate, FPR),较高。这些缺点给大规模差异基因的筛选带来了困难,同时造成了较高的假阳性。,The advantage of SAM,6,差异表达基因筛选的关键是控制假阳性,同时又能保持较高的筛检效率,.,在,t,检验方法中,由于基因芯片存在大量的噪音基因,方差估计会对低方差的基因产生偏性,因此,这些基因有较大的,t,检验值,从而导致假,阳,性,.,SAM,软件在筛选得到较多差异表达基因的同时,FDR,值还保持在较低的水平,.,SAM,软件是一种比较理想的差异表达基因分析工具,该方法目前在芯片数据分析领域被广泛应用,.,The advantage of SAM,7,SAM,方法以,t,检验为基础,并根据芯片数据噪音大小与表达峰度相关的特点进行修正。,SAM,软件进行分析的一个基本前提就是需要至少,3,次实验以上的重复。,其特点是在筛选得到较多特征基因的同时,错误发现率,(FDR),还保持在较低的水平。,first to understand it,8,在对基因表达数据的挖掘过程中,寻找差异表达基因是比较基础和前期的研究方法。为了降低数据的维度和排除假阳性,往往都需要筛选在不同条件下差异表达的基因。因此挑选差异表达基因往往是芯片数据分析的非常关键的第一步,生物学家通过芯片实验挑选出这些基因,为进一步的实验和研究提供线索。差异表达基因筛选的关键是控制假阳性率,同时要保持较高的筛检效率。然而,DNA,微阵列技术产生的海量数据由于其大规模、高噪声、高维度的特点,在数据挖掘和处理分析方面仍没有满意的解决方法。,SAM,的研究背景,9,一般而言,基因芯片数据的噪声较高,其来源可分为三方面,即基因在人群分布的变异,基因在个体由于时间等原因造成的表达变异和试验中引入的噪声。但在数据分析时无法区分这三种变异,因而在拟合模型时往往将其同等视之,为此在模拟上也不对这三个来源进行区分。由于噪声偏大的原因,目前在生物学研究中往往利用芯片进行全基因组的扫描来初筛可能的差异表达基因,然后再采用,RT2PCR,或,Northern B lot,等实验手段来对基因芯片筛选到的差异表达基因进行验证。在此前提下,生物学家们希望筛选到尽可能多的差异表达基因,同时又要保证较低的假阳性个数,否则将大大增加后续验证工作的工作量。,SAM,的研究背景,10,SAM,的基本原理,:,该方法是以,t,检验为基础的统计推断分析方法,.SAM,软件根据排列组合,(permutation),的原理利用手头样本,来导出检验统计量的理论抽样分布,.,对实际问题来说,往往得不到检验统计量的确切抽样分布,可通过基于样本的大量重复的随机排列,(,或组合,),估计其近似的抽样分布,.,一般的,如果基因芯片数据量不是很大,机器内存资源允许的话,permutation,次数不少于,1 000,次,.,SAM,软件通过控制误判率,(false discove ry rate, FDR),来识别显著差异基因,误判率是指在选取显著基因时期望误差的比率,.,往往通过调整,delt a,值,来调整误判率,误判率通常设置为,5 % .,SAM,的原理及算法,11,算法:,校正参数的估计采用使统计量,di,的变异系数最小化的方法得到,:,(,1,),式中, di,为差异表达基因的统计量值,;,1,和,2,分布为试验组和对照组第,i,个基因表达值的样本均数,; s,为样本残差标准误,; s0,为样本残差标准误的校正值,s0,主要与,s,的分布相关,其数值大小可由使用者确定,也可以利用,SAM,软件自动估计。,它在基因特异性,t,检验的分母中加入一个较小的正值,使差异表达具有较小变化的基因不会因为具有很小的标准误而被误判为差异表达基因,减小了基因特异性,t,检验的不稳定性,有效降低了假阳性率,从而有效地达到差异表达基因的筛选目的。,SAM,的原理及算法,12,然后对数据进行,N,次无替换的重抽样,记第,k,次重抽样时的,di,为,d,k i , k = 1 , 2 , N;,计算,di,的期望值,并且设定值是样本统计量,di,与期望统计量,di,的差值。通过调节值可以控制,FPR,的大小,这个差值的大小反映了基因表达强度的能力大小,从而确定差异表达基因的数目,。,SAM,的原理及算法,13,(False discovery rate-,错误发现率,),Benjamini,,,(1995),提出的错误发现率,(FDR),的定义如下:,其中,,v,表示,m,个检验中错误拒绝的个数,,S,表示,m,个检验中正确检验的个数,,R,表示,m,个检验中拒绝原假设的个数。定义表明:,错误发现率,(FDR),表示的是,m,重检验,R,次拒绝中错误拒绝,(,犯,I,类错误,),个数,y,所占比例的期望。,FDR,的定义是在多重假设检验过程中,错误拒绝,(,拒绝真的原,(,零,),假设,),的个数占所有被拒绝的原假设个数的比例的期望值。,与控制,FWER,相比,控制,FDR,不仅提高了检验的功效,同时也改进了传统的多重假设检验过程过于保守的缺陷。,About FDR(False discovery rate),14,Now,,你对,SAM,是否有兴趣了呢?,那就让我们操作它吧!,15,Getting,Installation,Using,SAM in practice,16,SAM is licensed software: contact Kirsten Leute for details,(kirsten.),Academic users can get it from,Getting SAM,17,SAM does not rely on Java anymore ! SAM requires:,Windows 2000 or higher . SAM will not work with Windows 95, 98, NT or ME.,The latest version of R.,Microsoft Excel 2000 or higher.,RAM : the more , the merrier,System Requirements,18,Winzip sam.zip to extract contents to suitable folder (SAM).,Important files:,sam.pdf : contains reference manual with detailed information about installation USE IT!,Setup file: double-click on it to run it,How to installation SAM ?,19,如果你是从网上下载的,SAM,,只需要运行安装程序来进行安装。,安装过程中,,R,将会首先检查是否被安装。如果没有,系统会提示您安装一个,R,指定的,URL,。,(,在安装,sam-3.02.exe,之前先安装,R-2.6.2-win32.exe),如果,Excel,或,R,正在运行,你将被要求在安装前退出这些程序。,如果尚未安装,安装过程将安装的,RDCOM,服务器。,安装过程中需安装,SAMR,包。,安装过程将安装在,SAMVB,的,Visual Basic,的加载项上。,SAM,通常安装在,C,:,Program Files,文件,SAMVB,。,Something about Installation,20,安装,sam-3.02.ex,以后,打开,Excel,,在,加载项的,工具栏中会出现,Stanford Tools,,点击,Load SAM,,即可导入,SAM,及,SAM Controller,的快捷按钮,。,After finishing installation,21,twoclasstwo class, unpaired(,二类别不成对分析,),oneclassone class,(单一类别分析),Multiclass multiclass response,(多类别分析),Survival data,(存活资料分析),Quantitative treatments can be quantitatively different,(量化分析),Paired,(成对分析),Time course,(时间序列分析),(通常,我们在样品为癌和癌膀的时候选择,twoclass paired,),Examples,22,Two-class unpaired: to pick out genes whose mean expression level is significantly different between two groups of samples (analogous to between subjects t-test).,Two-class paired: samples are split into two groups, and there is a 1-to-1 correspondence between an sample in group A and one in group B (analogous to paired t-test).,Multi-class: picks up genes whose mean expression is different across 2 groups of samples (analogous to one-way ANOVA),Censored survival: picks up genes whose expression levels are correlated with duration of survival.,One-class: picks up genes whose mean expression across experiments is different from a user-specified mean.,Response type,23,Response type,Coding,two class, unpaired 1, 2,two class, unpaired, missing 1, 2,one class 1,multiclass response 1, 2, 3, 4, etc,two class, unpaired, blocked xBlockj,two class, paired k and k,censored survival data (t,state),quantitative value,Column labels,24,Examples two-class,25,The data should be put in an Excel spreadsheet. The first row of the spreadsheet has information about the response measurement ; all remaining rows have gene expression data , one row per gene . The columns represent the different experimental samples.,First two columns are probe identifiers, for users reference,first column: gene name,second column : gene id (poss hyperlink),Note that the gene id column is the column that is linked to the sourse website by SAM.,Remaining columns arrays, with group indicated on first row,Examples two-class,26,Examples two-class,27,Delta table: gives list of FDR values for several different deltas,Choose FDR that best suits your problem and pick corresponding delta,Back in SAM plot control , input that delta value and get list of significant genes.,Examples two-class,28,always NORMALIZED!,cDNA data: at least making the columns mean equal to zero is necessary,SAM handles both logged (base 2) and unlogged data,Data in SAM,29,If there are missing data, check pattern!,Row average,average of non-missing for that gene,only recommended in the one class case,K-nearest neighbor,average of k-nearest genes,default, with k=10,Handling missing data,30,SAM plot control window,31,Delta values : may be changed either via scrollbar or via entering value.,SAM,软件通过控制误判率,(false discovery rate, FDR),来识别显著差异基因(误判率是指在选取显著基因时期望误差的比率,.,往往通过调整,delta,值,来调整误判率,误判率通常设置为,5 %,),.,Fold change : optional,Eliminates from list of significant genes those with fold change smaller than value given.,Applies only to two-class or paired data.,SAM,软件支持基因改变的倍数法,(fold change),筛选,通常用的是,2,倍作为筛选标准,.,SAM plot control window,32,SAM output,33,All output is written on the same “SAM output” sheet,Previous output is lost every time you ask for a delta table / list of significant genes.,Always copy output into a different sheet if you want to keep it for reference !,SAM output,34,For a fixed delta value , gives :,gene names & IDs (positive and negative),score statistic (used to compare them),q-value,lowest FDR at which gene is significant.,works like p-value : the smaller, the more extreme the gene expressions are.,List of significant genes,35,Thank you,!,36,A,ddition-1 : The SAM Dialog Box,37,选择回应值的类型:,软件详解,Response type,Coding,Quantitative,Pattern discovery,Two class (unpaired),Integer 1, 2,Multiclass,Integer 1, 2, 3, .,Paired,Integer -1, 1, -2, 2, etc.,eg - means Before treatment, + means after treatment,-1 is paired with 1, -2 is paired with 2, etc.,Survival data,-(Time, status) pair like (50,1) or (120,0),First number is survival time, second is,status (1=died, 0=censored),One class,Integer, every entry equal to 1,Time course, two class (unpaired),(1 or 2)Time(t)Start or End,Time course, two class (paired),(-1 or 1 or -2 or 2 etc)Time(t)Start or End,Time course, one class,1Time(t)Start or End,Pattern discovery,eigengenek, where k is one of 1,2,. number of arrays,38,软件详解,Are data in log scale?(,仅限于,Two class),Logged(base 2) unlogged,39,Test statistic,T-statistic Wilcoxon,T-test,检验:,T,检验,亦称,student t,检验(,Students t test),,主要用于样本含量较小(例如,n 0 increases, the corresponding q-value decreases.,q-value & FDR,49,Data: X,ij,(,i=1,2,,,p,基因,,j=1,,,2,,,n,样本,),Response data,:,y,j,(,j=1,2,,,n,。,y,j,可以是个向量),计算一个统计值,d,i,=r,i,/s,i,+s,0,; (,i=1,2,,,p,),r,i,is a score, s,i,is a standard deviation, and s,0,is an exchangeability factor.,联系前面讲的,t,检验,这个表达差异基因的统计值是在分母上加了,s0,,而这个样本残差标准误差的校正值主要与,s,的分布有关。,Technical details of the SAM procedure,50,给统计值进行排序:,d,(1),d,(2),d,(p),对,B,系列数据进行,N,次不放回重抽样,每一个排列,b,计算为统计值记为,d,b,i,,(,b=1,2,,,N,),并对它相应的统计值排序,,d,(,1,),*,b,d,(,2,),*,b,d,(,p,),*,b,计算,di,的期望值 ,,i=1,2,p,给出,di,值以及,di,的期望值的图。,对于一个固定的阈值,从原点开始,向右移动,找到一个,i=i,1,,使,d,(,i,),-, ,所有大于,i,1,的基因称为上调基因,同理,从原点开始向左移动,找到一个,i=i,2,使,d,(,i,),-, ,所有低于,i,2,的基因称为下调基因。,Technical details of the SAM procedure,51,Row Number,:,The row in the selected data rectangle.,Gene Name,:,The gene name specified in the first column selected data rectangle. This is for the users reference.,Gene Id,:,The gene id specified in the second column selected data rectangle. This is for the users reference, but is also linked to the SOURCE web-site for gene information.,SAM score(d),:,The T-statistic value.,Numerator,:,The numerator of the T-statistic.,Denominator(s + s0),:,The denominator of the T-statistic.,q-value,:,This is the lowest False Discovery Rate at which the gene is called significant based on the work of John Storey 4 who invented q-values.It is like the familiar “p-value”, adapted to the analysis of a large number of genes. The q-value measures how significant the gene is: as di 0 increases, the corresponding q-value decreases.,Format of the Significant gene list,52,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!