资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,基因芯片原理及数据分析,参考教材和资料,基因芯片数据分析与处理,李瑶 化学工业出版社,2006,年,生物芯片分析,美,M.,谢纳 著 科学出版社,DNA,芯片技术的方法与应用,马文丽 郑文岭 广东科技出版社,生物芯片技术,邢婉丽 程京 清华大学出版社,生物芯片技术,陈忠斌 化学工业出版社,基因芯片与功能基因组,李瑶 化学工业出版社,Google,ncbi,endnote:,网络资源,,文章(,Paper,),相关关键词,microarray,gene chip,,,gene expression,内容,基因芯片技术(概念、制作过程、应用等),基因芯片数据分析一般流程和主要内容,课程目的,基因芯片分析流程,生物学问题,实验设计,图像采集和处理(图像分析),芯片实验,预处理和标准化,聚类分析,差异表达基因分析,判别分析,基因网络分析,生物学解释和验证,基因芯片数据分析,基因芯片的产生,人类基因组计划完成,人类基因组研究的重心逐渐进入后基因组时代(,PostgenomeEra,)向基因的功能及基因的多样性倾斜,基因芯片正是迎合这一需要产生的,基因芯片技术在不同学科和技术的基础上发展起来的。,基因芯片技术,基因芯片的技术发展历史,基因芯片技术,Southern&Northern,Blot,Dot,Blot,Macroarray,Microarray,Based on Southern BIot Technology(Edward Southern,1975,J.Mol.Biol.),1990:,first high-density Nylon filter Arrays(Lennon/Lehrach,1991,Trends Genet.,Review),1995:,cDNA-Microarrays described by Schena et al,Science,1996:,Affymetrix Genechip Technology described by Lockhart et al,Nat.Biotechnol,基因芯片的概念,基因芯片,(Gene chip),指对数以千记的,DNA,片段同时进行处理分析的技术,诸如基因组,DNA,突变谱和,mRNA,表达谱的检测等。该技术系指将大量,探针,分子固定于,支持物,上后与标记的,样品分子,进行杂交,通过检测每个探针分子的杂交,信号强度,进而,进行大量的基因表达及监测等方面研究的最新革命性技术。,探针:所谓基因探针只是一段人工合成的,碱基序列,,在探针上连接一些可检测的物质,根据碱基互补的原理,利用基因探针到基因混合物中识别特定基因。它将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析。,基因芯片示例图片,基因芯片技术,基因芯片原型,基因芯片技术,基因芯片的制作、检测,基因芯片技术,基因芯片的其他称呼,通常用计算机硅芯片作为固相支持物,所以基因芯片,(gene chip),又称,DNA,芯片,DNA,微阵列,(DNA microarray),。,DNA,芯片为生物芯片,(biochip),的一种,基因芯片是生物芯片中应用最广泛、技术最成熟的一种,它来源于计算机芯片,.,一块基因芯片相当于一个集成处理器,其中的每个探针相当于一个探头,能对相关及大量信息实现同时、自动和快速的采集、传输、分析和处理,做出相应的检测和诊断,.,基因芯片技术,什么是生物芯片(,Biochips)?,生物芯片是将大量,生物识别分子,按预先设置的排列固定于一种,载体,(如硅片、玻片及高聚物载体等)表面,利用生物分子的特意性亲和反应,如核酸杂交反应,抗原抗体反应等来分子,各种生物分子,存在的量的一种技术。,生物芯片包括:,DNA,芯片,蛋白质芯片,组织芯片,其它芯片,基因芯片技术,基因芯片分类,根据功能,基因表达谱芯片,DNA,测序芯片,疾病监测的诊断类芯片,。,根据探针类型,Cdna,寡核苷酸,基因芯片技术,基因芯片分类,按制备方式,原位合成:指根据预先设计的点阵序列在每个位点通过有机合成的方式直接聚合得到所要求的探针分子。聚合之后芯片片基的制作即告结束。,-,Affymetrix,公司研制 安捷伦公司,点样法(,1,)首先是探针库的制备,根据基因芯片的分析目标从相关的基因数据库中选取特异的序列进行,PCR,扩增或直接人工合成寡核苷酸序列,(,2,)然后通过计算机控制的三坐标工作平台用特殊的针头和微喷头分别把不同的探针溶液逐点分配在玻璃、尼龙以及其它固相基片表面的不同位点上,通过物理和化学的方法使之固定,该方法各技术环节均较成熟,且灵活性大,适合于研究单位根据需要自行制备点阵规模适中的基因芯片,斯坦福大学,基因芯片技术,基因芯片的优点,基因芯片的最大优点在于其高通量。传统方法检测众多基因要经历多次实验而且自动化程度低,因而每次实验之间是存在系统误差的。基因芯片可以克服这个缺点,众多基因的探针的标记、杂交等过程是在一次实验过程中完成的,而且自动化程度高,数据客观可靠。,基因芯片技术,基因芯片的缺点,基因芯片的缺点在于其不能对待检测基因在多细胞类型组织中的精确定位进行判断。另外很多蛋白质调节其功能不主要是依赖其是否表达或表达量高低,而是依赖蛋白质磷酸化-去磷酸化等方式。在这种情况下,用核酸类生物芯片就没有什么意义了,蛋白类芯片可能会有所作为的。从数据分析的角度,,高维,小样本,高噪。,基因芯片技术,基因芯片的应用,发育,相同的遗传物质,不同的细胞形状、大小、功能等,全基因组表达谱研究,-,分子调控,疾病研究,不同疾病导致不同的基因表达异常,比较正常组织和疾病组织的表达谱差异,-,疾病发生的分子基础,-,预防和治疗,药物发现,很多药物通过与特定的药靶结合,抑制蛋白质的功能,影响基因的表达,比较病人疾病发生的过程和用药过程基因表达的变化情况,-,药物发现、毒理研究和临床药效研究,-,降低成本、缩短研发周期、降低药物的毒副作用等,遗传筛查和诊断,人类基因的多态性,-,个性化诊疗,基因芯片数据分析流程,生物学问题,实验设计,图像采集和处理(图像分析),芯片实验,预处理和标准化,聚类分析,差异表达基因分析,判别分析,基因网络分析,生物学解释和验证,基因芯片数据分析,基因芯片图像的处理,划格,分割,信息提取,杂交后数据的获得,两张图的获得:对双色,cDNA,芯片经激光扫描仪扫描后,,Cy3(,参照样本,),、,CY5,(实验样本),对每个点四个数据的获得,红色前景荧光强度,Rf,红色背景荧光强度,Rb,绿色前景荧光强度,Gf,绿色背景荧光强度,Gb,对荧光强度可以用相应信号像素强度的平均值,中位值,众数值获得,背景校正后,红色荧光强度,R=Rf-Rb,绿色荧光强度,G=Gf-Gb,M,和,A,点的对数差异表达比,M=log2(R/G),:样本相对于参照样本的相对表达强度,点的对数强度,=1/2,(,log2RG,),=1/2(log2R+log2G),:点的整体亮度,备注:对,Affymetrix,采用的短的寡核苷酸芯片,采用单色荧光标记,则表达值为实验组合对照组两张芯片的信号比值,数据,数据表示,:常用矩阵表示,即行列表示,含义,主要基因芯片数据库,smd,Geo(,www.ncbi,nih.gov/geo),EBI,ArrayExpress,Outline,得到矩阵后?,芯片数据:众多基因的时空表达情况,基因表达模式,-,聚类,差异表达基因筛选(疾病相关基因筛选),疾病类型识别,网络分析:通过芯片数据找出基因之间的相互作用,基因注释,其他,基因芯片数据分析流程,生物学问题,实验设计,图像采集和处理(图像分析),芯片实验,预处理和标准化,聚类分析,差异表达基因分析,判别分析,基因网络分析,生物学解释和验证,基因芯片数据分析,基因芯片数据的预处理是一个十分关键的步骤,通过数据过滤获取需要的数据、数据转换满足正态分布的分析要求、缺失值的估计弥补不完整的数据、数据归一化纠正系统误差等处理为后续分析工作做准备,预处理分析的重要性并不亚于基因芯片的后续分析,它将直接影响后续分析是否能得到预期的结果,,Arraytools,预处理和归一化,背景的校正,弱信号的处理,数据的对数转换,重复数据的合并,异常值和缺失值得处理,数据的归一化,一、背景的校正,原因:点的荧光强度是背景荧光和标记,DNA,产生的荧光的共同作用,减去背景荧光强度才能真正反映基因的真实转录水平,方法,局部背景校正,亚栅格背景校正,分组背景校正,空白点背景校正,对照点背景校正,二、弱信号的处理,原因(背景):很多点信号强度很弱,但是并不是低质量的点,不能删除。,弱信号点的分类:,1,)噪声引起,尤其当前景信号强度接近背景信号强度,背景校正后,红绿光的荧光强度波动较大,2,)重要信息点:可能少量的表达就起到重要的作用,弱信号的处理方法,分离噪声和有价值意义的弱信号点,1,)重复芯片试验,观察弱信号点的稳定性,但成本高,提高分析的复杂性;,2,)找到一个适当的信号强度阈值,低于该值的点删掉,简单信号强度阈值,信噪比,通过背景、空白点、阴性对照点确定弱信号的阈值,信号强度的累积分布函数确定阈值,三、数据的对数转换,对换原因,生物学上易于理解,使数据的分布满足对称性和近似正态分布、满足常用的统计分析方法,使用的方便性,四、重复数据的合并,重复的必要性:减少变异,增强稳定性,便于统计分析,重复的类型,点的重复:注意合理布局,芯片的重复:,技术重复,:RNA,制备重复、标记重复、,杂交重复,生物学重复,重复数据的合并,计算重复值的集中趋势指标,五、异常值和缺失值的处理,异常值的产生,芯片的缺陷,点像素强度达到饱和,点像素强度非常小,异常值的处理,删掉,微阵列获取软件标记,数据预处理阶段去除,缺失值的产生:异常值去除,缺失值的处理,处理的必要性:一些统计学方法要求数据的完整性,比如奇异值分解,某些基因的聚类分析,处理的方法,删掉缺失值得整条记录(所在行和列,即删掉基因和相关的样本),便于操作,但是会丢失大量有价值的信息,数据填充,使用重复数据点,利用基因的相关性,使用重复数据点,条件:缺失数据发生在含有重复测量点,方法:利用未缺失的重复数据点的集中趋势指标估计,单张芯片上的重复点,技术重复:可以用其他进行技术重复的芯片上集中趋势来估计,生物学重复:需要谨慎,尽量使用同质的样品估计,例如癌症组织的某个样品的某个基因的缺失,不能用正常组织样本,利用基因的相关性,预测模型的建立,应变量:需要填充的变量,自变量:其他变量(不能有缺失值),方法,行均数、中位数、,0,等简单填充,使用回归模型对每个变量的缺失数据进行迭代性的预测,奇异值分解(特征选择、特征提取),有一个适当完整的基因数据集,没有或者难于找到一个完整的基因数据集,K-,近邻法,K-,近邻法,方法(,假定某个基因在某个指标上有缺失值),计算缺失值的基因和其他基因的相似性指标和距离指标(要估计的指标不参与计算),该基因的,K,个最近邻:找出与该基因最相似的,K,个基因,计算这,K,个基因在该指标上的均数或者加权均数,K,一般取,10-20,之间(,Troyanskaya,等分析发现的结果),六、数据的归一化,原因:系统误差的存在,使得同一芯片上和不同芯片间基因表达水平的直接比较无法实现,需要消除它,点样头,芯片的空间位置,影响,Cy3,和,Cy5,的因素,随机变异:随机因素引起,无法控制,系统变异:系统变异,样品的生物学变异:研究的目的,系统误差:,Cy3,和,Cy5,等荧光标记物的物理化学性质,扫描仪的属性设置对荧光强度测量的影响,两种荧光标记物在标记效率上的差异,不同点样头的差异,芯片的空间位置的不同,使得测量结果不能反映生物学差异,使得同一芯片上和不同芯片间基因的表达水平直接比较无法实现,=,根据系统误差的来源对数据进行归一化,消除系统误差,系统误差的图形呈现方法,系统误差的图形呈现方
展开阅读全文