2020年7基因芯片数据分析参照模板课件

上传人:2127513****773577... 文档编号:241321128 上传时间:2024-06-17 格式:PPTX 页数:50 大小:1.23MB
返回 下载 相关 举报
2020年7基因芯片数据分析参照模板课件_第1页
第1页 / 共50页
2020年7基因芯片数据分析参照模板课件_第2页
第2页 / 共50页
2020年7基因芯片数据分析参照模板课件_第3页
第3页 / 共50页
点击查看更多>>
资源描述
第七章第七章 基因芯片数据分析基因芯片数据分析Microarray Data Analysis第七章 基因芯片数据分析Microarray Data A第一节 芯片平台及数据库(General Microarray Platform and Database)(General Microarray Platform and Database)一、一、cDNA微阵列芯片微阵列芯片第一节 芯片平台及数据库 一、cDNA微阵列芯片寡寡核核苷苷酸酸芯芯片片类类似似于于 cDNA芯芯片片,但但是是在在探探针针的的设设计计上上优优于于 cDNA芯芯片片,它它的的探探针针并并不不是是来来源源于于 cDNA克克隆隆,而而是是预预先先设设计计并并合合成成的的代代表表每每个个基基因因特特异异片片段段的的约约 50mer左左右右长长度度的的序序列列,然然后后将将其其点点样样到到特特定定的的基基质质上上制制备备成成芯芯片片,从从而而克克服服了了探探针针序序列列太太长长导导致致的的非非特特异异性性交交叉叉杂杂交交和和由由于于探探针针杂杂交交条条件件变变化化巨巨大大导导致致的的数数据据结结果果的的不不可可靠靠。二、寡核苷酸芯片二、寡核苷酸芯片 寡核苷酸芯片类似于cDNA芯片,但是在探针的设计上优于cD五、基因表达仓库五、基因表达仓库 Gene Expression Omnibus Gene Expression Omnibus,GEOGEO六、斯坦福微阵列数据库六、斯坦福微阵列数据库 The Stanford Microarray The Stanford Microarray DatabaseDatabase,SMD SMD 五、基因表达仓库第二节 基因芯片数据预处理(General Microarray Data Type and Database)(General Microarray Data Type and Database)一、基因芯片数据提取与过滤一、基因芯片数据提取与过滤(一一)cDNA微阵列芯片微阵列芯片第二节 基因芯片数据预处理(General Microar(二二)Affymetrix公司的原位合成芯公司的原位合成芯片片定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值(二)Affymetrix公司的原位合成芯片定性信息提取:数据过滤数据过滤 数据过滤的目的是去除表达水平是负值或很小的数据过滤的目的是去除表达水平是负值或很小的数据过滤的目的是去除表达水平是负值或很小的数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据。数据、或者明显的噪声数据。数据、或者明显的噪声数据。数据、或者明显的噪声数据。n n过闪耀现象过闪耀现象过闪耀现象过闪耀现象 n n物理因素导致的信号污染物理因素导致的信号污染物理因素导致的信号污染物理因素导致的信号污染 n n杂交效能低杂交效能低杂交效能低杂交效能低n n点样问题点样问题点样问题点样问题n n其它其它其它其它数据过滤 数据过滤的目的是去除表达水平是负值或很小的数据二、数据补缺二、数据补缺(一一)数据缺失类型数据缺失类型n n非随机缺失非随机缺失非随机缺失非随机缺失 基因表达丰度过高或过低基因表达丰度过高或过低基因表达丰度过高或过低基因表达丰度过高或过低n n随机缺失随机缺失随机缺失随机缺失 与基因表达丰度无关,数据与基因表达丰度无关,数据与基因表达丰度无关,数据与基因表达丰度无关,数据 补缺主要针对随机缺失情况补缺主要针对随机缺失情况补缺主要针对随机缺失情况补缺主要针对随机缺失情况二、数据补缺(一)数据缺失类型(二二)数据补缺方法数据补缺方法1 1、简单补缺法、简单补缺法、简单补缺法、简单补缺法n nmissing values=0 expressionmissing values=0 expressionn nmissing values=1 expression(arbitrary signal)missing values=1 expression(arbitrary signal)n nmissing values=row(gene)averagemissing values=row(gene)averagen nmissing values=column(array)averagemissing values=column(array)average(二)数据补缺方法1、简单补缺法missing values2、K近邻法近邻法n n选择与具有缺失值基因的选择与具有缺失值基因的选择与具有缺失值基因的选择与具有缺失值基因的k k k k个邻居基因个邻居基因个邻居基因个邻居基因n n用邻居基因的加权平均估用邻居基因的加权平均估用邻居基因的加权平均估用邻居基因的加权平均估计缺失值计缺失值计缺失值计缺失值参数参数参数参数:n n邻居个数邻居个数邻居个数邻居个数n n距离函数距离函数距离函数距离函数2、K近邻法选择与具有缺失值基因的k个邻居基因3、回归法、回归法3、回归法三、数据标准化三、数据标准化(一一)为什么要进行数据标准化为什么要进行数据标准化存在不同来源的系统误差存在不同来源的系统误差存在不同来源的系统误差存在不同来源的系统误差1.1.1.1.染料物理特性差异染料物理特性差异染料物理特性差异染料物理特性差异(热和光敏感性,半衰期等热和光敏感性,半衰期等热和光敏感性,半衰期等热和光敏感性,半衰期等)2.2.2.2.染料连接效能染料连接效能染料连接效能染料连接效能3.3.3.3.点样针差异点样针差异点样针差异点样针差异4.4.4.4.数据收集过程中扫描设施数据收集过程中扫描设施数据收集过程中扫描设施数据收集过程中扫描设施5.5.5.5.不同芯片差异不同芯片差异不同芯片差异不同芯片差异6.6.6.6.实验条件差异实验条件差异实验条件差异实验条件差异三、数据标准化(一)为什么要进行数据标准化(二二)运用哪些基因进行标准化处理运用哪些基因进行标准化处理n n芯片上大部分基因芯片上大部分基因芯片上大部分基因芯片上大部分基因(假设芯片上大部分基因在不同假设芯片上大部分基因在不同假设芯片上大部分基因在不同假设芯片上大部分基因在不同条件下表达量相同条件下表达量相同条件下表达量相同条件下表达量相同)n n不同条件间稳定表达的基因不同条件间稳定表达的基因不同条件间稳定表达的基因不同条件间稳定表达的基因(如持家基因如持家基因如持家基因如持家基因)n n控制序列控制序列控制序列控制序列(spiked control)(spiked control)(spiked control)(spiked control)合成合成合成合成DNADNADNADNA序列或外源的序列或外源的序列或外源的序列或外源的DNADNADNADNA序列,在不同条件下表达序列,在不同条件下表达序列,在不同条件下表达序列,在不同条件下表达水平相同。水平相同。水平相同。水平相同。(二)运用哪些基因进行标准化处理1 1、片内标化、片内标化、片内标化、片内标化(Within-slide normalization)(Within-slide normalization)(1)(1)全局标化全局标化全局标化全局标化(Global normalization)(Global normalization)(三三)cDNA芯片数据标准化处理芯片数据标准化处理n n假设:R=k*Gn n方法:n nC=log2k:中值或均值1、片内标化(Within-slide normalizat (2)(2)荧光强度依赖的标化荧光强度依赖的标化荧光强度依赖的标化荧光强度依赖的标化(Intensity dependent (Intensity dependent normalization)normalization)n n为什么n n方法:scatter-plot smoother lowess拟合n n c(A)为M vs A的拟合函数n n标化后的数据 (2)荧光强度依赖的标化(Intensity d (3)(3)点样针依赖的标化点样针依赖的标化点样针依赖的标化点样针依赖的标化(Within-print-tip-group(Within-print-tip-group normalization)normalization)n n为什么为什么 一张芯片的不同区域运用不同的点样针点样,从一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。而引入点样针带来的系统误差。n nmethod (3)点样针依赖的标化(Within-print-(4)(4)尺度调整尺度调整尺度调整尺度调整(Scale adjustment)(Scale adjustment)n n为什么为什么 调整不同栅格调整不同栅格(grids)(grids)间的数据离散度间的数据离散度 n n方法:计算不同栅格的尺度因子方法:计算不同栅格的尺度因子 (4)尺度调整(Scale adjustment)2、片间标化、片间标化(Multiple-slide normalization)n n线性标化法线性标化法线性标化法线性标化法(Linear scaling methods)(Linear scaling methods)(Linear scaling methods)(Linear scaling methods)与芯片内标化的尺度调整与芯片内标化的尺度调整与芯片内标化的尺度调整与芯片内标化的尺度调整(Scale adjustment)(Scale adjustment)(Scale adjustment)(Scale adjustment)方法类似方法类似方法类似方法类似n n非线性标化法非线性标化法非线性标化法非线性标化法(non-linear methods)(non-linear methods)(non-linear methods)(non-linear methods)n n分位数标化法分位数标化法分位数标化法分位数标化法(Quantile normalization)(Quantile normalization)(Quantile normalization)(Quantile normalization)两张芯片的表达数据的分位数标化至相同,即分两张芯片的表达数据的分位数标化至相同,即分两张芯片的表达数据的分位数标化至相同,即分两张芯片的表达数据的分位数标化至相同,即分布于对角线上。布于对角线上。布于对角线上。布于对角线上。2、片间标化(Multiple-slide normaliz3、染色互换实验、染色互换实验(dye-swap experiment)的标化的标化 实验组实验组 对照组对照组 芯片芯片1 cy5(R)cy3(G)1 cy5(R)cy3(G)芯片芯片2 cy3(G)cy5(R)2 cy3(G)cy5(R)n n前提假设:前提假设:c cccn n方法方法:3、染色互换实验(dye-swap experiment)1 1、提取定性信号提取定性信号提取定性信号提取定性信号(1)(1)(1)(1)对每个探针对计算对每个探针对计算对每个探针对计算对每个探针对计算R R R R R=(PM-MM)/(PM+MM)R=(PM-MM)/(PM+MM)R=(PM-MM)/(PM+MM)R=(PM-MM)/(PM+MM)(2)(2)(2)(2)比较比较比较比较R R R R与定义的阈值与定义的阈值与定义的阈值与定义的阈值Tau(Tau(Tau(Tau(小的正值,默小的正值,默小的正值,默小的正值,默认值为认值为认值为认值为0.015).0.015).0.015).0.015).(3)(3)(3)(3)单侧的单侧的单侧的单侧的Wilcoxons Signed Rank Wilcoxons Signed Rank Wilcoxons Signed Rank Wilcoxons Signed Rank testtesttesttest产生产生产生产生p p p p值,根据值,根据值,根据值,根据p p p p值定义定量信号值值定义定量信号值值定义定量信号值值定义定量信号值 Present call Present call Present call Present call Marginal call Marginal call Marginal call Marginal call Absent call Absent call Absent call Absent call(四四)Affymetrix芯片数据标准化芯片数据标准化 1、提取定性信号(四)Affymetrix芯片数据标准2 2、提取定量信号、提取定量信号、提取定量信号、提取定量信号(1)(1)分析步骤分析步骤分析步骤分析步骤n n获取探针水平数据获取探针水平数据n n背景值效正背景值效正n n标准化处理标准化处理n n探针特异背景值效正探针特异背景值效正n n探针集信号的汇总探针集信号的汇总2、提取定量信号(2)(2)分析方法分析方法分析方法分析方法(2)分析方法2020年7基因芯片数据分析参照模板课件2020年7基因芯片数据分析参照模板课件2020年7基因芯片数据分析参照模板课件2020年7基因芯片数据分析参照模板课件2020年7基因芯片数据分析参照模板课件M=log2R-log2GA=(log2R+log2G)/2M=log2R-log2G2020年7基因芯片数据分析参照模板课件2020年7基因芯片数据分析参照模板课件 前面提及的标准化方法前面提及的标准化方法仅效正了数据分布的中仅效正了数据分布的中心,在不同的栅格间心,在不同的栅格间log-Ratios log-Ratios 的方差也的方差也不同。不同。前面提及的标准化方法仅效正了数据分布的中心,在不同2020年7基因芯片数据分析参照模板课件第三节 差异表达分析(Analysis of Differentially Expression Gene)(Analysis of Differentially Expression Gene)一、倍数法一、倍数法实验条件下的表达值对照条件下的表达值对照条件下的表达值通常以2倍差异为阈值,判断基因是否差异表达第三节 差异表达分析(Analysis of Differ二、统计学方法二、统计学方法 1、t检验法运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性 二、统计学方法 1、t检验法运用t检验法可以判断基因在两不同2、方差分析、方差分析 方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。2、方差分析 方差分析可用于基因在两种或多种条件间的表达量的三、三、SAM(Significance Analysis of Microarrays)(一一)多重假设检验问题多重假设检验问题n n型错误(假阳性)即在假设检验作推断结论时,拒绝了型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差实际上正确的检验假设,即将无差异表达的基因判断为差异表达。异表达。n n型错误(假阴性)即不拒绝实际上不正确的,即将有差型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。异表达的基因判断为无差异表达。n n在进行差异基因挑选时,整个差异基因筛选过程需要做成在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有用的纠正策略有BonferroniBonferroni效正,控制效正,控制FDRFDR(False False Discovery RateDiscovery Rate)值等)值等。三、SAM(Significance Analysis(二二)分析步骤分析步骤n n计算统计量计算统计量n n扰动实验条件,计算扰动后的基因表达的相对差异统计量扰动实验条件,计算扰动后的基因表达的相对差异统计量n n计算扰动后的平均相对差异统计量计算扰动后的平均相对差异统计量(二)分析步骤n n确定差异表达基因阈值:以最小确定差异表达基因阈值:以最小 的正值和最大的负值作为统计阈的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超值,运用该阈值,统计在值中超 过该阈值的假阳性基因个数,估过该阈值的假阳性基因个数,估 计假阳性发现率计假阳性发现率FDRFDR值。值。n n通过调整通过调整FDRFDR值的大小得到差异值的大小得到差异 表达基因。表达基因。2020年7基因芯片数据分析参照模板课件四、信息熵四、信息熵 运用信息熵进行差异基因挑选时,不需要用到样本的类别运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。表达波动比较大的基因。四、信息熵 运用信息熵进行差异基因挑选时,不需要用到第四节 基因芯片数据的聚类分析(Cluster Analysis of Microarray Data)(Cluster Analysis of Microarray Data)(一)相似性测度(一)相似性测度n n几何距离几何距离n n线性相关系数线性相关系数n n非线性相关系数非线性相关系数n n互信息互信息n n其它其它 第四节 基因芯片数据的聚类分析(Cluster Analy(二)(二)层次聚类层次聚类n n层次聚类算法将研究对象按照它们的相似性关系用树形图层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。状的聚类结构可以展示嵌套式的类别关系。(二)层次聚类层次聚类算法将研究对象按照它们的相似性关系用树n n在对含非单独对象的类进行合并或分裂时,常用在对含非单独对象的类进行合并或分裂时,常用的类间度量方法的类间度量方法在对含非单独对象的类进行合并或分裂时,常用的类间度量方法(三三)k均值聚类均值聚类基本思想(三)k均值聚类基本思想(四四)自组织映射聚类自组织映射聚类基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变(四)自组织映射聚类基本思想:在不断的学习过程中,输出层的神第五节 基因芯片数据的分类分析(Classification of Microarray Data)(Classification of Microarray Data)一、线性判别分类器一、线性判别分类器第五节 基因芯片数据的分类分析(Classificatio二、二、k近邻分类法近邻分类法 基本思想二、k近邻分类法 三、决策树三、决策树(一一一一)基本思想基本思想基本思想基本思想n n决策树又称为多决策树又称为多级分类器,利用级分类器,利用决策树分类可以决策树分类可以把一个复杂的多把一个复杂的多类别分类问题转类别分类问题转化为若干个简单化为若干个简单的分类问题来解的分类问题来解决决n n决策树的结构:决策树的结构:一个树性的结构,一个树性的结构,内部节点上选用内部节点上选用一个属性进行分一个属性进行分割,每个分叉都割,每个分叉都是分割的一个部是分割的一个部分,叶子节点表分,叶子节点表示一个分布示一个分布三、决策树(一)基本思想(二二二二)分析步骤:提取分类规则,进行分类预测分析步骤:提取分类规则,进行分类预测分析步骤:提取分类规则,进行分类预测分析步骤:提取分类规则,进行分类预测n n在构造决策树的过程中最重要的一点是在每一个在构造决策树的过程中最重要的一点是在每一个分裂节点确定用那个属性来分类分裂节点确定用那个属性来分类(或分裂)或分裂)n n 这就涉及到关于使用什么准则来衡量使用这就涉及到关于使用什么准则来衡量使用A A属性属性比使用比使用B B属性更合理属性更合理决策树分类算法output训练集决策树input(二)分析步骤:提取分类规则,进行分类预测决策树分类算法ou(三三三三)衡量准则衡量准则衡量准则衡量准则n n信息增益信息增益Information gainInformation gainn n基尼指数基尼指数Gini indexGini index(三)衡量准则第六节 常用的表达谱分析软件(General Microarray Analysis Software)(General Microarray Analysis Software)n nArrayTools n nDChip(DNA-Chip Analyzer)n nSAMn nR语言和BioConductor:affy、marray、limma n nMatlab:Bioinformatics Toolbox 第六节 常用的表达谱分析软件(General Microa
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!