资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,制作人:赵俊生,*,全基因组关联分析,2,概念,引言,全基因组关联分析,英文名字叫,Genome-wide association study,简称,GWAS,全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即,单核苷酸多态性,(,SNP,),,从中筛选出与疾病,/,性状相关的,SNPs,。,3,概念,引言,全基因组范围内,的,SNP,4,概念,引言,全基因组范围内的,SNP,对某一,复杂疾病,/,性状,的影响,关联,身高间的差异,5,单基因遗传,背景,利用,家系连锁分析,的,定位克隆,方法,发现了大量单基因疾病,如囊性纤维化病、亨廷顿病性痴呆,亨廷顿病性痴呆,囊性纤维化病,6,单基因遗传性状,背景,7,单基因遗传性状,背景,8,家系连锁分析,的,定位克隆,背景,单基因家系连锁分析,9,背景,但对于复杂疾病,连锁分析的作用非常有限。,10,研究基础,进行,GWAS,时,选择的表型定义要,准确和精确,应尽可能选择那些可,定量,反映疾病危险程度的指标、可用于分析疾病临床亚型的特征,或可用于诊断和鉴别诊断疾病的表型特征。,缺血性脑卒中可能涉及血栓脱落或者脑动脉粥样硬化等不同的发病机制,但 在人群中却常常同时出现而难以区分,11,研究基础,单核苷酸多态性(,SNP,)和拷贝数变异,(CNV)GWAS,的主要对象,随着人类基因组单体型计划的完成,收录了成千上百万的,SNP,,,SNP,是人类基因组中最常见的遗传变异,现已被用作第三代遗传标识。,CNV,是指与参考序列相比,基因组中,1 kb,的,DNA,片段插入、缺失和,/,或扩增,及其互相组合衍生的复杂染色体结构变异,。发现了,成千上万的基因组拷贝数变异,(copy number variations,CNV),,它们能显著影响基因的表达。,12,研究基础,基因组单倍体图谱计划,(International Human HapMap Project),的实施和基因连锁不平衡,13,遗传标记的选择,SNP,基于单倍型图谱,(HapMap),可以选择,五十万,到,一百万,个覆盖全基因组的,SNP,用于,GWAS,。,CNV,基因组拷贝数变异,(copy number variations,CNV),是指与参考序列相比,基因组中,1 kb,的,DNA,片段插入、缺失和,/,或扩增,及其互相组合衍生的复杂染色体结构变异,14,SNP,单倍型,是单倍体基因型的简称,在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合,15,CNV,2004,年,Iafrate,等和,Sebat,等首次描述了人类基因组,CNV,2006,年,Redon,等确定了覆盖,12%(300 Mb),人类基因组的,1 447,个,CNV,区域,(CNV region,CNVR),CNV,可能通过数量作用和质量作用两种机制引起的基因剂量改变导致表型改变,所以,CNV,全基因组关联分析,(CNV association analysis),可能更容易检测到致病遗传变异,16,CNV,2006,年,11,月,23,日,一个国际研究小组在,Nature(2006,444:444),上发表研究报告称,通过分析,270,名亚洲、非洲和欧洲健康者的,DNA,样本,发现了约,2900,个基因,(,至少占人类基因总数的,10%),含有特异,DNA,片段拷贝数变异,(CNV),。研究者认为,这些变异会影响基因活性,造成疾病易感性的个体差异。此前学术界认为人类个体间基因组序列一致性达,99.9%,该研究结果对此提出了置疑。另外,随着第一代人类基因组拷贝数变异图谱的完成,人们审视疾病与基因的关系又多了一种视角,除了检测单核苷酸多态性,(SNP),或者显微镜检染色体异常外,还可对中间长度,(,数百万核苷酸,),的,DNA,片段变异进行评价。,17,CNV,染色体左侧的线条表示,DNA,丢失的范围,;,右侧的线条表示,DNA,增加的范围,粗线条表示扩增,.,CGH,检测,31,例肝癌,DNA,变异频率结果图,.,18,研究基础,基因分型技术和遗传信息学的发展,近年来,基因分型技术不断进步,分型成本显著降低,以,基因芯片,技术为代表的超高通量分型技术更是得到了飞速的发展,全基因组测序商业化和公司之间的竞争使得基因组测序成本越来越低,19,截止到,2010,年,12,月,已经陆续报导和公布了关于人类身高、体重、血压等主要形状,以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种疾病,GWAS,的结果。累计发表了近万篇论文,(9900,篇,),。确定了一系列疾病发病的致病基因、相关基因、易感区域和单核苷酸多态性,(SNP),的变异,取得了很大成绩。,“,GWAS,第一次高潮”,成果,20,成果,截止到,2010,年,12,月,GWAS,发现的与人类性状或复杂疾病关联,SNP,位点(,p510,-8,),不同颜色圆点代表不同性状或疾病,21,“,GWAS,第一次高潮”,成果,GWAS,方法学,(如研究设计、统计分析、结果的解释)也取得了极大的,进步,22,进行,GWAS,时需满足,病例必须携带导致疾病的遗传因素,选择覆盖全基因组的,SNP,或,CNV,研究样本量达到足够的检验效能,采用高效可靠的数据分析方法以及进行重复验证检验等条件,23,研究方式,24,研究方式,25,研究方式,GWAS,目前分为,单阶段研究,和,多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的,SNP,进行基因分型,然后分析每个,SNP,与疾病的关联,在早期,GWAS,多使用,GWAS,目前分为,单阶段研究,和,多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的,SNP,进行基因分型,然后分析每个,SNP,与疾病的关联,在早期,GWAS,多使用,GWAS,目前分为,单阶段研究,和,多阶段研究,单阶段研究即选择足够的样本,一次性在所有研究对象中对选中的,SNP,进行基因分型,然后分析每个,SNP,与疾病的关联,在早期,GWAS,多使用,26,研究方式,多阶段研究多为,两阶段研究,694,个体,923,个体,27,两阶段研究,第一阶段的分析可以是以个体为单位,也可以采用,DNA pooling,的方法,筛选出较少量的阳性,SNP,注意:要保证,SNP,的敏感性和特异性,后者简单,但误差大,其估计的等位基因的频率标准差在,1%4%,之间,对检验效能有重要影响,第一阶段的分析可以是以个体为单位,也可以采用,DNA pooling,的方法,筛选出较少量的阳性,SNP,注意:要保证,SNP,的敏感性和特异性,后者简单,但误差大,其估计的等位基因的频率标准差在,1%4%,之间,对检验效能有重要影响,28,两阶段研究,第二阶段采用更大的样本对第一阶段筛选出的阳性,SNP,进行分析 注:,应用大样本人群甚至在多种人群中进行基因分型验证,29,遗传统计分析,GWAS,比较每个,SNP,等位基因频率差别多采用,4,格表的卡方检验,同时需对如年龄、性别等主要混杂因素采用,Logistic,回归分析。,在,GWAS,中,人群分层,(population stratification),和,多重假设检验调整,(multiple testing adjusting),是引起研结果分析误差的最主要原因,30,人群分层,人群分层是导致许多大样本研究出现假阳性或假阴性结果的一个主要原因,如,Campbell,等,(2005),采用欧裔美国人研究与身高表型乳糖酶基 因型的关联,其结果在其他人群难以重复的原因即是受研究对象在不同地域存在极大差异引起的人群分层影响,人群分层产生的问题即使在研究对象是 同一种族人群时也仍然存在,而且现有的研究方法 尚未能有效地解决此类问题,一种可能的策略是采用基于家系的关联研究,该方法可以避免人群分层对关联分析结果的影响,31,群体分层,32,如果采用较为宽松的多重假设检验方法就可能导致,I,类错误,出现大量的假阳性关联,;,但是如果采用最为严格,Bonferroni,校正,则又可能导致过度校正,结果使假阴性概率增加,而与疾病真正关联的,SNP,难以发现。,二、多重假设检验,结论:,GWAS,不能仅凭,P,值判断某个,SNP,是否与疾病真正关联,多种族、多群体、大样本的重复验证研究,(replication),才是提高检验效能、确保发现真正疾病关联,SNP,的关键,。,33,局限性,通过,统计分析,遗传因素和性状,/,复杂疾病关联确定与特定性状,/,复杂性疾病关联的,功能性位点,存在一定难度,同义突变、不在,ORF,等。,例如:胰岛素基因启动子中的遗传变异增加,型糖尿病风险,SNP,在,RNA,的转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调 节基因的转录表达或影响其,RNA,剪接方式。因此,研究者在找寻疾病相关变异时,应同时注意到编码区和调控区位点变异的重要性。,34,局限性,大部分常见遗传变异可能通过单独或联合作用轻度增加疾病发生风险,而这些变异仅可解释部分人群中因遗传引起的表型变异。,35,局限性,最后,GWAS,是一种发现符合常见疾病,-,常见变异假 说,(common disease common variant hypothesis),相关 位点的方法,其可以确定相关位点但,不能直接确定基因本身,且在任何特定人群中,GWAS,都不能方便地识别,罕见,的风险等位基因位点(下图),36,局限性,37,反思,“所有的改变,即使是最令人期待的,也有令人惆怅的一面,我们抛在脑后的一切仍如影随形”,阿纳托尔,法朗士,(Anatole France,1844,1924,),现在发现这种全基因组分析是高出低收,:,昂贵的全基因组关联研究(每人份的花费预计高达数百万美元,),所得的结果庞杂无序,大多数的基因变异与疾病并不关联。在已实施的,100,余项,GWAS,和几千例患者样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因,38,反思,在疾病,/,性状的发生过程中,基因是重要的,但不是唯一的,除了基因以外,还有,RNA,、蛋白质等;除了基因变异以外,还有转录、翻译、表观,(epigenetics),、构象、调节和功能的变化等。,最近国际基因组研究团队在冷泉港开会,研究、调整、部署下一阶段基因组计划。提出应以“外显子”为全基因组分析的中心。因为已发现多数与疾病相关联的基因变异都发生在外显子,而且外显子数量少,功能明确,分析相对容易、经济。,39,反思,所得的结果,庞杂无序,,大多数的基因变异与疾病并不关联。在已实施的,100,余项,GWAS,和几千例患者样本的分析结果发现,许多基因变异都是罕见的基因变异而不是关键基因,有一些变异仅仅与疾病危险因子、诱发因子、影响因子有关,而不是疾病直接相关联的基因,流行病学家,JohnIoannidis,说:,“,大多数已发表的研究都是错误的,。”,他认为,太多的科学家们急功近利地寻找种种基因变异与某一疾病发生风险之间的关系,而杂志社又急于发表描述这类关系的研究论文。,40,美国加州一个与硅芯片相关的潜力大产业正在这里兴起,那就是,基因组测序技术,产业。一家名为“整合基因”(,Complete Genomics,,,CG,)的公司专为,科学,家提供外包的测序服务,更绝的是,在这家公司里做测序的,并不是研究人员,而是一排排的机器人,目前,CG,公司只针对研究者和制药公司开放,个人还没法购买他们的服务。在这里,每对基因组测序要价,9500,美元,如果购买,1000,对以上,则每对价格降为,5000,美元,。这个价格是随着基因组测序技术突飞猛进而急剧下降的,要知道,十年前,第一对人类基因组序列完成时,其价格是以,十几亿美元,计量的。,
展开阅读全文