基因组测序与序列组装课件

资源描述

第一讲第一讲基因组测序与序列组装基因组测序与序列组装任科教师任科教师:余爱丽余爱丽生命科学院生命科学院分子生物分子生物学与生物信息学系学与生物信息学系第一讲基因组测序与序列组装任科教师:余爱丽1 1主要内容:n n什么是基因组什么是基因组n n什么是基因什么是基因n nDNADNA测序的方法测序的方法n nDNADNA序列的组装序列的组装n n人类基因组计划人类基因组计划n n水稻基因组计划水稻基因组计划n n后基因组学后基因组学主要内容:2 21.1.什么是基因组什么是基因组基因组就是一个物种中基因组就是一个物种中所有基因的整体组成。所有基因的整体组成。基因组有两层意义：基因组有两层意义：遗遗传物质传物质和和遗传信息遗传信息。要揭开生命的奥秘，要揭开生命的奥秘，就需要从就需要从整体水平整体水平研究研究基因的存在、基因的结基因的存在、基因的结构与功能、基因之间的构与功能、基因之间的相互关系。相互关系。1.什么是基因组基因组就是一个物种中所有基因的整体3 3Zea mays 8,000Zea mays 8,000Homo sapiens 3,000Homo sapiens 3,000Oryza sativa 400Oryza sativa 400Drosophila melanogaster 165Drosophila melanogaster 165Arabidopsis thaliana 100Arabidopsis thaliana 100Saccharomyces cerevisiae 12Saccharomyces cerevisiae 12E.coli 4.6E.coli 4.6Genome Size(Mb)Zea mays 4 4什么是什么是C 值？值？通常是指一种生物通常是指一种生物单倍体基因组单倍体基因组DNADNA的的总量总量.在真核生物中，在真核生物中，C C值一般随着生物的进化而值一般随着生物的进化而增加，高等生物增加，高等生物C C值一般大于低等生物。值一般大于低等生物。C值悖理：值悖理：生物的复杂性与基因组的大小并不完全成比生物的复杂性与基因组的大小并不完全成比例增加例增加什么是C 值？5 5细菌细菌细菌细菌真菌真菌真菌真菌等等等等动物动物动物动物阴影部分为一个门内阴影部分为一个门内C-值的范围值的范围细菌真菌动物阴影部分为一个门内C-值的范围6 6重复顺序重复顺序重复顺序重复顺序高度重复顺序：高度重复顺序：高度重复顺序：高度重复顺序：长度：几个长度：几个长度：几个长度：几个几千个几千个几千个几千个bpbp 拷贝数：几百个拷贝数：几百个拷贝数：几百个拷贝数：几百个上百万个上百万个上百万个上百万个首尾相连，串联排列首尾相连，串联排列首尾相连，串联排列首尾相连，串联排列集中分布于染色体的特定区段（如端粒，着丝粒等）集中分布于染色体的特定区段（如端粒，着丝粒等）集中分布于染色体的特定区段（如端粒，着丝粒等）集中分布于染色体的特定区段（如端粒，着丝粒等）也称卫星也称卫星也称卫星也称卫星DNADNA中度重复顺序：中度重复顺序：中度重复顺序：中度重复顺序：一般分散于整个基因组中；一般分散于整个基因组中；一般分散于整个基因组中；一般分散于整个基因组中；长度和拷贝数差别很大长度和拷贝数差别很大长度和拷贝数差别很大长度和拷贝数差别很大单一顺序：单一顺序：单一顺序：单一顺序：基因主要位于单一顺序基因主要位于单一顺序基因主要位于单一顺序基因主要位于单一顺序动物中单一顺序约占动物中单一顺序约占动物中单一顺序约占动物中单一顺序约占5050 植物中单一顺序约占植物中单一顺序约占植物中单一顺序约占植物中单一顺序约占2020重复顺序高度重复顺序：7 7 DNA 的复性的复性遵循二级反应动力学，可表述为：遵循二级反应动力学，可表述为：dCt/dt=-KC02 反应达反应达 t 时，单链时，单链DNA浓度浓度=CtC0=单链单链 DNA起始浓度起始浓度 K 复性速度常数复性速度常数顺序复杂性 DNA 的复性遵循二级反应动力学，可表述为：dC8 8Cot(1/2)=1/K(mol.Sec/L)常数常数 Ct/C0 0101C0t(1/2)C0t(1/2)C0t(1/2)值与基因组复杂性成正比。值与基因组复杂性成正比。Cot(1/2)=1/K(mol.Sec/L)9 9 是遗传信息的物理和功能单位，包含是遗传信息的物理和功能单位，包含产生产生一条多肽链或功能一条多肽链或功能RNA所必需的全部核苷酸所必需的全部核苷酸序列。序列。基因分类：基因分类：编码编码RNA的基因，如的基因，如rRNA基因，基因，snRNA基因等；基因等；编码蛋白质的基因编码蛋白质的基因2.什么是基因？什么是基因？是遗传信息的物理和功能单位，包含产生一条多肽链或1010基因的不连续性基因的不连续性Intron 和和Exon:大多数真核生物蛋大多数真核生物蛋白质基因的编码顺白质基因的编码顺序序(Exon)都被或长都被或长或短的非编码顺序或短的非编码顺序(Intron)隔开隔开基因的不连续性Intron 和Exon:1111基因家族基因家族一群具有一群具有一致的一致的或或相似相似顺序顺序的基因的基因,有的还担负有的还担负类似的生物学功能类似的生物学功能,可以相互补偿可以相互补偿,比如比如:E2f:E2f transcription factor transcription factor Mouse symbolMouse symbolHuman OrthologHuman OrthologE2f1E2f1E2F1 E2F1 E2f2E2f2E2F2E2F2E2f3E2f3E2F3E2F3E2f4E2f4E2F4E2F4E2f5E2f5E2F5E2F5E2f6E2f6E2F6E2F6基因家族一群具有一致的或相似顺序的基因,有的还担负1212假基因假基因(Pseudogene)来源于功能基因来源于功能基因但已失去活性但已失去活性的的DNA序列序列产生假基因的原因有产生假基因的原因有:1.由重复产生的假基因由重复产生的假基因;2.加工的假基因加工的假基因,由由RNA反转录为反转录为cDNA 后再整后再整合到基因组中合到基因组中;3.残缺的基因残缺的基因(Truncated gene)假基因(Pseudogene)来源于功能基因但已失去活1313重叠基因重叠基因:同一段同一段DNA 能携带两种不同蛋白的信息能携带两种不同蛋白的信息.重迭基因有以下几种情况：重迭基因有以下几种情况：*一个基因完全在另一个基因内部一个基因完全在另一个基因内部*部分重叠部分重叠*两个基因共用少数碱基对两个基因共用少数碱基对重叠基因:重迭基因有以下几种情况：1414*一个基因完全在另一个一个基因完全在另一个基因内部基因内部如：如：B和和A，E和和D 其读码结构互不相同其读码结构互不相同 -ATG-/-AATGCC-/-ATAACG-/-TAA-A*BATGCCN-NNATAA*一个基因完全在另一个基因内部-ATG-/-1515*部分重叠部分重叠如：如：K和和C *两个基因共用少数两个基因共用少数碱基对碱基对如：如：D和和J-TAATG-D 终止密码子终止密码子J 起始密码子起始密码子*部分重叠 -TAATG-D 16163.DNA测序的方法n n链终止法测序链终止法测序n n化学降解法测序化学降解法测序n n自动化测序自动化测序n n非常规非常规DNADNA测序测序3.DNA测序的方法17173.1 3.1 链终止法测序链终止法测序(the chain termination(the chain termination method)method)基本原理基本原理:通过合成与单链通过合成与单链DNADNA互补的多核苷酸链，互补的多核苷酸链，由于合成的互补链可在不同位置随机终止反由于合成的互补链可在不同位置随机终止反应，产生只差一个核苷酸的应，产生只差一个核苷酸的DNADNA分子，从而分子，从而来读取待测来读取待测DNADNA分子的顺序。分子的顺序。3.1 链终止法测序(the chain terminati1818技术路线与要求技术路线与要求制备单链模板制备单链模板将将单链单链模板与一小段引物退火模板与一小段引物退火加入加入DNADNA多聚多聚酶酶 4 4种脱氧核苷酸种脱氧核苷酸分分别别加入少量加入少量4 4种双脱氧核苷酸种双脱氧核苷酸将将4 4种反种反应产应产物分物分别别在在4 4条泳道条泳道电电泳泳根据根据4 4个碱基在个碱基在4 4条泳道的条泳道的终终止位置止位置读读出基因序列出基因序列 A 克隆于质粒中DNA用碱或热变性B M13克隆单链DNAC 噬粒克隆DNAD PCR产生单链DNAA 高酶活性B 无53外切酶活性C 无35外切酶活性ddATP/ddCTP/ddGTP/ddTTP 的3碳原子连接的是氢原子,不是羟基技术路线与要求制备单链模板A 克隆于质粒中DNA用碱或热1919基因组测序与序列组装课件2020基因组测序与序列组装课件21213.2 化学降解法测序n n基本原理:在选定的核苷酸碱基中引入化学集团,再用化合物处理,使DNA分子在被修饰的位置降解.3.2 化学降解法测序2222技术路线技术路线将双链将双链DNADNA样品变为单链样品变为单链每个每个单链单链的同一方向末端都用放射性同位素的同一方向末端都用放射性同位素标记标记,以便以便显显示示DNADNA条条带带分分别别用不同方法用不同方法处处理理,获获得只差一个核苷酸的得只差一个核苷酸的降解降解DNADNA群体群体电电泳泳,读读取取DNADNA的核苷酸的核苷酸顺顺序序技术路线将双链DNA样品变为单链2323Maxam-Gilbert Maxam-Gilbert 法所用的化学技术法所用的化学技术碱基碱基特异修饰方法特异修饰方法G GPh8.0,Ph8.0,用硫酸二甲酯对用硫酸二甲酯对 N7 N7进行甲基化进行甲基化,使使 C8-C9C8-C9键对碱基裂解有特殊敏感性键对碱基裂解有特殊敏感性A+GA+GpH2.0 pH2.0 哌啶甲酸可使嘌呤环的哌啶甲酸可使嘌呤环的N N原子化原子化,从从而导致脱嘌呤而导致脱嘌呤,并因此消弱腺嘌呤和鸟嘌呤并因此消弱腺嘌呤和鸟嘌呤的糖苷键的糖苷键C+TC+T肼可打开嘧啶环肼可打开嘧啶环,后者重新环化成五元环后后者重新环化成五元环后易除去易除去C C1.5mol/L NaCl1.5mol/L NaCl存在时存在时,可用肼除去胞嘧啶可用肼除去胞嘧啶Maxam-Gilbert 法所用的化学技术碱基特异修饰方2424化学法测序实例化学法测序实例哌啶化学法测序实例哌啶25253.3 3.3 自动化测序自动化测序n n基本原理与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,ddTTP标记绿色荧光.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基.3.3 自动化测序基本原理2626基因组测序与序列组装课件27273.4 3.4 非常规测序非常规测序n n 毛细管电泳毛细管电泳用毛细管电泳取代聚丙烯凝胶平板电泳用毛细管电泳取代聚丙烯凝胶平板电泳,节省时节省时间间,加快测序进程加快测序进程,其他程序同链终止法或化学测序法其他程序同链终止法或化学测序法.n n 光点测序光点测序脱氧三磷酸核苷酸脱氧三磷酸核苷酸连接到连接到DNA 3-DNA 3-末端末端时会释放时会释放1 1个焦磷酸个焦磷酸(PPi)(PPi),焦磷酸焦磷酸在在磷酸化酶磷酸化酶的作用下转化为的作用下转化为化学能化学能,并发出光亮并发出光亮.由此由此,往反应液中每次只加入往反应液中每次只加入1 1种核苷酸种核苷酸,当加入的核苷酸结合时当加入的核苷酸结合时,反应液发出亮点反应液发出亮点,并记录核苷酸种类并记录核苷酸种类;当核苷酸未结合时当核苷酸未结合时,反应液中的核反应液中的核苷酸酶迅速分解此核苷酸苷酸酶迅速分解此核苷酸,由此来测定由此来测定DNADNA序列序列.3.4 非常规测序2828n nDNA芯片测序基本原理基本原理将各种排列顺序的寡核苷酸点播在芯片上将各种排列顺序的寡核苷酸点播在芯片上,每个点播每个点播的寡核苷酸在排列的方阵中都有指定的位置的寡核苷酸在排列的方阵中都有指定的位置.待检测的待检测的DNADNA分子与芯片温浴分子与芯片温浴,凡是能杂交的寡核苷酸都会在确凡是能杂交的寡核苷酸都会在确定位置发出信号定位置发出信号,然后根据获取的信息将寡核苷酸的顺然后根据获取的信息将寡核苷酸的顺序进行对比组装序进行对比组装,拼接成完全的拼接成完全的DNADNA顺序顺序.DNA芯片测序2929利用基因芯片进行杂交测序的原理利用基因芯片进行杂交测序的原理30304 4 序列的组装序列的组装4.1 4.1 随机测序与序列组装随机测序与序列组装随机测序也称随机测序也称”鸟枪法鸟枪法”.”.序列组装原理序列组装原理:直接从已测序的小片段中寻找彼直接从已测序的小片段中寻找彼此重叠的测序克隆此重叠的测序克隆,然后依次向两侧邻接的序列延伸然后依次向两侧邻接的序列延伸.优点优点:不需预先了解任何基因组的情况不需预先了解任何基因组的情况.ABCABCABCABC小片段测序小片段测序计算机拼装计算机拼装4 序列的组装4.1 随机测序与序列组装ABCABCABCA3131ABC小片段测序小片段测序计算机拼装计算机拼装鸟枪法鸟枪法(Shotgun)测序的问题测序的问题 CAATGCATTAGCAGCCAATGCGAP错装错装ABC小片段测序计算机拼装鸟枪法(Shotgun)测序的问题3232实例实例:流感嗜血杆菌基因组的测序及流感嗜血杆菌基因组的测序及顺序组装顺序组装超声波打断纯化的基因组超声波打断纯化的基因组DNADNA 琼琼脂糖脂糖电电泳收集泳收集1.61.6 2.0Kb2.0Kb的区段的区段、纯化纯化构建到质粒载体中构建到质粒载体中随机挑选随机挑选1968719687个克隆个克隆,进行进行2864328643次测序次测序,得到可读顺序得到可读顺序为为11 631 485 bp11 631 485 bp 组装成组装成140140个覆盖全基因组范围的独立的顺序重叠群个覆盖全基因组范围的独立的顺序重叠群,实例:流感嗜血杆菌基因组的测序及顺序组装超声波打断纯化的基因3333 各重叠群间仍有间隙各重叠群间仍有间隙顺序间隙顺序间隙物理间隙物理间隙载体或宿主菌载体或宿主菌选用不当而被丢失选用不当而被丢失的顺序的顺序测序时遗漏的测序测序时遗漏的测序解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库解决办法:利用其它宿主菌与载体重新构建文库各重叠34344.24.2 限制测序限制测序n n 限制测序：是指将一段染色体区段的限制测序：是指将一段染色体区段的DNA DNA 顺顺序进行组装序进行组装.一些已绘制了遗传图与物理图的微生物基一些已绘制了遗传图与物理图的微生物基因组测序中也采用这一方法因组测序中也采用这一方法.如高等植物如高等植物拟南芥基因组的测序拟南芥基因组的测序完全依据完全依据克隆重叠群克隆重叠群,先进行各个先进行各个BACBAC克隆的随机测序克隆的随机测序,再进行序列组装；再进行序列组装；水稻基因组测序水稻基因组测序计划采取得策略与此相同计划采取得策略与此相同.4.2 限制测序限制测序：是指将一段染色体区段的DNA 顺35354.34.3 指导测序与序列组装指导测序与序列组装建立在基因组图谱基础上的建立在基因组图谱基础上的”鸟枪法鸟枪法”,”,即所谓即所谓”指导鸟枪法指导鸟枪法”或或”指导测序指导测序”。在人类基因组进入测序组装阶段就采用此方法，在人类基因组进入测序组装阶段就采用此方法，其基本步骤如下其基本步骤如下:A A 构建平均为构建平均为2Kb2Kb的人类基因组质粒文库的人类基因组质粒文库,进行双向进行双向测序测序;B B 构建平均构建平均10Kb10Kb的人类基因组质粒文库的人类基因组质粒文库,进行双向测进行双向测序序,读取读取2 2个端部顺序个端部顺序;C C 参考人类基因组图参考人类基因组图,特别是大量的特别是大量的STSSTS位标作为基点位标作为基点,进行序列组装，排成重叠克隆群进行序列组装，排成重叠克隆群.4.3 指导测序与序列组装建立在基因组图谱基3636 先将染色体打成比较大的片段先将染色体打成比较大的片段(几十几十-几百几百Kb),利用利用分子标记将这些大片段排成重叠的克隆群分子标记将这些大片段排成重叠的克隆群(Contig),分分别测序后拼装别测序后拼装.这种策略叫这种策略叫基于克隆群基于克隆群(contig-based)的策略的策略.ABCABC大片段大片段contig小片段测序拼装小片段测序拼装先将染色体打成比较大的片段(几十-几百Kb),3737两种策略的比较两种策略的比较鸟枪法策略鸟枪法策略鸟枪法策略鸟枪法策略指导测序指导测序指导测序指导测序策略策略策略策略不需背景信息不需背景信息不需背景信息不需背景信息构建克隆群构建克隆群构建克隆群构建克隆群 (遗传、物理图谱遗传、物理图谱遗传、物理图谱遗传、物理图谱)时间短时间短时间短时间短需要几年的时间需要几年的时间需要几年的时间需要几年的时间需要大型计算机需要大型计算机需要大型计算机需要大型计算机得到的是草图得到的是草图得到的是草图得到的是草图(Draft)(Draft)得到精细图谱得到精细图谱得到精细图谱得到精细图谱两种策略的比较鸟枪法策略 38384.54.5 其他测序路线其他测序路线n n重要区域优先测序重要区域优先测序人们对感兴趣的基因或与疾病相关的人们对感兴趣的基因或与疾病相关的基因优先测序基因优先测序.如如:人类主要组织相容性复合区位于第人类主要组织相容性复合区位于第6 6号号染色体染色体,与人类免疫系统有关，因而优先与人类免疫系统有关，因而优先测序测序.4.5 其他测序路线重要区域优先测序3939n nEST(Expressed sequence tag)EST(Expressed sequence tag)测序测序 EST EST是一种重要的基因组图分子标记是一种重要的基因组图分子标记,以以ESTEST为探为探针很容易从针很容易从 cDNA cDNA文库中筛选全基因文库中筛选全基因,又可从又可从BACBAC克隆克隆中找到其基因组的基因序列中找到其基因组的基因序列.优点优点:A mRNA A mRNA 可直接反转录成可直接反转录成cDNA,cDNA,而且而且cDNAcDNA文库也比文库也比较容易构建较容易构建;B B 对对cDNAcDNA文库大量测序文库大量测序,即可获得大量即可获得大量ESTEST的序列的序列;C EST C EST为基因的编码区为基因的编码区,不包括内含子和基因间区域不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因一次测序的结果足以鉴定所代表的基因;EST(Expressed sequence tag)测40405.人类基因组计划人类基因组计划人类基因组计划人类基因组计划（Human genome Human genome projectproject）于）于19901990年启年启动，我国于动，我国于19991999年加年加入该计划，承担其中入该计划，承担其中1%1%的任务，即人类的任务，即人类3 3号染色体短臂上约号染色体短臂上约30Mb30Mb的测序任务。的测序任务。5.人类基因组计划 41415.1 人类基因组计划的目的n n阐明人类基因组阐明人类基因组3030亿个碱基亿个碱基对的序列，发现所有人类基对的序列，发现所有人类基因，并搞清其在染色体上的因，并搞清其在染色体上的位置位置;n n破译人类全部遗传信息，使破译人类全部遗传信息，使人类第一次在分子水平上全人类第一次在分子水平上全面地认识自我面地认识自我;n n解码生命、了解生命的起源、解码生命、了解生命的起源、了解生命体生长发育的规律了解生命体生长发育的规律;n n认识种属之间和个体之间存认识种属之间和个体之间存在差异的起因、认识疾病产在差异的起因、认识疾病产生的机制以及长寿与衰老等生的机制以及长寿与衰老等生命现象、为疾病的诊治提生命现象、为疾病的诊治提供科学依据。供科学依据。5.1 人类基因组计划的目的阐明人类基因组30亿个碱基对的42425.2 人类基因组草图的完成 20002000年年6 6月月2626日日是人类是人类历史上值得纪念的一天。历史上值得纪念的一天。人类基因组的工作草图人类基因组的工作草图已经绘制完毕并于这天已经绘制完毕并于这天向全世界公布。最终完向全世界公布。最终完成图要求测序所用的克成图要求测序所用的克隆能忠实地代表常染色隆能忠实地代表常染色体的基因组结构，体的基因组结构，序列序列错误率低于万分之一。错误率低于万分之一。5.2 人类基因组草图的完成 2000年6月26日是人4343A.A.Celera Genomics 人类基因组的测序策略5.3 人类基因组测序策略5.3 人类基因组测序策略4444采集采集5 5个自愿者的个自愿者的DNADNA样品样品构建构建3 3种不同插入子大小的基种不同插入子大小的基因组文库因组文库2Kb,10Kb2Kb,10Kb和和50Kb50Kb完成约完成约27002700万次万次插入子末端测序插入子末端测序,总长总长14800Mb14800MbGeneBankGeneBank下下载载104018104018个个BACBAC末端顺序末端顺序PFPPFP发表的公开发表的公开数据主要为数据主要为BACBAC克隆的顺序克隆的顺序,共共4443.3Mb4443.3Mb随机测序与序列组装方法和指导测序与序列组装方法相结合进行序列组装采集5个自愿者的DNA样品构建3种不同插入子大小的基因组文库4545B 国际人类基因组测序策略构建构建BACBAC克隆克隆限制性限制性酶处酶处理理获获得指得指纹纹根据指根据指纹纹重叠方法重叠方法组组建建BACBAC克隆重叠群克隆重叠群根据根据STSSTS标记标记,将将BACBAC克隆重叠群克隆重叠群标标定在物理定在物理图图上上每个每个BACBAC克隆内部采用克隆内部采用鸟枪鸟枪法法测测序序,组组装装将将BACBAC插入插入顺顺序与序与BACBAC克隆指克隆指纹纹极重叠群极重叠群对对比比,将已将已阅读阅读的的顺顺序序锚锚定到物理定到物理图图上上B 国际人类基因组测序策略4646基因组测序与序列组装课件47475.4 人类基因组测序结果基因数是基因数是基因数是基因数是3 3万、万、万、万、4 4万还是万还是万还是万还是1010万万万万人类遗传基因数量比原先估计人类遗传基因数量比原先估计的少很多。目前研究表明，人类的少很多。目前研究表明，人类基因组中基因组中约有约有3 3万至万至4 4万个蛋白编万个蛋白编码基因码基因，仅仅，仅仅是果蝇基因数目的是果蝇基因数目的两倍两倍，人有而鼠没有的基因只有人有而鼠没有的基因只有300300个个。此结论是由两大科研小。此结论是由两大科研小组的数据是从组的数据是从DNADNA水平水平上得出的；上得出的；而而“人类有人类有1010万多个基因万多个基因”则是则是从从RNARNA水平水平上得出的结论。所以，上得出的结论。所以，这些数据不能推翻这些数据不能推翻“人类有人类有1010万万个基因个基因”的说法。的说法。5.4 人类基因组测序结果基因数是3万、4万还是10万4848人类基因组研究的惊人发现 19号染色体是含基因最丰富的染色体，而13号染色体含基因量最少目前已经发现和定位了26000多个功能基因，其中尚有42%的基因尚不知道功能人类基因组中存在“热点”和大片“荒漠”。在染色体上有基因成簇密集分布的区域，也有大片的区域只有“无用DNA”不包含或含有极少基因的成分。基因组上大约有14的区域没有基因的片段。353的基因包含重复的序列。这说明那些原来被认为是“垃圾”的DNA也起重要作用，应该被进一步研究。人类基因组研究的惊人发现 19号染色体是含基因最丰富的染色4949什么是单核苷酸多态性人类人类99999 9的基因密码是的基因密码是相同的相同的，而，而差异不到差异不到0 01 1，不同人群仅有不同人群仅有140140万个万个核苷核苷酸差异。这些差异是由酸差异。这些差异是由“单单一核苷酸多样性一核苷酸多样性”（SNPSNP）产生的，它构成了不同个体产生的，它构成了不同个体的遗传基础，个体的多样性的遗传基础，个体的多样性被认为是产生遗传疾病的原被认为是产生遗传疾病的原因。在整个基因组序列中，因。在整个基因组序列中，人与人之间的变异仅为万分人与人之间的变异仅为万分之一之一，从而说明，从而说明人类不同人类不同“种属种属”之间并没有本质上的之间并没有本质上的区别区别。什么是单核苷酸多态性人类999的基因密码是相同的50505.5 人类基因组计划的意义随着人类基因组逐渐被随着人类基因组逐渐被破译，一张生命之图将被破译，一张生命之图将被绘就，人们的生活也将发绘就，人们的生活也将发生巨大变化。人类基因研生巨大变化。人类基因研究的意义在于它可以究的意义在于它可以支持支持和推动生命科学中一系列和推动生命科学中一系列重要的基础性研究重要的基础性研究。如基。如基因组遗传语言的破译，基因组遗传语言的破译，基因的结构与功能关系，生因的结构与功能关系，生命的起源和进化，细胞发命的起源和进化，细胞发育、生产、分化的分子机育、生产、分化的分子机理，疾病发生的机理等。理，疾病发生的机理等。5.5 人类基因组计划的意义随着人类基因组逐渐被51515.6 人类基因组计划的论理学A A 个人个人DNADNA顺序的隐私权顺序的隐私权.如如:”:”次等次等”基因携带者可能受到岐基因携带者可能受到岐视视,职业限制职业限制,医疗保险等问题医疗保险等问题;B B 基因专利问题基因专利问题5.6 人类基因组计划的论理学A 个人DNA顺序的隐私权.52526.后人类基因组计划伴随着人类基因组计划的迅伴随着人类基因组计划的迅速进展，基因的全序列逐步被完速进展，基因的全序列逐步被完整的测出，会出现大量的不知道整的测出，会出现大量的不知道任何功能信息的序列。因此，在任何功能信息的序列。因此，在HGPHGP完成之后，即全部人类基因完成之后，即全部人类基因被定序之后，还需要：被定序之后，还需要：n n破解贮存于基因组之中的遗传语破解贮存于基因组之中的遗传语言言;n n识别、分离、鉴定和克隆所有基识别、分离、鉴定和克隆所有基因因；n n搞清每个基因的功能及基因之间搞清每个基因的功能及基因之间的相互作用和相互关系的相互作用和相互关系。6.后人类基因组计划伴随着人类53537 水稻的基因组 20022002年我国科学家完年我国科学家完成了水稻基因组定序和初成了水稻基因组定序和初步分析步分析。出人意表的是，。出人意表的是，水稻的基因竟比人类基因水稻的基因竟比人类基因还要多得多。还要多得多。人类基因大人类基因大约有约有3-43-4万个万个，水稻有水稻有46022-5561546022-55615个基因个基因。因。因此水稻基因组可说是继人此水稻基因组可说是继人类基因组之后，完成定序类基因组之后，完成定序的最大基因组，也是至今的最大基因组，也是至今已知最大的植物基因组。已知最大的植物基因组。由于水稻是全球半数以上由于水稻是全球半数以上人口的主食，对解决全球人口的主食，对解决全球粮食问题具有重要意义。粮食问题具有重要意义。7 水稻的基因组 2002年我国科学家完成5454本章要点本章要点n n链终止法测序n n人类基因组计划n n了解其他基因测序方法和基因拼接方法本章要点链终止法测序5555本章内容结束谢谢本章内容结束谢谢!本章内容结束谢谢!5656第二讲第二讲基因组序列诠释基因组序列诠释第二讲基因组序列诠释5757问题问题n n基因组序列所包含的全部遗传信息是什么？n n基因组作为一个整体如何行使其功能？n n用什么方法寻找基因，研究基因地功能呢？问题基因组序列所包含的全部遗传信息是什么？5858主要内容：主要内容：n n寻找基因n n获取基因的全长cDNA序列n n确定DNA顺序中基因的位置n n研究基因的功能n n基因表达n n蛋白质组学主要内容：寻找基因59591.寻找基因寻找基因1.1 根据开放读码框预测基因A A 起始密码子起始密码子 ATG ATGn n第一个第一个ATGATG的确定则依据的确定则依据KozakKozak规则规则;Kozak Kozak规则是基于已知数据的统计结果，规则是基于已知数据的统计结果，所谓所谓KozakKozak规则，即第一个规则，即第一个ATGATG侧翼序列的碱侧翼序列的碱基分布所满足的统计规律基分布所满足的统计规律.1.寻找基因1.1 根据开放读码框预测基因6060 若将第一个若将第一个ATGATG中的碱基中的碱基A A，T T，G G分别分别标为标为1,21,2，3 3位，则位，则KozakKozak规则规则可描述如下：可描述如下：(1)(1)第第4 4位的偏好碱基为位的偏好碱基为G G；(2)ATG(2)ATG的的5 5端约端约15bp15bp范围的侧翼序列内不含碱范围的侧翼序列内不含碱基基T T；(3)(3)在在-3-3，-6-6和和-9-9位置，位置，G G是偏好碱基；是偏好碱基；(4)(4)除除-3-3，-6-6和和-9-9位，在整个侧翼序列区，位，在整个侧翼序列区，C C是是偏好碱基。偏好碱基。若将第一个ATG中的碱基A，T，G分别6161n n信号肽分析信号肽分析信号肽分析软件信号肽分析软件(SignalP(SignalP http:/www.cbs.dtu.dk/services/signalP)http:/www.cbs.dtu.dk/services/signalP)把预测过程中证实含完整把预测过程中证实含完整mRNA 5mRNA 5端的端的ContigContig翻译翻译为蛋白序列为蛋白序列;然后用然后用SignalPSignalP软件对前软件对前5050个氨基酸序列个氨基酸序列(从第一个从第一个ATGATG对应的甲硫氨酸对应的甲硫氨酸MetMet开始开始)进行评估，如果进行评估，如果SignalPSignalP分析给出正面结果，则测试序列有可能为信分析给出正面结果，则测试序列有可能为信号肽号肽;假如在该测试序列的第一个假如在该测试序列的第一个Met 5Met 5端存在端存在终止密终止密码子码子，该序列为信号肽的可能性更大。，该序列为信号肽的可能性更大。信号肽分析6262B 终止密码子终止密码子:TAA,TAG,TGA GC%=50%GC%=50%终止密码子每终止密码子每 64 bp 64 bp出现一次；出现一次；GC%50%GC%50%终止密码子每终止密码子每100100200 bp 200 bp 出现一次；出现一次；由于多数基因由于多数基因 ORF ORF 均多于均多于5050个密码子，因个密码子，因此最可能的选择应该是此最可能的选择应该是 ORF ORF 不少于不少于100 100 个密个密码子。码子。B 终止密码子6363C 3端的确认 3端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列，则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。C 3端的确认6464D 非编码序列、内含子高等真核生物多数外显子长度不少于100 个密码子，有的不到50个密码子甚至更少；D 非编码序列、内含子6565E E 密码子偏爱性密码子偏爱性编码同一氨基酸的不同密码子称为同义密编码同一氨基酸的不同密码子称为同义密码，其差别仅在密码子的第码，其差别仅在密码子的第3 3位碱基不同。位碱基不同。不同种属间使用同义密码的频率有很大差不同种属间使用同义密码的频率有很大差异，如人类基因中，丙氨酸（异，如人类基因中，丙氨酸（AleAle）密码子多）密码子多为为GCA,GCCGCA,GCC或或GCT,GCT,而而GCGGCG很少使用。很少使用。E 密码子偏爱性6666F 外显子内含子边界外显子和内含子的边界有一些明显的特征，外显子和内含子的边界有一些明显的特征，如：如：内含子的内含子的5 5端或称供体位（端或称供体位（donor sitedonor site）常）常见的顺序为见的顺序为 5 5AGAG GTTAAGT-3GTTAAGT-3；3 3端又称受体位（端又称受体位（acceptor site),acceptor site),多为多为5PyPyPyPyPyPyCAG-3(“Py”5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸，嘧啶核苷酸，T T或或C)C)；F 外显子内含子边界6767G G 上游控制顺序上游控制顺序几乎所有基因（或操纵子）上游都有调控几乎所有基因（或操纵子）上游都有调控序列，它们可与序列，它们可与DNADNA结合蛋白作用，控制基结合蛋白作用，控制基因表达。因表达。另外个别生物的基因组特有组成也可作另外个别生物的基因组特有组成也可作为判别依据，如脊椎动物基因组许多基因的为判别依据，如脊椎动物基因组许多基因的上游都有上游都有CpGCpG岛。岛。G 上游控制顺序6868H 软件预测采用NCBI的ORF预测软件(ORF finder:http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi)判断ORF的可能范围。H 软件预测69691.2 mRNA的5端即转录起始位点区通过同源性比较来预测mRNA的5端，最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project,Eukaryotic Promoter Database,EPD.http:/www.epd.unil.ch/)。1.2 mRNA的5端即转录起始位点区70701.3 同源查询途径通过已存入数据库中的基因顺序与待查的基因组序列进行比较，从中查找可与之匹配的碱基顺序及其比例，用于界定基因的方法称为同源查询。1.3 同源查询途径7171同源有如下几种情况：A DNA序列某些片段完全相同；B 开放读码框（ORF）排列类似，如有长外显子；C 开放读码框翻译成氨基酸序列的相似性；D 模拟多肽高级结构相似同源有如下几种情况：72721.4 试验分析A Northern A Northern 杂交确定杂交确定DNADNA片段是表达序列：片段是表达序列：注意事项：注意事项：a a 当某一基因的转录产物进行可变剪接时，由当某一基因的转录产物进行可变剪接时，由于连接的外显子不同，会产生好几条长度不于连接的外显子不同，会产生好几条长度不一的杂交带，如果该基因是某一基因家族的一的杂交带，如果该基因是某一基因家族的成员也会出现多个信息；成员也会出现多个信息；b b 考虑组织专一性和发育阶段的问题；考虑组织专一性和发育阶段的问题；1.4 试验分析7373C 基因表达产物丰度的问题如果风度较低，用拟Northern 杂交和动物杂交（Zoo-blotting）分析。拟Northern 杂交根据已知的DNA顺序设计引物，从mRNA群体中扩增基因产物，再以DNA为探针与之杂交。C 基因表达产物丰度的问题7474n n动物园杂交根据亲缘关系相似的物种，其基因的编码区相似性较高，而非编码区的同源性很低的原理。如果某一物种的DNA 顺序与来自另一亲缘物种的DNA片段杂交产生阳性信号，该区段可能含有1个或多个基因，这种方法又称为动物园杂交。动物园杂交根据亲缘关系相似的物种，其基因的编码区相似性75752 获取基因全长获取基因全长cDNA序列序列A 构建cDNA文库，用目的基因DNA片段筛选文库。B 根据已知片段设计引物，RACE 技术得到基因的全长cDNA序列。2 获取基因全长cDNA序列A 构建cDNA文库，用目的基因7676cDNA文库构建cDNA文库构建7777cDNA文库构建cDNA文库构建78785RACE5RACE79793RACE3RACE80803.确定确定DNA顺序中基因的位置顺序中基因的位置A 通过对全长cDNA序列的测序、对比，以及与基因组DNA的比较，确定基因所在的区域；B 通过物种已建立遗传图和物理图来确定基因的位置；3.确定DNA顺序中基因的位置A 通过对全长cDNA序列的测8181

展开阅读全文

基因组测序与序列组装课件

最新文档