复杂多样、动态变化的玉米B73系基因组

上传人:d****1 文档编号:123709270 上传时间:2022-07-23 格式:DOCX 页数:7 大小:200.45KB
返回 下载 相关 举报
复杂多样、动态变化的玉米B73系基因组_第1页
第1页 / 共7页
复杂多样、动态变化的玉米B73系基因组_第2页
第2页 / 共7页
复杂多样、动态变化的玉米B73系基因组_第3页
第3页 / 共7页
点击查看更多>>
资源描述
复杂多样、动态变化的玉米B73系基因组摘要:玉米是一种重要的粮食作物,同时也是生物学研究中的重要的模式植 物之一。我们提出了一个改进的玉米基因组核苷酸序列草案,包含 2.3 亿个碱基 对,预测了超过 32,000 个基因,有 99.8%已定位于相关染色体上。该基因组 中有接近 85%是由非均匀分散于整个基因组中的几百个转座子家族,这些转座 元件负责数以千计的基因碎片的复制,影响着着丝点的大小、组成和位置。我们 分析了 Mu 转座子的插入与重组、拷因丢失与低甲基化区域之间的关联,以及该 作物远古状态时染色体拷贝数从双二倍体减少至二倍体的过程中复制区差异基 因丢失的关系。这些分析结果告知并为我们更进一步的调查研究阶段打下基础, 以提高我们对于玉米驯化及作物改良的认识。玉米(Zea mays ssp. mays L.)是由距今大约10,000的位于美洲中部的草类 玉米驯化而来的,并被选育种植至今 1。玉米作为一种重要的模式植物被用于 以下基础性研究:基因的遗传与功能、基因与染色体的物理连锁、细胞学的交叉 与重组的机械关联、核仁的起源、端粒的特性以及表观遗传沉默、印记与变换等 等2.同时,玉米又是最重要的粮食作物之一,单就美国而言,在大约 8600 万 英亩的面积产量大概在258050.4 亿立方英寸左右,价值约为470 亿美元(2008 年数据 3)。在过去的一个世纪里,育种者将玉米产量提高了8 倍4,杂种优 势是部分杂交种可以将产量从相对于父母本自交系的 15%提高到 60%5.,这虽 然是一个极其普遍的生物现象,但人们又对它知之甚少。玉米基因组已经过了好几轮的复制,其中包括约7000万年前的古多倍体祖 先6和约 5000 万年到一亿两千万年前的额外全基因组重复事件7,8,这才使玉 米得以跟它的近亲一一高粱(Sorghum bicolor)区分开来9。玉米的十条染色 体在结构上呈现多样性,并且染色质组成经历了动态的变化。在过去的 300 万 年,由于长末端重复反转录转座子(LTR retrotransposons)的增殖,玉米基因组 的规模急剧地扩大到2.3亿个碱基对1 0 。我们对基因组的测序是通过细菌人工染色体(BACs) (n=16,848)和源于整 合的物理遗传图谱的fosmid克隆(n=63)11,12,同时运用光学图谱进行强度比 较13。采用覆盖面积约为4-6倍的鸟枪法(shotgun),随后对一些独特区域进 行了自动和人工的完善14,完成了第一版的B73参考基因组(B73 RefGen_v1)。我们鉴定了 B73参考基因组的全套转座子(TEs),包括活跃的口类DNA转座 子和许多I类RNA转座子15. B73参考基因组中大约85%是由转座子组成的 (见表2),事实上,不仅是TEs16, CATCA转座子的第一个成员Spm/En系 统,以及Hat(Ac转座子)、PIF/Harbinger、Mutator超基因家族以及MITE家族 最初都是在玉米中发现的17。另外,长末端重复反转录转座子(LTR retrotra nsposo ns)的存在以及其在植物中无可比拟的丰富性也是起初在玉米中 发现的18。B73参考基因组包含了占整个基因组大小8.6%的855个DNA转座子家族, 其中大部分(约 85%)已得到了鉴定(表 S2) 14。在这些超基因家族中最复 杂的是 Mutator 超基因家族,它的序列成分和大小存在巨大的变异,其中包括携 带226个核基因片段的262个包装的MULEs (包含基因片段的类似Mutator成 分)。我们对Mu活性区域的40000个非冗余Mu插入位点进行了扩增、测序并 对应绘制到B73参考基因组中(B73 RefGen_v1)。表明共定位于基因组中基因富 集区的非均匀分布的Mu插入位点在减数分裂中的重组率最高/Mb (图1)19。 正如Mu转座子,多数的玉米DNA转座子(CACTA转座子除外)富集在基因 丰富、具有重组活性的染色体末端。Helitrons是采用滚环模式进行转位的一类DNA分子20,主要存在于植物、 动物以及真菌,但在玉米中这类分子特别活跃,变异丰富而且数量极多21。玉 米中包含有八个 Helitrons 家族,合并起来有大约 20000 个拷贝,在基因片段获 取时非常活跃。在以前研究的植物或动物基因组中, Helitrons 主要位于基因稀 疏区,但是在玉米中却多数位于基因富集区(22,23)。在B73参考基因组中有大 于75%的部分是由长末端重复反转录转座子(LTR retrotransposons)组成的,并 且分散存在,在它们的406个基因家族中多数的拷贝数小于10个。长末端重复 反转录转座子存在家族特异性,且在染色体上分布不均匀等特点,例如,类Copia 因子(Copia-like elements)在基因丰富的常染色质区域过量存在,而类Gypsy 因子(Gypsy-like elements)却在基因稀疏的异染色质区域过量存在(图1, S1) (24,25)。我们在长末端重复反转录转座子中观测到的核基因片段超过了180 个(表 2 )。我们结合基于证据27和从头算起的途径,从装配或改进的 BAC 重叠群中 预测到了蛋白编码基因和microRNA26基因,预计到B73参考基因组(第一版), 经最后的筛选形成一套含 32540 个蛋白编码基因和 15 个 microRNA 基因(14)(图.S2)。玉米基因中的外显子大小跟水稻和高粱中的同源基因很相似,但是 由于重复序列的插入,在玉米基因中具有更为庞大的内含子(11, 28)(图S3、S4 ; 表 S5 、 S6 )。 通 过 与 水 稻 、 高 粱 及 拟 南 芥 的 比 较 分 析611007110 Recombination rate (cM/Mb) Q: 0 Mu insertions (sites/Mb)00 MF Enrichment (% read)MG Repeat coverage (%)oO Gene density (gene/Mb)o图1玉米B73系参考基因组(B73 RefGen_v1):同心圆指基因组的各部分;A示染色体结 构,灰白交替条带示参考染色体的物理指纹重叠群,红色条带示推测的着丝粒位置;B表示 重点放大的遗传图谱,在整个基因组中以6363个遗传及物理图谱标记为基础的遗传连锁; C表示Mu插入序列,非冗余Mu插入位点的遗传图谱;D表示甲基筛选内容,甲基筛选的 丰富及贫乏区,E表示重复区域,玉米中所有已确定的完整序列的转座序列覆盖(用 RepeatMasker制成)。F表示基因,基因组中筛选基因组的基因密度。G表示高粱同源域, H表示水稻的同源域,I表示同源图谱。发现,它们中存在相同数目的基因家族(14)(图.2),其中有8494个基因家族 组成的核心集合为这四种所共有,但在玉米中的11892个家族中,共有465个 至少对其中的一个种是保守的。种及种属特异性家族指出了注释项目中存在潜在 的不一致性,同时也反映出了基因库中的真实生物差异。由于在筛选基因时采用的标准严格,我们估计可能会丢失某些基因,在收集到得 63851个玉米全长cDNA中,有95%的绘制到了 B73参考基因组(第一版)。 据估计,经筛选能支持全32.540 genes.11,892 families 12,353图2:四种已测序植物(玉米、水稻、高粱和拟南芥)中特有7共有基因家族的维恩图解长cDNA的基因在B73参考基因组中所占的比率大概为85% (14)。通过采用对各种组织进行的约112次转录组测序(RNA-seq (tra nscriptome seque ncin g)的矫正路线,对假阳性基因注释的最大几率做了估计(14)(图S10、S11)。这些实验为筛选基因组中约91%的基因转录提供了证据(32540中的29541个)。对从筛选基因组中随机选择的200个基因的手动标记显示只有两个源于TE。对 其它挑选的具有良好遗传特征的基因(表S8、S9)的手动注释表明在筛选基因 组中预测的基因和蛋白质绝大多数是正确的。在玉米的着丝粒中发现有可变数目的串联 CentC 卫星重复和着丝粒转座成 分(CRMs)。在与B73全基因组鸟枪测序的数据进行比较的基础上,我们最初发 现了大约一半的基因组CentC成分(表S13)。通过对含101个着丝粒重复序列 的 BAC 进行草图测序并把它们锚定到物理遗传图谱中,我们获得了其它的 CentC序列,从而对所有的着丝粒进行了定位(31)。我们用一种抗CENH3 (着丝粒特异性蛋白H3)(32)的抗体进行染色质免 疫共沉淀(ChIP)反应,接着进行焦磷酸测序,在此基础上,我们对功能着丝 粒进行了划分。虽然通过这种方法对着丝粒区域的划分大部分是不完全的,这主 要与高密度的CentC和CRM1/CRM2/CRM3重复有关,但是此类重复也存在于 功能着丝粒以外的区域。(图.S12)。由于玉米中的CRM2超基因家族在CENH3 片段中比CentC, CRM1,或CRM3更为丰富,因此它可能是与CENH3密切联 系的着丝粒重复。通过对 2 号和 5 号染色体着丝粒的整体研究发现,它们在大小以及 CENH3 密度上存在差异(31),这是由于 CRM 因子在不同活跃期产生了重组(33 , 34) , 据此我们可以证明玉米中的区域着丝粒是动态变化位点( dynamic loci) ,并且 CENH3区域随着时间的变化处于不断地变化当中(31)。为了保护基因组的完整性,转座成分通常是采用RNA指导下的DNA甲基化 (RdDM)途径而表现部分转录沉默,这需要RNA聚合酶2的参与。当玉米中同源 RNA聚合酶发生突变以后,它将会改变许多特征转座子转录产物的积累,但是 令人意外的是,一些转座子却受RNA聚合酶2功能缺失的控制(down-regulated (37)。在大多数植物基因组中,其基因跟异染色质的转座子和其他重复序列相 比,很少是被密集甲基化的。结果,通过甲级过滤读取的约2倍覆盖面积的玉米 基因组中包含了95%的基因(38)。将玉米和高粱的甲级过滤内容绘制到相应基 因组中后显示了参考染色体上异染色质DNA甲基化的种族特异性分布(39)(图.13,A和B)。值得注意的是,在高粱基因组中,低甲基化的基因大部分在着 丝区域之外,而它们在玉米中的分布更为广泛。高粱与玉米之间的表观比较揭示 了高水平的同源匹配,其中包括着丝粒染色体的重复相对于异染色体的去甲基化 (39、40)(图S13, c)。B73参考基因组证明高度甲基化的区域集中在细胞分 裂间期。将B73参考基因组锚定到一种最近发展起来的遗传图谱上以后发现:位于参 考染色体末端每兆碱基对的的减数分裂重组率最高,而位于染色体中央着丝粒附 近的重组率很低(图1)(19, 41)。虽然重组时的优先基因和基因密度有着相同 的分布,但是基因密度不能完全解释重组时的非随机性事件,这是因为即使是考 虑基因密度,一种明显的不均匀分布依然可以观察到(19)。相反的,包括甲基 化和组蛋白修饰在内的表观遗传标记,与指导Mu插入和减数重组存在很大关联。(19)表观遗传过程也被援引用来解释关于“基因组印记有助于玉米杂交种数以 千计基因得到表达”的观测数据。(42)玉米展示了相当高水平的表型及遗传多样性,通过对B73和Mo17两种自 交系的重测序和基于阵列的比较基因组学研究揭示了这种遗传多样性。同时也显 示了广泛的结构变异,其中包括几百个拷贝数目变异(CNVs)和几千个隐现变 异(PAVs)。第六号染色体上的许多隐现包含一个约2Mb的区域,它包含一个 完整的可表达单拷贝基因,在第一个自交系中存在而在第二个中不存在。这些单 体型特异性序列可能对玉米自交系的杂种优势和相当程度的表型变异具有重大 贡献。( 43)经过全基因组复制,二倍体基因组的回复是由于大量的染色体断裂和融合, 正如把高粱基因组和亲缘较远的水稻同源配对后显示的结果,(图1、S14) (12)。 相比之下,由于高粱家族与水稻的分裂,因而经历了相对较少的染色体间重排 (8);因此,其染色体构型跟玉米的两个亚基因组的祖先状态非常接近。(12) 将玉米基因和水稻或高粱的普通参考基因进行共线性分析确定了玉米的复制区 域(图15)虽然同线性板块覆盖了 1832Mb(大约是基因组的89%),但是个别 基因的丢失很常见从而导致了只有约8110个基因具备复制同源性(约为总基因 的25%,约30%与水稻和/高粱直系同源)。基于GO(gene ontology)的分析表明, 保留的复制基因并不是随机的,比如,保留基因极大地丰富用于转录因子(约为 1.5倍,P值等于7.6 x 10-22,(表S15),在水稻(44)和拟南芥(45。中也是 这样。CesA家族是倾向于这种保留的一个例子,其中的10个祖先基因位点被 保留作为重复。(图S16) (46)。用高粱基因组将现存玉米区域投射到祖先染色 体上发现其姐妹区域间倾向于基因丢失(表S16、图S17).这种基因丢失的偏向在 其它一些基因家系和种族中也存在(47-50)。包含近因重复旁系的位点通常是以单拷贝形式存在,或者在相应的同源位置 就根本不存在(表S18),1454个近因重复旁系被确定(占了 3614个基因), 在同源位置只发现126个(约9%) (14)。在剩余的当中,在相应的同源位置有 279(约19%)是简单的旁系同源,同时有1049个(约72%)没有同源。等近旁系(Nearly identical paralogs, NIPs)是指与其它基因有大于500bp 的同源配对、保真性在 98%以上、覆盖面积在 95%以上的基因(51)。在玉米筛 选基因中,来自386个家族的约2.5%(32, 540个中的828个)是近等旁系, 其中大部分(约 349 个)具有两个成员,几乎一半(46)的近等旁系对同时含 有两个成员,并且在 200bp 内是相互连在一起的,其余的部分,这两个成员彼 此相距较远或处于不同的染色体上。(图, S18)正如细胞遗传学和遗传图谱( 52)在过去一个世纪给研究及作物改良带来 的革命性巨变一样, B73 玉米参考基因组有望推动基础研究,并满足全球气候变 化形势下日益增长的对粮食、饲料、能源及工业原料的需求。源于该基因组序列 的发现在这里只做了概括性的描述,在姊妹文章中,13, 19, 22, 24-26, 30, 31, 37, 41-43, 46)有给详尽的描述。注释数据和浏览器在www.maizegenome.org 上可免费使用。参考文献:(略)
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!