同源多倍体甘蔗和二倍体高粱基因组间的微共线性

Qingyi Yu; Simone Macmil; Jianping Wang; Bruce Roe; Jan E  Murray; Haibao Tang; Cuixia   Chen; Fares  Najar; Graham Wiley; John Bowers; Marie-AnneVan Sluys; Daniel S  Rokhsar; Matthew E Hudson; Stephen PMoose; Andrew H Paterson; Ray Ming

同源多倍体甘蔗和二倍体高粱基因组间的微共线性

Qingyi Yu

, Simone Macmil

, Jianping Wang

, Bruce Roe

, Jan E Murray

, Haibao Tang

, Cuixia Chen

, Fares Najar

, Graham Wiley

, John Bowers

, Marie-AnneVan Sluys

, Daniel S Rokhsar

, Matthew E Hudson

, Stephen PMoose

, Andrew H Paterson

, Ray Ming

作者

通讯作者
基因组学与应用生物学, 2010 年, 第 29 卷, 第 3 篇 doi: 10.5376/gab.cn.2010.29.0003
收稿日期: 2010年07月28日接受日期: 2010年08月15日发表日期: 2010年11月30日

推荐引用：

Wang et al, 2010, Microcollinearity between autopolyploid sugarcane and diploid sorghum genomes, BMC Genomics 2010, 11: 261 (doi: 10.1186/1471-2164-11-261)

摘要

背景
甘蔗(Saccharum spp.)在生物燃料生产中占据着主导地位，成为一种越来越重要的作物。高糖含量品种S. officinarum是一个八倍体品种，但是还不能确定其祖先是属于二倍体还是四倍体。商业化的甘蔗品种是由S. officinarum 和野生种S. spontaneum杂交获得的12倍体植株。目前的研究中，还缺乏在DNA序列水平上对复杂的多倍体甘蔗基因组的鉴定。

结果
我们利用Roche454焦磷酸测序获得20个甘蔗细菌人工染色体(BACs)，并将其与高粱序列进行比较，以此评估甘蔗和高粱间的微共线性。通过1 961个单拷贝高粱寡核苷酸探针在甘蔗BAC库的杂交选择了这20个甘蔗BACs，并且每个BAC与20个高粱染色体臂中的一个相对应。甘蔗BACs的编码区域平均有95.2%的序列和高粱序列是相匹配的，以高粱基因组作为模板来对序列重叠群排序的话，可以覆盖20个BAC序列中的78.2%。大约有53.1%的甘蔗BAC序列与高粱的序列是相联配的。不能相联配的区域包括非编码区和重叠序列。在能联配的区域中，甘蔗有209个基因已经被注释，高粱有202个被注释。其中有17个表现为甘蔗所特有的，并且都得到了甘蔗序列表达标签(ESTs)的验证；然而，12个高粱特有基因中，只有一个得到高粱序列表达标签(ESTs)的验证。在17个甘蔗特有基因中，有12个基因在GenBank的非冗余蛋白数据库中没有找到匹配蛋白，它们可能是参与编码甘蔗特异过程中的其它蛋白。相对于甘蔗来说，高粱的直系同源区域的扩大，主要是通过反转录转座子的增加来实现。

结论
甘蔗和高粱的基因组在基因区域上大部分是共线的，高粱基因组能够用来作为同源多倍体甘蔗基因组中许多基因区间DNA组装的模板。多倍体物种由于在各自的基因位点冗余多个复等位基因，因而可能有更快的基因缺失速率，然而甘蔗BACs和对应高粱基因组间的相似基因密度比却违背了这一观点。

关键词

甘蔗；高粱；高粱基因组

甘蔗(Saccharum spp. L., Poaceae)是多年生热带或亚热带的大型草本植物，是第一代生物燃料植物，并作为替代能源用于乙醇和生物质产品的生产(Lam et al., 2009)。全球范围内种植的甘蔗主要用于糖的供给，全球大约75%的糖(五碳糖)是由甘蔗供给，而其余的25%是由甜菜(Beta vulgaris L., Chenopodiaceae)供给。甘蔗作为C4植物，是公认的将光能转化为化学能(五碳糖化合物)的最有效的植物之一(Aragon et al., 2009; de Maria Felix et al., 2009; Rea et al., 2009)，甘蔗在众多植物中也具有最佳能量产出比(Heichel,1974; Tew et al.,1980)。

根据形态、染色体数目及地理分布，禾本甘蔗属(Saccharum)包含6个种，即S. spontaneum、S. robustum、S. officinarum、S. barberi、S. sinense和S. edule。最近研究获得的基因组学和分子细胞遗传学的数据有力地证明：S. barberi和 S. sinense是由S. officinarum和 S. spontaneum的种间杂交而来(D'Hont et al., 2002)。尽管没有直接的证据，一般认为S. edule是S. officinarum 或者S. robustum与相近的属杂交而来的，这也可能是其花序发生畸形的原因(Daniels et al., 1987)。S. robustum 及S. spontaneum是两个具有不同的基本染色体的野生品种，染色体倍数分别为X=10和X=8 (D'Hont et al., 1995; D'Hont et al., 1996; D'Hont et al., 1998;Ha et al., 1999)。这两个野生品种具有大量的染色体数和很高的倍性水平，S. robustum的染色体数2n=60~170，S. spontaneum的染色体数2n=40~128 (Irvine, 1999)。S. robustum已经被假定为是高糖含量品种S. spontaneum (2n=8x=80)的祖先。来自于Saccharum的其它种S. spontaneum具有特有的基本染色体数目及明显不同的指纹DNA，成为将这个属分为两个种的主要原因，S. spontaneum是按传统的定义而来的，S. officinarum包括所有的其它物种及种间杂交体(Irvine,1999)。

母本S. officinarum (2n = 80)与父本S. spontaneum杂交的染色体数为2n+n，保持S. officinaru的全基因组，出现了一个被称为母本回归的现象(Bremer, 1961)。即在第一次母本S. officinarum和2n+n的F1代回交中，母本回归仍然是准确的，但是在随后的回交中准确性就有所下降了。早在1900年，荷兰的育种家就利用甘蔗的这个不寻常的现象，将野生品种S. spontaneum的生物及非生物胁迫抗性基因整合到甘蔗中，并通过几次与高糖含量品种S. officinarum的回交来迅速恢复其高糖含量。因此，目前所有生产中的甘蔗杂交品种都是有80%~90%的基因组序列来自于S. officinarum和10%~20% 的基因组序列来自S. spontaneum (Grivet et al.,1996; Hoarau et al., 2002)。

多倍体基因组的复杂性以及现代品系的种间杂交阻碍了甘蔗遗传学的或基因组方面的研究，及甘蔗育种过程中基因组工具的应用。目前我们所知道的唯一的甘蔗细菌人工染色体(BAC)库是构建自染色体数2n=115的杂交品系R570。基于预测的基因组大小为10 Gb，这个BAC库的多倍体基因组的覆盖范围为其1.3x及14 x的基本染色体数覆盖(Tomkins et al., 1999; D'Hont et al., 2005)。由于用于遗传作图分析的甘蔗品种的染色体数通常都超过了100，以及可用于发展标记的基因组序列有限，所以目前所有已构建甘蔗的遗传图谱都是不完整的(Hoarau et al., 2002; Ming et al.,1998;Ming et al., 2005; Aitken et al., 2006)。对于目标性状来说，大部分的基因组区间不能被扫描到，这方面的不足已经限制了分子标记辅助选择的应用。但是，由于甘蔗是作为最佳的生物燃料植物，使得许多私人和公共部门都投资于甘蔗的研究中。随着下一代低成本DNA测序技术的使用，使曾经让人望而生畏的，价格昂贵的同源多倍体甘蔗基因组的测序成为一种现实的可能。

高粱(Sorghum bicolor (L.) Moench)是主要提供食物、饲料、纤维以及能源的谷类植物。它在非洲北部被驯化，能够在恶劣的环境中生长，并且因为其耐旱性而备受关注。相对于多倍体甘蔗来说，高粱是具有10条染色体的二倍体植物，并且具有大小约为730 Mb的基因组。估计和约930 Mb的单倍体甘蔗的基因组大小相似，因为甘蔗多倍性程度大，以及在其杂交中出现了两个基因组集，使得它的基因组非常复杂。由于高粱基因组比较小，以及在恶劣环境中特别是热带地区的发展中国家中，其对食品安全和生物燃料生产的重要性，使得其基因组测序已经完成(Paterson et al., 2009)。甘蔗和高粱在禾本科(Poaceae)家族(Clayton et al., 1987)的甘蔗属中属于同一亚属(Saccharinae)，并且相互间的关系非常近，在8~9百万年前具有相同的祖先(Jannoo et al., 2007)。高粱基因组测序的完成为甘蔗基因组研究提供了前所未有的机遇(Paterson et al., 2009)。

甘蔗和高粱基因组间的共线性已经有使用DNA标记进行研究的报道(Ming et al., 1998)，但是，除了一对包含了Adh1基因的甘蔗细菌人工染色体(BACs)外，没有微共线方面的详细研究(Bowers et al., 2005)。本文的目的就是：(1)检测高粱基因组作为模板来辅助组装454 Flex测序所得的20个甘蔗BACs序列的适合性。(2)通过研究一组长连续的基因组序列，来探索多倍体的序列特征。(3)检测高粱和甘蔗在分别对应的20个染色体位点区间的微共线性假说。

1结果
1.1 20个甘蔗BACs的选择和测序
为了检测甘蔗和高粱基因组之间的微共线性，我们根据高粱及甘蔗BAC文库的寡核苷酸杂交数据，以及在高粱序列中的寡核苷酸探针作用位点，选择出了甘蔗杂交品系R570的20个BACs (Tomkins et al., 1999; Bowers et al., 2005)。特别地，我们将3 145个寡核苷酸序列与高粱基因组组装进行了比对(初步实验, 是最先发布组装的基础)，其中有1 961个序列和高粱的组装有一段精确的结合，至少35~40 bp的序列和高粱的目标序列是一致的。精确的比对结合位点被转移到有序的高粱的Scaffolds碱基对上，然后又移到组装好的染色体的位点上。我们将这1 961个“单拷贝高粱寡核苷酸序列”与甘蔗杂交数据进行了比较，其中1 003个在甘蔗中有4~20比对，在杂交品系R570中每条染色体有10-20个同源区间。然后，我们用至少两个上述的寡核苷酸探针在大约50 kb区间的方式，得到了一个BACs的比对子集；通过一个甘蔗BAC对应一个高粱染色体臂(10个染色体)的常染色体区间的方式在甘蔗BACs中来选择出20个BACs子集(图1及附件1)。

图1 在10个高粱的染色体的每一个染色体臂上选择20个甘蔗BACs的同源染色体位点

附件1使用横跨杂交来选择20个甘蔗BACs

用一个具有的4水平5纵向BAC池的方法，运行一个454 Flex来测序这20个BACs (附件2)。发现了总数为593,265的阅读序列，排除掉低质量的序列后，收集到118 Mb的原始序列。使用脉冲凝胶电泳来估计出19个甘蔗BACs的插入片段大小为40~165 kb，平均为97.6 kb (表1)。通过与pBeloBAC11 载体序列100%匹配的BAC克隆的19D20末端测序，证实了这个克隆是空白的。这个克隆之所以手动选择得到是因为这两个杂交寡核苷酸比对到高粱基因组的相同位点，这削弱了这个克隆的锚定证据。然后，更深入的分析中，我们排除掉了这个克隆。其余19个BACs具有的总的阅读序列是1.86Mb BAC序列的64X的覆盖率。

附件2用作454测序的甘蔗BACs的行和列池

表1使用454 Flex对20个甘蔗BACs及使用Sanger 法对2个BACs进行测序的结果总结

在行和列池的基础上产生的BAC序列的最初组装产生了287个重叠群，每个BAC具有5~42个重叠群，序列总长度为2.61Mb (表1)。检查这些组装的重叠群，来排除大量的小组装，整理出218个清楚的重叠群，序列全长为1.99 Mb，来阐明预测长度为1.86 Mb的19个BACs序列。为了排序每一个BAC上的大量重叠群，我们使用同源的高粱序列作为模板来定位这些甘蔗重叠群，并在可能的时候填充这些重叠群之间的缺口。全长为1.45 Mb的甘蔗重叠群的顺序已经清楚了，在1.86 Mb BAC序列中占78.2% (表1)。由于所有重叠群都小于9 kb，一些预测的基因投射到不同的高粱超重叠群，所以BACs中的两个重叠群，SC0172L01及SC0175O07都还没有被排序。在1.45 Mb已经排序清晰的的甘蔗重叠群序列中，和高粱序列相一致的序列长度有0.99 Mb (表1)。占甘蔗BAC序列的53.1%。

1.2基因含量和重复序列
根据一个来自于RepBase数据库以及TIGR植物重复数据库的重复数据，用RepeatMasker将组装好的BAC重叠群的重复序列首先标记出来，用来注释已经测序的甘蔗BACs。其余的序列是用甘蔗ESTs、高粱ESTs、及预测的高粱基因模型来注释的。在19个甘蔗BAC序列中，估计总共有209个蛋白质编码基因，其中155个是通过甘蔗ESTs来验证的(74.2%)，28个是通过高粱ESTs验证的，其余的26个与预计的高粱基因模型相匹配(附件3)。在相应的高粱基因区域中，有202个基因已经被注释，其中122基因是个通过高粱ESTs来验证的(60.4%)，31个是通过甘蔗ESTs验证的，其余的49个是通过高粱基因模型验证的。来自于19个BACs的总共的171个基因(81.8%)被认为是甘蔗和高粱之间的真正直系同源的基因。这两个物种间的140Kb的编码区的序列比对表明95.2%的外显子序列中相一致的范围为80.1%到100%。

附件3甘蔗BACs 上的基因和重复序列的分布

因为甘蔗基因已经通过高粱的ESTs及其基因模型来推断出来，所以用RT-PCR来确定这些基因的表达。在28个被高粱ESTs验证的基因中，根据其中的26个基因设计出引物，19个基因在成熟的叶子或者在幼嫩的叶子中表达(73.1%)。在这26个通过高粱基因模型预测的基因中，根据其中的21来设计引物，有9个(42.9%)个在成熟叶子及幼嫩的叶子中都有表达(图2 ; 附件4; 附件5)。SC187J16c6-llk只在幼嫩的叶子中检测到，SC11815c12-55k只在成熟的叶子中检测到，这两个基因似乎只在特定的发育阶段表达。在19个 BACs中已经有183个(90.6%)个基因被验证过了，这些常染色质区域中的平均基因密度为每个基因10.1 kb。

图2 RT-PCR检测从高粱ESTs及其预测基因中推断出的9个已注释的甘蔗基因的表达图像

附件4 RT-PCR确认通过高粱ESTs推断出的26个甘蔗基因

附件5 RT-PCR确认通过高粱基因模型来预测的21个甘蔗基因

在这些已经注释的基因中，有19个甘蔗基因在相应的高粱基因区域中没有对应序列；而12个高粱基因在甘蔗中没有对应序列。19个假定的甘蔗特有基因分布于11 BACs中，并全部被甘蔗的ESTs验证。在这19个基因中，17个在高粱基因组中没有同序列，有2个在相应的基因组区间中没有同源序列，而在和高粱基因组中的其它区域同源序列。在12个与甘蔗基因不同源的高粱基因中，1个基因是被高粱EST验证过的，其余的11个是通过高粱基因模型来验证的。将这17个甘蔗特有基因与Genbank的非冗余蛋白数据库进行精确比对后，发现只有5个出现了非常相似的匹配(e<E-06)，其中2个是已经知道功能了的:分别编码β-半乳糖苷酶6及生长素流出载体，另外的3个编码假设蛋白。剩下的12个ESTs在非冗余蛋白数据库中没有相匹配的区域。

我们检测了在甘蔗和高粱常染色质区域中重复序列的含量。高粱基因组含有61%的重复序列，但是大部分重复都在着丝粒及中心体周围的区域。在2Mb的区域内，甘蔗中检测到约25.5%的重复序列，高粱中大约有27.6%。两种植物的基因组含有相似数量的反转录因子(大部分为LTR-反转录转座子)，甘蔗中有16.9%，高粱中有16.5%。然而，在这些被分析的区域中，甘蔗中含有的Copia元件高于Gypsy元件(分别是3.5%和1.2%)，而在高粱中却是Gypsy元件高于Copia元件(分别是4.8%和1.2%)。在这些区域中显示出了高粱的DNA转座子高于甘蔗(分别是8.9%和5.9%) (表2)。

表2在甘蔗BACs中及在高粱中的同源染色质区域的重复序列的总结

在大约2 Mb的甘蔗序列中，约有5 Kb是简单重复。我们根据简单序列重复(SSRs)的侧翼序列设计出44对引物，用于遗传作图。36个SSRs成功扩增，并且有6个在S. officinarum LA Purple及S. robustum Molokai 5829 (我们的甘蔗图谱种群中所采用的亲本植株)间具有多态性(附件6)。

附件6来自于甘蔗BAC序列的44个SST标记单

1.3甘蔗和高粱同源序列的比较分析
与高粱常染色质区染色体臂相匹配的甘蔗BACs的选择，使得分析这两个密切相关的基因组间的微共线性成为可能。甘蔗BACs的209个基因的注释中，有178个(85.2%)是和高粱的基因同源匹配的，并且这些基因为甘蔗BAC的重叠群与高粱染色体的比对提供了固定位点。根据前面所描述的寡核苷酸探针，BAC SC79A20 的序列事实上是和1号染色体相匹配而不是和9号染色体相匹配的(表1)，这种比对错误是由于在最后的染色体组装中，几个scaffold的重排造成的。根据寡核苷酸探针位置的重排，所有其它的BACs与高粱染色体臂是完全匹配的。甘蔗和高粱间的大部分匹配区域都是共线的，然而许多小规模的染色体重排都已经被发现，其中包括所有的已知类型的染色体重排(图3; 表3)。因为删除和插入的次数太多而无法计数。在甘蔗(26 events)中出现的复制比高粱(14 events)中更加频繁。我们在甘蔗中发现了三个倒置，但是缺少一个类群来推断它发生在哪个基因组中。易位比倒置发生得更频繁，其中我们发现有7个易位及4个倒易位。

图3在甘蔗和高粱之间的匹配区域的重排a: 倒置 b: 高粱基因组中的反向重复 c: 高粱基因组中的重复 d 甘蔗基因组中的重复 e 易位

表3 甘蔗和高粱的匹配基因组序列间的染色体重排

高粱和甘蔗基因组序列的比对表明：在两个基因组中有局部的DNA序列被增加了(图4)。但是总的来说，高粱基因组在对齐区域上增加的更多些。在测序了的甘蔗BACs中，总长度为986 kb的区域与1 189 kb的高粱序列的比对表明了在高粱中增加了204 kb (20.7%)的序列，这很可能是由于反转录转座子的积累引起的。为了确定序列增加的可能原因，我们检测了两个对齐的区域，发现高粱序列增加了192.7% 甘蔗序列增加了47% (图4d ; 图5b)，两个物种间的基因区域是高的保守的，这通过出现的一系列相同大小，方向，结构，以及功能的同源基因而体现出来。然而，基因间隔区由于大量的转座子(包括还原转座子、DNA转座子、简单重复、以及着丝粒重复) (图5; 附件7)的存在而有着广泛的不同，这解释了高粱和甘蔗序列的增加的原因。

图4甘蔗和高粱中的基因组序列扩展

图5高粱和甘蔗间的两个同源区的组织

附件7高粱基因组扩展区域中的重复序列

在甘蔗和高粱基因组中都能够观察到串联重复基因。这些重复基因可根据与甘蔗及高粱的ESTs来比对的基因组序列来鉴定。例如，在高粱7号染色体上发现一个基因重复，而在甘蔗的相应区域的BAC118L15 重叠群12上却没有重复。在高粱中发现编码60S 核酸L10A蛋白的基因是三个串联重复，而在甘蔗中只有一个拷贝。另外，在甘蔗BAC 109D21 重叠群11-13-14中编码丝氨酸羧肽酶2的基因有重复，而在高粱相匹配的2号染色体中没有相重复。此基因在甘蔗中具有两个拷贝，而在高粱中只有一个。在另外一种情况中，甘蔗BAC108J08 中编码受体激酶的一个基因具有重复，但是在相应的高粱9号染色体上没有重复(附件8)。

附件8甘蔗基因组中已经证明了的基因串联重复

我们根据67对同源基因，估计这两个密切相关的并具有大量同源基因的甘蔗和高粱属在进化上的分化时间大约是在770万年前(表4)。

表4甘蔗、高粱和水稻间的分化时间的估计

1.4使用Sanger序列来验证454序列的组装
为了评估454 Flex 序列组装的质量，我们选择了两个BACs:SC172L01及 SC118L15来进行Sanger测序。在甘蔗和高粱间SC118L15似乎隐藏了大量的重排；SC172L01中有19个相对较短的重叠群来自于454阅读的序列，最长的不超过7Kb，并且分布于高粱基因组中不同区域的少数基因已经被注释。这两个BACs的 Sanger 序列阅读被分别组装到3个和6个重叠群中，多次尝试用引物步移法来弥合残留缺口之后，每一个会都发现比454序列序列的从19个重叠群减少到了12个。这两个BACs的Sanger 序列也和SC172L01中的大约为80 Kb的插入片段，及SC118L15中60Kb的插入片段相匹配，然而，对于两个454BACs装配的454重叠群分别是52.4 kb 及101.7 kb (表1)。

Sanger序列和454序列间的比对显示出了各自组装中丢失的序列。SC172L01的片段不在454重叠群内，但是所有被组装的SC118L15的Sanger序列都在454重叠群中出现，其中还包括一些Sanger序列以外的序列(图6)。可能是由于我们不能弥合的5个缺口处的序列的原因，Sanger 及454序列与高粱序列对比后绘图同样表明了SC118L15的454序列比其BAC的Sanger序列更完整(附件9)。SC172L01的Sanger序列比454重叠群更加完整，而454重叠群序列在82kb的插入片段中只覆盖了54.3 kb (图6a附件9)，这就使得我们可以鉴别和注释出一个额外的基因以及更多的通过甘蔗ESTs验证了的少量反转录酶基因。这两个甘蔗BACs重叠群有41.8%的重复序列，比在甘蔗同源区间中的29.0%重复序列要高(附件10)。

前面所描述的SC172L01的454序列有19个短重叠群(每个重叠群少于8kb)和6个基因，其中包括4个反转录酶基因。令人费解的是这6个基因和高粱基因组的不同区域相匹配。更加完整的SC172L01 Sanger 序列允许我们将之与高粱基因组进行比对，表明了这两个种在分化之后有染色体的重组。BAC SC172L01 和高粱10号染色体有很大的匹配度，但是其中的一部分序列和8号和9号染色体相匹配(图6c,d ; 附件9)。虽然SC1185L15的Sanger 序列不如454序列完整，但是来自于Sanger 阅读的组装进一步证明了其BAC隐藏了局部染色体的重组(图6e)。

图6两个BACs的Sanger 序列和他们的454序列与直系同源高粱序列间的序列比对

附件9对于BAC SC118L15和 SC172L01的454 FLEX组装, Sanger 组装和相匹配的高粱区域间的点路线图

附件10在甘蔗BACs, SC1185L15和SC172L01中的重复序列, 及高粱中的直系同源的常染色质区域的总结

2讨论
由于甘蔗染色体数目大(通常大于100)及倍性高，其高密度遗传图谱和物理图谱的绘制都被证明是一个非常有挑战性的任务。目前，还没有人做出覆盖其所有染色体的物理图谱和完整的遗传图谱需要尝试其它不同的方法，以为潜在的甘蔗基因组测序项目做准备。我们的结果表明高粱基因组是甘蔗常染色体序列组装的良好模板。组合的454 BAC序列的最初组装显示出比预测插入片段的大小增加了40%，这可能是由于重复序列的大量组装造成的。用同源基因作为锚定位点将这些序列和高粱基因组比对之后，有78.2%的甘蔗BAC重叠群的序列能够被清楚地排序，并有53.1%的甘蔗BAC序列和高粱基因区域相匹配。不匹配的序列是由重复的以及不编码的序列组成的。

至少在基因区域中，高粱基因组被用来作为甘蔗基因组序列组装模板的适合性，将是甘蔗基因组测序中的关键策略。目前通过BAC或者是全基因组鸟枪测序的方法测序后的BAC需要一个理想的每Mb两个标记的高密度遗传图谱和一个基因组覆盖范围为10倍的物理图谱。对甘蔗来说，唯一可以得到的BAC库是构建自商业化杂交品种R570的1.3X基因组覆盖范围(Tomkins et al., 1999)。一个覆盖范围为10倍的BAC文库的构建需要100万个平均大小为10 kb的插入片段的克隆，这是一项非常耗材耗力的任务。一个高密度的遗传图谱的构建需要在R570的115条染色体上作20 000个标记，并且这些标记是序列组装中有用的序列标签，而不能用匿名标签如扩增片段长度多态性标记(AFLP)。在过去的20年中，已经构建了13个甘蔗图谱，其中每个图谱都只覆盖了基因组的一部分，标记都小于2 000个，并且在最新构建的图谱中主要是AFLP标记(Hoarau et al., 2002; Ming ea al., 1998;Ming et al., 2005; Aitken et al., 2006)。幸运地，随着测序速度的加快和测序成本的快速降低。以高粱基因组作为组装的模板，甘蔗基因组草图很可能在非常高的密度遗传图谱(2个标记/Mb)以及物理图谱的产生之前产生。

甘蔗基因组自从与高粱的共同的祖先出现分化开始，至少经过了两轮基因组的加倍而变成八倍体。在两个野生物种S. robustum (x = 10) 和S. spontaneum (x = 8) 分离后这两轮加倍就已经发生了(D'Hont et al., 1995; D'Hont et al., 1996; D'Hont et al., 1998; Ha et al., 1999)，因为在200万年前，这两个物种有着不同的基本染色体数(Jannoo et al., 2007)。虽然每个八倍体有8个基因组，但是要区分出每个基因组是不可能的，并且每个基因组都是八个基因组中不可缺少的部分。尽管甘蔗的大多数遗传图谱中会观察到一些偏向配对的现象，每个染色体在减数分裂过程中是自由地和另外的7个同源染色体配对及重组的(Ming et al., 1998; da Silva et al., 1995)。正因为如此，要辨别最近两轮基因组的加倍和BAC克隆作为在八倍体中任一一基因组中的最好代表也是不可能的。杂交品系R570的染色体数为2n=115，有12个潜在的基因组。我们从与20个不同的染色体臂相匹配的20个常染色质区域中(由于空白克隆和错放的BAC，最后只有18个臂)选择出一个对应的BAC，代表12个基因组中的一个。我们发现，在甘蔗的测序片段中比在相匹配的高粱同源区域中有更多的基因(分别是209和202)，并且假设的甘蔗特有基因比高粱特有基因多(分别为17和12)。在19个最初注释的甘蔗特有基因中，有2个在高粱基因组的其他地方有同源序列，其余的17个更可能是甘蔗特有基因。所有假定的17个甘蔗特有基因是通过甘蔗ESTs来验证的，然而，在12个高粱特异基因中，只有一个是通过高粱ESTs验证。此外，17个甘蔗特有基因中12个在GenBank的非冗余蛋白数据库中没有相匹配的表达蛋白，这说明他们可能与甘蔗特有的反应过程有关。尽管我们已经用植物重复数据库来屏蔽掉了BACs的重复序列，但是由于我们没有一个甘蔗特有的重复数据库，这些基因可能是一些低拷贝的转座子。

甘蔗EST项目组(SUCEST)得到了一个包含来自26个不同cDNA文库的237,954个ESTs的数据库，这些ESTs是组装成了 33,620个unigene (Vettore et al., 2003)。19个甘蔗BACs中，209个已经注释的基因中有74.2%是通过这个EST数据库的验证，然而202个高粱的已经注释的基因中只有60.4%的基因是高粱ESTs来验证的。因为在广泛的组织中及不同发育阶段，多倍体生物的每个基因的大量多等位基因(在杂交甘蔗中为12)形式将有更多的机会形成特定的等位基因而得到测序，所以多倍体生物的EST数据库比相应的二倍体生物有更高的基因百分比是一个普通的规律。然而，更多的等位基因并不意味着一定增加一个特定基因在任何类型组织和发育阶段的表达机会的增加，例如我们做的涉及到47个预测基因的RT-PCR实验中只发现了两个发育阶段的特有基因。

甘蔗亚族包括三种主要的生物燃料植物，甘蔗，细叶芒和高粱。甘蔗和细叶芒关系非常近，都属于甘蔗属。高粱是在甘蔗属之外与他们关系最近的植物(Daniels et al., 1987)。我们估计在770万年前甘蔗和高粱具有共同的祖先，Jannoo等认为在800~900万年前他们是一个品系的(Jannoo et al., 2007)。因为细叶芒是属于甘蔗属的，因此这个时间框架也能够用于细叶芒。

大多数BAC序列和高粱序列比对下来都是共线的。然而，有一个BAC (172L01)和高粱多个染色体都是匹配的，表明了在甘蔗和高粱的基因间有大规模的染色体重排。许多甘蔗和高粱基因组的局部小规模的重排也都被检测到了。在这两个物种间的染色体内部及跨染色体的序列重排，表明了他们在800万年前分化后的进化历史。根据甘蔗BAC的序列，我们提出了R570中可能有12个基因组的观点。阐述甘蔗同源区间内的重排，虽然应该很少，是更有趣的。

R570的2C基因组的大小约为10 Gb，在115条染色体中每个染色体的平均大小为87 Mb，比高粱中每条染色体的73 Mb要大(Paterson et al., 2009)。然而，我们的数据表明，与甘蔗同源序列相比，由于反转录转座子的积累，高粱序列似乎被增加了，与流式细胞仪所估计的基因组大小相矛盾。如果我们所观察到的能够真实地反映这两个基因组的特征，那么甘蔗的基本基因组(x = 10 or x = 8)可能比高粱的要小。序列的直接比较和基因组大小估计的差异可能是由于液式细胞仪过高地估计了基因组的大小造成的，水稻和杨树的基因组测序证明了这点(International et al., 2005; Tuskan et al., 2006)。通过454 Flex产生的甘蔗BACs的重复序列的不精确组装也可能造成差异。而且，我们所研究的甘蔗BACs的小样本抽样调查不能够代表全基因组。

几千年以前，就有甘蔗的种植并逐步改良，其经历了史前最初自然变化的选择以及后来的杂交及基因工程现代技术的选择。在上个世纪中，已经通过

基因组学与应用生物学

• 第 29 卷