山东主要栽培苹果基因组重测序及SNP芯片位点挖掘

段乃彬<sup>1</sup> 研究员; 马玉敏<sup>1</sup>; 王坤<sup>2</sup>; 王效睦<sup>1</sup>; 谢坤<sup>1</sup>; 白静<sup>1</sup>; 杨永义<sup>1</sup>; 蒲艳艳<sup>1</sup>; 宫永超<sup>1</sup>

研究报告/Research Report

山东主要栽培苹果基因组重测序及SNP芯片位点挖掘

段乃彬¹

, 马玉敏¹

, 王坤²

, 王效睦¹

, 谢坤¹

, 白静¹

, 杨永义¹

, 蒲艳艳¹

, 宫永超¹

1山东省农作物种质资源中心, 济南, 250101;
2中国农业科学院果树研究所, 兴城, 125100

作者

通讯作者
《分子植物育种》网络版, 2020 年, 第 18 卷, 第 53 篇
收稿日期: 2020年11月19日接受日期: 2020年11月20日发表日期: 2020年11月27日

推荐引用：

段乃彬, 马玉敏, 王坤, 王效睦, 谢坤, 白静, 杨永义, 蒲艳艳, 宫永超, 2020, 山东主要栽培苹果基因组重测序及SNP 芯片位点挖掘, 分子植物育种(网络版), 18(53): 1-11 (doi: 10.5376/mpb.cn.2020.18.0053) (Duan N.B., Ma Y.M., Wang K., Wang X.M.,Xie K., Bai J., Yang Y.Y., Pu Y.Y., and Gong Y.C., 2020, SNP mining by genome resequencing of 30 apple varieties in Shandong Province, Fengzi Zhiwu Yuzhong (Molecular Plant Breeding (online)), 18(53): 1-11 (doi: 10.5376/mpb.cn.2020.18.0053))

摘要

为促进苹果品种快速鉴定、种质资源评价及选择利用，本研究对山东省31个栽培苹果开展了重测序及SNP位点挖掘研究。样品经Hiseq 4000平台建库测序，净数据量为363 G。平均样品覆盖度达到16.29×；充分满足重测序分析及SNP位点挖掘的需要。错配率比较试验发现随着错配率逐渐升高，比对率逐渐升高至饱和。其中总比对率、成对数据比对率及单端数据比对率与错配率呈现显著相关，均符合一元四阶方程(回归系数R>0.99)。随着错配率提高，比对严谨度降低；基因组覆盖度逐渐升高，杂合位点准确度逐渐提高。采用两种算法所得到的位点，根据‘染色体+位点信息’作为特征值取交集，得到高可靠的单碱基SNP位点数据集：共检测到374 404个变异，平均每隔1 896个位点能够检测到一个变异，桑格验证试验准确度高达98.1%。SNP的功能注释分析结果显示在全部373 763个位点中有143 269个(38.27%)位于基因间区，25 047个(6.7%)位于基因编码区，179 426个(47.92%)位于基因上游-下游的2 kb区域。在所有编码区SNP里面，有13 422个是非同义变异位点，11 625个是同义变异位点。两种SNP比率为1.15：1。进一步利用过滤的4DTV位点，采用邻接算法构建的聚类分析结果符合我省栽培苹果分类的趋势。

关键词

栽培苹果；重测序；SNP位点开发

SNP Mining by Genome Resequencing of 30 Apple Varieties in Shandong Province

Duan Naibin 1*　Ma Yumin 1　Wang Kun 2　Wang Xiaomu 1　Xie Kun 1　Bai Jing 1　Yang Yongyi 1　Pu Yanyan 1　Gong Yongchao 1

1 Shandong Centre of Crop Germplasm Resources, Shandong Academy of Agricultural Sciences, Ji’nan, 250101; 2 Fruit Research Institute, Chinese Academy of Agricultural Sciences, Xingcheng, 125100

* Corresponding author, duannaibin@gmail.com

Abstract　In this article, we carried out genome resequencing and SNP mining for cultivated apples in Shandong Province, for the sake of the rapid identification of apple varieties, germplasm evaluation, and utilization. Genomic DNA was extracted immediately from leaves of each sample, and Paired-end Illumina genomic libraries were prepared and sequenced on an Illumina Hiseq 4000 platform following the manufacturer's instructions. Resequencing of the 31 apple genomes generated a total of 363 Gb high-quality cleaned sequences, with an average of 12.5 Gb per accession that represented approximately 15.9x coverage of the apple genome. The data volume fully meets the needs of downstream analysis and SNP mining. When we used the nucleotide mismatch parameter from 1-12, the mapping rate gradually increased to saturation. There was a highly significant correlation (P<0.0001) between the total mapping rate, mapping rate of pair-end data, and mismatch parameter. Univariate fourth-order equation (regression coefficient r > 0.99) were predicted. As the mismatch rate increases, the accuracy of mapping decreases; the genome coverage gradually increases, and the accuracy of heterozygous sites gradually increases. In this study, the SNP mining was obtained by the two algorithms, and the intersection was further taken based on the 'chromosome+site information' as the eigenvalues to obtain a highly reliable single nucleotide variant dataset. A total of 374 404 SNP locus were detected. On average, one mutation can be detected every 1 896 loci. The accuracy of the Sanger verification test is as high as 98.1%. Annotation analysis shows that among the 373 763 SNPs, 25 047 (6.7%) are located in the gene coding region, 143 269 (38.27%) are located in the intergenic region, and 179 426 (47.92%) are located in the 2 kb region upstream or downstream of the genes. Among the coding region SNPs, 13 422 are non-synonymous mutations, and 11 625 are synonymous mutations. The ratio of non-synonymous to synonymous SNP is 1.15: 1. Using filtered 4DTV sites, clustering analysis results constructed by neighbor-joining algorithms are in line with the trend of the classification of cultivated apples in Shandong province.

Keywords　Cultivated apple, Genome resequencing, Development of SNP markers

苹果是产量位居前列的重要水果之一。2019年全球苹果产量超过8.314×10¹⁰ kg，其中中国产量4.139×10¹⁰kg (数据来自联合国粮农组织统计数据库, http://www.fao.org/faostat/zh/#search/apple)，占50%以上。山东省苹果产量多年稳居中国前列(占25%以上)；同时又是苹果种质资源大省，在苹果种质资源搜集、创新及新品种选育方面全国前列。

基因组学是作物遗传育种研究的基础。苹果因其重要性，其基因组研究已经取得了长足发展。苹果基因组先后经历4次组装测序(Velasco et al., 2010; Li et al., 2016; Daccord et al., 2017; Zhang et al., 2019)，是全基因组组装进展最快的果树作物之一。近几年，利用重测序技术已对全球的苹果种质资源开展了群体基因组学及群体遗传学研究，由此阐明了苹果的驯化机理和进化机制；基因组学及生物信息学展现出在种质资源挖掘创新方面的强大潜力(Duan et al., 2017; 段乃彬, 2017; 贾东杰, 2018)。

从种质资源研究角度看，基于重测序的群体群体基因型鉴定为果树种质资源保护、鉴定评价及创新利用提供了新的研究思路。基因组学在高通量、大数据及全基因组关联分析方面有独特优势(陈学森等, 2015; 陈璇等, 2018)。为开展栽培苹果近缘种质资源的高通量基因型鉴定，应将基因组学及生物信息学结合，进而构建相应的SNP信息和相应注释信息的数据库，在苹果组学育种上面有很好的应用前景。而在后基因组时代，SNP芯片因其独特优势，代表了低成本基因分型的方向。目前中国已有小麦、玉米、大豆、水稻和棉花等大田作物及部分十字花科蔬菜作物开展了SNP芯片应用或开发研究。尤其在小麦，贾继增等构建了基于Affimatrix平台的660 k高分辨率小麦SNP芯片，这些芯片在种质资源鉴定评价、群体基因分型、关联分析或功能基因定位及分子标记辅助育种方面均展现了不可低估的应用前景(Zhou et al., 2018)。与重测序技术相比，芯片技术分析流程简单，不需进行参考基因组比对实现高通量、检测准确性很高99.9%以上；检测费用相对低廉：大约100万位点的芯片(每个样本的)检测费用在1 000元人民币左右。在苹果芯片研究上，有研究者先后创制了8K、20K及480K三种SNP芯片，并针对欧美主要的栽培苹果开展了基因分型和关联分析的应用(Chagné et al., 2012; Bianco et al., 2014; Bianco et al., 2016)。

中国已经开展SNP芯片位点开发的果树仅见于草莓、梨及桃；其芯片分辨率分别为90K，200K和9K (Verde et al., 2012; Bassil et al., 2015; Li et al., 2019)。苹果作为重要果树，其育种急需针对性较强、低成本及高通量的基因分型手段。而针对中国特有苹果品种的SNP芯片研究尚未开展。本研究在已开展重测序的研究基础上，进行了SNP芯片位点挖掘研究。一方面可用于苹果品种快速鉴定、种质资源评价及选择利用；又可用于全基因组关联分析、功能基因定位及分子标记辅助育种。

1结果与分析

1.1测序数据量

原始数据下机后，经过去除接头Adapter序列及PCR建库导致的重复读段，最后得到净数据量363 G。以苹果基因组720 M碱基对计算，得到基因组覆盖度最高21.02×，基因组覆盖度最低10.63×，平均样品覆盖度达到16.29×；充分满足重测序分析及SNP位点挖掘的需要(表1)。

表1 测序数据量

Table 1 Statistics of apple genome resequencing for each accession

1.2错配参数对数据比对率的影响

以C18-06A样品元帅(青岛一号)为例，针对BWA软件要求的错配率参数mismatch：即数据读段与参考基因组的允许错误匹配碱基的数值，因为本研究测序读长为150 bp，本研究该参数值从1 (0.66%)增加到12 (8.00%)，分别得到一系列比对文件。再利用SAMtools的flagstat功能来统计全部读段数据、成对数据及单端数据比对率的具体情况(表2; 图1)；首先随着错配率逐渐升高，比对率也逐渐升高，但是升高的趋势逐渐减低，直至接近饱和。

表2 错配参数对比对率的影响

Table 2 The effect of mismatch parameters on the mapping rate

图1 错配参数对总数据, 成对数据及单端数据比对率的影响

Figure 1 The effect of mismatch parameters on the mapping of total data, paired data and single-ended data

全部读段数据和pair-end数据对比对率呈现逼近饱和的趋势(图1)，而单端数据比对率逐渐降低至一个最低值。其中总比对率Total Mapping Rate与错配率的变化趋势呈现正相关，符合四阶方程：y=-3E-05x⁴+0.0011x³-0.0145x²+0.0864x+0.7418，回归系数R² = 0.9995；成对读段的比对率Paired Mapping Rate与错配率的变化趋势呈现正相关，符合四阶方程：y = -3E-05x⁴ + 0.0012x³ - 0.0149x² + 0.0863x + 0.7126，回归系数R² = 0.9994；最后，单端比对率Single-end Mapping Rate与错配率的变化趋势呈现负相关，符合四阶方程：y = 2E-06x⁴ - 7E-05x³ + 0.0009x² - 0.0054x + 0.0212，回归系数为R² = 0.9993。

1.3错配参数对SNP位点真实性的影响

接下来又比较了不同错配参数对位点检测准确率的影响，以11号染色体Chr11为例(图2)：随着允许错配率的增加，在如图的Chr11区域，可比对的数据逐渐增多，测序覆盖度从11逐渐增高至19，在低覆盖率下呈现纯合的位点，在高覆盖度下都被检测为杂合位点，这说明错配率的增加有利于杂合位点的检测。可见随着错配率提高比对严谨度降低；基因组覆盖度逐渐升高，更有利于杂合位点的检测。很多植物具有远缘杂交、自交不亲合、较高的基因组杂合度及广泛的遗传漂变等特点；如苹果属，芸薹属，玉米等作物。对于此类作物的SNP位点挖掘，一方面需要提高测序在全基因组有数据覆盖，另一方面是选择一个最合适的错配参数；对于杂合度较高的作物的SNP位点挖掘有借鉴意义。

图2 错配参数对杂合SNP位点检测的影响

Figure 2 The effect of mismatch parameters on accurate of heterozygous SNP genotyping

1.4两个分析流程下的位点比较及整合

按照二代测序标准流程结合BCFtools工具即：bwa-sam-bam-pileup-bcfools算法，总共检测到28 997 212个变异，包括单碱基SNP 26 758 563个，短插入short insert 1 060 691个，短缺失short deletion 1 177 95个。该算法可检测各种类型变异，故而变异检测灵敏度较高，平均每隔27个位点能够检测到一个变异。

按照二代测序标准流程结合自主开发的in-house算法即：bwa-sam-bam-pileup-column算法共检测到1 147 801个变异，该流程算法是针对单碱基SNP的检测，这些变异均为单碱基SNP，故而变异检测灵敏度较低。平均每隔618个位点能够检测到一个变异。

结合两种算法所得到的位点，根据‘染色体+位点信息’作为特征值进一步取交集，则得到高可靠的单碱基SNP位点数据集，此位点数据集。共检测到374 404个变异，由于是取交集，同样这些变异均为单碱基SNP。平均每隔1 896个位点能够检测到一个变异。对1 000个随机选择的同源SNP设计引物并进行PCR扩增，再对扩增产物Sanger测序，结果表明所选择的SNP位点在两中测序平台的符合度为98.1%。

1.5 SNP位点在基因组的分布

SNP的功能注释分析表明结果显示，在全部373 763个SNP位点中有143 269个(38.27%)位于基因间区，25 047个(6.7%)位于基因编码区，143 269个(38.27%)位于基因间区，179 426个(47.92%)位于基因上游或-下游的2 kb区域。在所有编码区SNP中里面，有13 422个是非同义突变变异位点，11 625个是同义变异位点突变(表3; 图3)。非同义与同义SNP的比两种SNP比率为1.15：1。非同义SNP，又称错义SNP，从编码一种氨基酸变为另一种氨基酸而形成表型修饰；同义SNP又称沉默突变，虽有碱基突变，仍编码同一种氨基酸而不能形成表型修饰。苹果与其他栽培大田作物和果树作物相比较，其基因组上可形成对应表型修饰的变异比例较低(Duan et al., 2017)。

表3 不同基因类型及区域的SNP数

Table 3 Number of effects by type and region

图3 在不同基因区域SNP分布情况

Figure 3 Number of effects by region

1.6群体聚类进化树的构建

该进化树是用最小进化法推导得到(图4)。图上显示的是分支长度总和为0.7665的最佳进化树，该树是参照进化距离的比例而绘制。从整体上看，该系统进化树显示、本研究采集的山东省主要栽培苹果主要分为富士、元帅、金冠(金帅)、嘎啦四大类型及其他杂交组合。值得一提的是：(1) C18-23样品是在新疆野苹果实生选育的野生资源，在进化历史上最早发生分歧；(2) C18-2、C18-3、C18-4、C18-5及C18-6，依据资源圃提供的信息这些样品均为元帅系，在本试验中也成功的聚在一起。类似的，C18-8、C18-9、C18-10、C18-11、C18-12、C18-13-1及C18-13-2，依据资源圃提供的信息这些样品均为富士系，在本试验中也成功的聚在一起。以上样品系谱及原产地信息均来自自中国农业科学院果树研究所国家苹果资源圃(兴城)，该资源圃对这些种质资源有着多年准确的系谱资料登记在册。这个结果间接证明了本试验SNP数据的可靠性；(3)其余样品的聚类结果也均符合预期。

图4 利用4DTV位点构建的山东栽培苹果聚类图

Figure 4 Evolutionary relationships of taxa

2讨论

2.1错配率的评估

本研究通过对一系列错配参数的比较分析，发现伴随错配率的上升，可比对到基因组的读段Reads数目逐渐增多，呈现逐渐饱和的趋势。错配率增至一定程度下有利于提高测序覆盖度，有利于位点挖掘。但是在接近饱和情况下无限度增高错配率，是毫无意义的。

如是，本研究为进一步确定适应于不同样本的最佳Bwa比对mismatch参数(Li and Durbin, 2009)，项目组成员自主研发了一种择定最佳比对错配率参数的方法：首先从NCBI (Pruitt et al., 2005)下载栽培苹果参考基因组序列，建立该苹果的本地Blast数据库。然后在测序数据中随机抽取1 000条读段进行本地Blast，在Blast结果中对mapping ratio排序，后统计第550条read的Identity相似度，由此确定BWA的mismatch参数。

最佳mismach参数的大小一定程度衡量了参试样品相对于参考基因组的亲缘关系的远近。如参试样品23号是由新疆野苹果(M. sieversii in Xinjiang)与红肉苹果(Malus domestica 'Redlove Era')杂交的新品种，遗传关系上距离参考基因组苹果Golden Delicious (M. domestica)最远，相应的我们运算得到的其mismach参数最大，为7；而参试样品1号与参考基因组同属金帅系，亲缘关系最近，相应的我们运算得到的其mismach参数最小，为4。

这个最佳比对错配率择定的方法在前文中已被采用(Duan et al., 2017; 段乃彬, 2017)。择定准确的mismatch参数一方面能获得足够高的测序覆盖度，保证位点准确性；另一方面能够在最小运算量下使尽量多的读段得到比对，避免了过度运算，提高分析效率。

2.2数据整合的必要性

为增强SNP位点的可靠性，本研究将新取材的31个样品的测序数据与前文已经测序的23个栽培苹果测序数据进行了数据整合(Duan et al., 2017; 段乃彬, 2017)，数据整合的目的：一是增强位点的可靠性，二是可以比较省内栽培苹果群体与国外栽培苹果群体之间的多态性进行比较(另撰文发表)。

增大参试样本数量，进行数据整合具有如下优点：提高了样品的多样性；由于前文重测序所涉及全球范围内的23个主要栽培苹果类型；另一方面提高了挖掘位点的可靠性；通过整合实际上是用大数据集的多样性来考量子集的多样性；增强了所选位点的未来适用范围。

2.3高杂合物种的SNP检测策略

首先，对于杂合比较高的物种，其基因组的组装存在一定难度，相应的组装质量普遍不高，如已发表的多个果树基因组杂合度较高。目前二代测序广泛使用，当利用读长100~150 bp的reads组装到Contig时，高杂合度的基因组contig之间的overlap关系不容易明确，从而导致N50偏低，基因组上会产生大量的不能叠连的区域(gap) (Pryszcz and Gabaldón, 2016)。相应的，当使用二代测序进行SNP检测的时候，则需要尽量高的测序深度、尽量长的读段reads，如目前广泛采用的hiseq4000平台。本研究的平均测序深度就达到了16 X，读长均为150 bp。基于以上策略，本研究SNP位点经过一代Sanger测序，符合度高达98.1%。这高于玉米、棉花群体重测序SNP位点的准确率，而这两种作物具有良好的遗传学研究基础，其基因组组装质量优于苹果。

再者，增加错配率下进行比对，会有更多位点被检测为杂合位点，这说明在高覆盖度有利于杂合位点的检测。很多植物因远源杂交、自交不亲和等因素，具有较高的基因组杂合度，存在明显而广泛的遗传漂变；如苹果属(Malus Mill.)，芸薹属(Brassica)，玉米等作物。对于此类作物的SNP位点挖掘，一方面需要提高测序在全基因组有数据覆盖，另一方面是选择一个最合适的错配参数。这对于杂合度较高的作物有借鉴意义。

最后，在位点择定方面，应采用改进的算法。尽量避免只使用一种检测流程，目前在既有的SNP检测流程中，其上游均采用BWA结合SAMtools的分析流程，即BWA-Sam-bam-pileup。只是在生成的pileup文件之后采用不同的算法来择定SNP，其文件格式以VCF、hapmap或者列表格式为主。此时采用两个或者两个以上的分析流程，将生成的数据归一化为VCF文件，在利用染色体的坐标信息取交集则可获得可信度较高的位点。

3材料与方法

3.1品种搜集

本研究取材31个栽培苹果品种，类型广泛，涵盖了四大苹果品系富士系、元帅系、金冠系、嘎啦系及一些新的杂交品系，样品系谱及原产地信息来自中国农业科学院果树研究所国家苹果资源圃(兴城)；囊括了山东省主要栽培苹果的接穗类型。从取材地域看，取材地域范围遍及山东全省主要苹果栽培种植地区。从系谱信息看，实验取材在多样性方面具有足够的代表性(表4)。

表4 样品的取材地及品系信息

Table 4 List of variaties in this study with habitat and pedigree information

在2018年6月15日~20日，其中大多数采集当年生顶梢叶片样品取回后立即液氮处理，唯有23、25、26三个样品的叶片为硅胶干燥。所有叶片样品按照标准DNB提取方法，所提取的DNA样品经过琼脂糖凝胶检测质量，符合测序要求后再经双末端PE150策略建库，并交付华大科技(BGI)在Hiseq-4000平台完成测序。

3.2测序数据的预处理及统计分析

原始数据需先经过一个Perl测序脚本(由本课题组研究团队编写)去除PCR导致的测序重复。具体的讲，对于具有不同测序位置信息ID的成对Reads，凡是Pair1或者Pair2在15~135 bp的区间同时出现完全一致的碱基数据即界定为PCR导致的测序重复，这样数据被过滤去除。命令行是：“drop_dup_both_end.pl raw_fq1 raw_fq2”。

已经去除PCR测序重复的数据再经Trimmomatic3.0软件过滤去除1、测序接头，2、低质量的读段。这样最后得到的是净数据。命令行是“trimmomatic PE -thReads 75 fq.1 fq.2”。

包括测序总数据量统计，测序深度统计，读段比对率统计及比对mismatch参数的确定。命令行是“fastqc -q trimmed_fq1 trimmed_fq2”。

3.3错配率的确定

以C18-06A样品元帅(青岛一号)为例，针对BWA软件要求的错配率参数mismatch：即数据读段与参考基因组的允许错误匹配碱基的数值，因为苹果存在远缘杂交，杂合度较高。因此本研究将该参数值从0.66%增加到8.00%，对应于150 bp读长则为1~12。分别得到一系列比对文件，用以比较比对率对覆盖度及SNP检测的影响。

为确定合适的BWA (Li and Durbin, 2009)比对mismatch参数，首先从NCBI (www.ncbi.genome.com)下载栽培苹果参考基因组序列，建立该物种的本地Blast数据库。在测序数据中随机抽取1 000条读段进行本地Blast，对Mapping ratio排序后统计第550条的相似度，由此确定BWA的mismatch值。

3.4测序数据比对及SNP位点挖掘

本研究以2017年发表的栽培苹果‘金帅’的基因组(Daccord et al., 2017)作为参考序列，用本试验采集的所有31个及前文(Duan et al., 2017)采用的23个栽培苹果，合计54个栽培苹果的重测序数据与参考基因组进行BWA (Li and Durbin, 2009)比对(mismatch为4~7不等)。经由SAMtools (Li et al., 2009)转换得到pileup文档。接下来采用两种不同流程检测SNP位点信息：(1) BWA-sam-bam-pileup-bcfools算法，利用SAMtools结合BCFtools转换Pileup文件得到各个样品VCF文件格式的SNP数据集。(2)按照二代测序标准流程结合自主开发的In-House算法即：bwa-sam-bam-pileup-column算法，得到类似hapmap的SNP数据集。(3)采用改进的交集算法：将以上两种方法得到的SNP位点信息基于染色体坐标取交集的方法，进而到更高高质量SNP位点。

SNP验证试验方法：本试验选取了6个参试样品，在11号染色体随机截取1 000个homogenous SNP位点(即非杂合)，以此为中心设计两侧50 bp序列。进而构建引物，进行PCR扩增实验。再将扩增产物经3730毛细管电泳进行一代测序验证。

3.5 SNP位点注释

SNPEff是一款强大的SNP注释软件。与其他注释软件相比较，其不仅能得到该突变位点所在的基因区域，还能得到突变所在基因区段的类型信息，这有利于后续的功能基因挖掘和定位。由于使用java平台，有较强的易用性，其手册http://SNPeff.sourceforge.net/SNPEff_manual.html对注释方法进行了非常详细的描述；本研究注释的命令行如下：

修改SNPEff软件设置：“vim userpath/SNPEff/SNPeff-4.3.1t-1/SNPEff.config”；添加基因组信息：“# apple genome version GDDH13 GDDH13.genome : Apple”；建立本地库：“SNPEff build -gff3 -v GDDH13”；SNP注释：“SNPEff -v -stats prefix.html GDDH13 prefix.vcf > prefix.ann”；运行输出的html文件是以网页形式呈现的位点注释结果的图表解释，而输出的ann文件是则是以文本列表方式列出了每一个SNP注释的详细结果。

3.6 4DTV位点的筛选及聚类分析

在基因的蛋白编码区上，有部分氨基酸所对应的第三位密码子可使用任意4种碱基，都不会形成氨基酸的改变，这样的位点被称作四重兼并位点(4DTV)。这种无意突变几乎没有选择压力，其突变率可以用作“时钟”来估计进化，特别适合构建进化树及群体遗传结构分析(Fazio et al., 2014)。本研究利用团队自己编写的Perl脚本，对整套SNP数据按如下规则在CDS区域进行位点筛选：最小等位基因频率(MAF)≥5%，且每个位点对应的数据缺失率≤10%，共筛选得到四重简并位点(4DTV) 24 326个。最后位点输入到Mega X软件，在第一搜索级别上使用了接近邻居交换(close-neighbor-interchange, CNI)算法(Kumar et al., 2018)。由此构建群体的系统发育进化树。

作者贡献

段乃彬、马玉敏是本研究的实验设计和实验研究的执行人；谢坤、白静、杨永义、蒲艳艳及宫永超完成数据分析，论文初稿的写作；马玉敏、王效睦及王坤参与实验设计，试验结果分析；段乃彬是项目的构思者及负责人，指导实验设计，数据分析，论文写作与修改。全体作者都阅读并同意最终的文本。

致谢

本研究由山东省科技厅省重点研发项目(项目编号2018GNC110031)和山东省农业良种工程—农作物种质资源收集保护与精准鉴定(项目编号2019LZGC017)共同资助。

参考文献

Bassil N.V., Davis T.M., Zhang H., Ficklin S., Mittmann M., Webster T., Mahoney L., Wood D., Alperin E.S., Rosyara U.R., Putten H.K.V., Monfort A., Sargent D.J., Amaya I., Denoyes B., Bianco L., van Dijk T., Pirani A., Iezzoni A., Main D., Peace C., Yang Y.L., Whitaker V., Verma S., Bellon L., Brew F., Herrera R., and van de Weg E., 2015, Development and preliminary evaluation of a 90K Axiom® SNP array for the allo-octoploid cultivated strawberry Fragaria× ananassa, BMC Genomics, 16(1): 155.

Bianco L., Cestaro A., Linsmith G., Muranty H., Denance C., Theron A., Poncet C., Micheletti D., Kerschbamer E., Di Pierro E.A., Larger S., Pindo M., van de Weg E., Davassi A., Laurens A., Velasco R., Durel C.E., and Troggio M., 2016, Development and validation of the Axiom® Apple480K SNP genotyping array, The Plant Journal, 86(1): 62-74.

Bianco L., Cestaro A., Sargent D.J., Banchi E., Derdak S., Di Guardo M., Salvi S., Jansen J., Viola R., Gut I., Laurens F., Chagné D., Velasco R., van de Weg E., and Troggio M., 2014, Development and validation of a 20K single nucleotide polymorphism (SNP) whole genome genotyping array for apple (Malus× domestica Borkh), PLoS One, 9(10): e110377.

Chagné D., Crowhurst R.N., Troggio M., Davey M.W., Gilmore B., Lawley C., Vanderzande S., Hellens R.P., Kumar S., Cestaro A, Velasco R., Main D., Rees J.D., Iezzoni A., Mockler T., Wilhelm L., Van de Weg E., Gardiner S.E., Bassil N., and Peace C., 2012, Genome-wide SNP detection, validation, and development of an 8K SNP array for apple, PLoS One, 7(2): e31745.

Chen X., Guo R., Wang L., Liu Y H., Guo M.B., Xu Y.P., Guo H.Y., Yang M., and Zhang Q.Y., 2018, SNP analysis of wild and cultivated cannabis based on whole genome re-sequencing, Fenzi Zhiwu Yuzhong (Molecular Plant Breeding), 16(3): 893-897. (陈璇, 郭蓉, 王璐, 柳延虎, 郭孟璧, 许艳萍, 郭鸿彦, 杨明, 张庆滢, 2018, 基于全基因组重测序的野生型大麻和栽培型大麻的多态性SNP分析, 分子植物育种, 16(3): 893-897.)

Chen X.S., Guo W.W., Xu J., Cong P.H., Wang L.R., Liu C.H., and Chen X.L., 2015, Genetic improvement and promotion of fruit quality of main fruit trees, Zhongguo Nongye Kexue (Scientia Agricultura Sinica), 48(17): 3524-3540. (陈学森, 郭文武, 徐娟, 丛佩华, 王力荣, 刘崇怀, 陈晓流, 2015, 主要果树果实品质遗传改良与提升实践, 中国农业科学, 48(17): 3524-3540.)

Daccord N., Celton J.M., Linsmith G., Becker C., Choisne N., Schijlen E., Van de Geest H., Bianco L., Micheletti D., Velasco R., Di Pierro E.A., Gouzy J., Rees D.J.G., Guérif P., Muranty H., Durel C.E., Laurens F., Lespinasse Y., Gaillard S., Aubourg S., Quesneville H., Weigel D., van de Weg E., Troggio M., and Bucher E., 2017, High-quality de novo assembly of the apple genome and methylome dynamics of early fruit development, Nat. Genet., 49(7): 1099-1106.

Duan N.B., 2017, Genomic analyses provide new insights into apple evolution domestication and genetic diversity, Dissertation for Ph.D., College of Horticulture Science and Engineering Shandong Agricultural University, Supervisor: Chen X.S., pp.37-72. (段乃彬, 2017, 栽培苹果起源、演化及驯化机理的基因组学研究, 博士学位论文, 山东农业大学园艺科学与工程学院, 导师: 陈学森, pp.37-72.)

Duan N.B., Bai Y., Sun H.H., Wang N., Ma Y.M., Li M.J., Wang X., Jiao C., Legall N., Mao L.Y., Wan S.B., Wang K., He T.M., Feng S.Q., Zhang Z.Y., Mao Z.Q., Shen X., Chen X.L., Jiang Y.M., Wu S.J., Yin C.M., Ge S.F., Yang L., Jiang S.H., Xu H.F., Liu J.X., Wang D.Y., Qu C.Z., Wang Y.C., Zuo W.F., Xiang L., Liu C., Zhang D.Y., Gao Y., Xu Y.M., Xu K.N., Chao T., Fazio G., Shu H.R., Zhong G.Y., Cheng L.L., Fei Z.J., and Chen X.S., 2017, Genome re-sequencing reveals the history of apple and supports a two-stage model for fruit enlargement, Nat. Commun., 8: 249.

Fazio G., Wan Y., Kviklys D., Romero L., Adams R., Strickland D., and Robinson T., 2014, Dw2, a new dwarfing locus in apple rootstocks and its relationship to induction of early bearing in apple scions, Journal of the American Society for Horticultural Science, 139(2): 87-98.

Jia D.J., 2018, Identification and validation of genes controlling apple fruit acidity and establishment of the genomic selection model, Dissertation for Ph.D., College of Horticulture China Agricultural University, Supervisor: Xu X.F., Han Z.H., and Zhang X.Z., pp.44-87. (贾东杰, 2018, 苹果果实酸度基因挖掘验证及基因组选择模型的建立, 博士学位论文, 中国农业大学, 导师: 许雪峰, 韩振海, 张新忠, pp.44-87.)

Kumar S., Stecher G., Li M., Knyaz C., and Tamura K., 2018, MEGA X: molecular evolutionary genetics analysis across computing platforms, Mol. Biol. Evol., 35(6): 1547-1549.

Li H., and Durbin, R., 2009, Fast and accurate short read alignment with Burrows-Wheeler transform, Bioinformatics, 25(14): 1754-1760.

Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., and Durbin R., 2009, The sequence alignment/map format and SAMtools, Bioinformatics, 25(16): 2078-2079.

Li X.L., Singh J., Qin M.F., Li S.W., Zhang X., Zhang M.Y., Khan A., Zhang S.L., and Wu J., 2019, Development of an integrated 200K SNP genotyping array and application for genetic mapping, genome assembly improvement and genome wide association studies in pear (Pyrus), Plant Biotechnology Journal, 17(8): 1582-1594.

Li X.W., Kui L., Zhang J., Xie Y.P., Wang L.P., Yan Y., Wang N., Xu J.D., Li C.Y., Wang W., van Nocker S., Dong Y., Ma F.W., and Guan Q.M., 2016, Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica), Gigascience, 5: 35.

Pruitt K.D., Tatusova T., and Maglott D.R., 2005, NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins, Nucleic Acids. Res., 33: D501-D504.

Pryszcz L.P., and Gabaldón T., 2016, Redundans: an assembly pipeline for highly heterozygous genomes, Nucleic Acids Research, 44(12): e113-e113.

Velasco R., Zharkikh A., Affourtit J., Dhingra A., Cestaro A., Kalyanaraman A., Fontana P., Bhatnagar S.K., Troggio M., Pruss D., Salvi S., Pindo M., Baldi P., Castelletti S., Cavaiuolo M., Coppola G., Costa F., Cova V., Dal Ri A., Goremykin V., Komjanc M., Longhi S., Magnago P., Malacarne G., Malnoy M., Micheletti D., Moretto M., Perazzolli M., Si-Ammour A., Vezzulli S., Zini E., Eldredge G., Fitzgerald L.M., Gutin N., Lanchbury J., Macalma T., Mitchell J. T., Reid J., Wardell B., Kodira C., Chen Z., Desany B., Niazi F., Palmer M., Koepke T., Jiwan D., Schaeffer S., Krishnan V., Wu C., Chu V.T., King S.T., Vick J., Tao Q., Mraz A., Stormo A., Stormo K., Bogden R., Ederle D., Stella A., Vecchietti A., Kater M.M., Masiero S., Lasserre P., Lespinasse Y., Allan A.C., Bus V., Chagne D., Crowhurst R.N., Gleave A.P., Lavezzo E., Fawcett J.A., Proost S., Rouze P., Sterck L., Toppo S., Lazzari B., Hellens R.P., Durel C.E., Gutin A., Bumgarner R.E., Gardiner S.E., Skolnick M., Egholm M., Van de Peer Y., Salamini F., and Viola R., 2010, The genome of the domesticated apple (Malus× domestica Borkh.), Nature Genetics, 42(10): 833-839.

Verde I., Bassil N., Scalabrin S., Gilmore B., Lawley C.T., Gasic K., Micheletti D., Rosyara U.R., Cattonaro F., Vendramin E., Main D., Aramini V., Blas A.L., Mockler T.C., Bryant D.W., Wilhelm L., Troggio M., Sosinski B., Aranzana M.J., Arús P., Iezzoni A., Morgante M., and Peace C., 2012, Development and evaluation of a 9K SNP array for peach by internationally coordinated SNP detection and validation in breeding germplasm, PLoS One, 7(4): e35668.

Zhang L.Y., Hu J., Han X.L., Li J.J., Gao Y., Richards C.M., Zhang C.X., Tian Y., Liu G.M., Gul H., Wang D.J., Tian Y., Yang C.X., Meng M.H., Yuan G.P., Kang G.D., Wu Y.L., Wang K., Zhang H.T., Wang D.P., and Cong P.H., 2019, A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour, Nat. Commun., 10(1): 1-13.

Zhou S.H., Zhang J.P., Che Y.H., Liu W.H., Lu Y.Q., Yang X.M., Li X.Q., Jia J.Z., Liu X., and Li L.H., 2018, Construction of Agropyron Gaertn. genetic linkage maps using a wheat 660K SNP array reveals a homoeologous relationship with the wheat genome, Plant Biotechnology Journal, 16(3): 818-827.

0.625

00120

《分子植物育种》网络版

• 第 18 卷