研究报告/Research Report

桃基因密码子使用模式及其偏好性分析  

李若愚2 , 张小丹4 , 马昕怡3 , 郭瑞1 , 颜少宾1 , 金光1 , 周平1
1福建省农业科学院果树研究所, 福州, 350013;
2福建农林大学农学院, 福州, 350002;
3福建农林大学生命科学学院, 福州, 350002;
4伊利诺伊大学厄巴纳-香槟分校, 厄巴纳, IL61801
作者    通讯作者
《分子植物育种》网络版, 2020 年, 第 18 卷, 第 50 篇   
收稿日期: 2020年11月04日    接受日期: 2020年11月04日    发表日期: 2020年11月04日
© 2020 BioPublisher 生命科学中文期刊出版平台
本文首次发表在 《分子植物育种》(ISSN1672-416X,CN46-1068/S)上。现依据版权所有人授权的许可协议,采用 Creative Commons Attribution License,协议对其进行授权,再次发表与传播。只要对原作有恰当的引用, 版权所有人允许并同意第三方无条件的使用与传播。
推荐引用:

李若愚, 张小丹, 马昕怡, 郭瑞, 颜少宾, 金光, 周平, 2020, 桃基因密码子使用模式及其偏好性分析, 分子植物育种 (网络版) 18(50): 1-9 (doi: 10.5376/mpb.cn.2020.18.0050) (Li R.Y., Zhang X.D., Ma X.Y., Guo R., Yan S.B., Jin G., and Zhou P., 2020, Analyses of codon usage patterns and codon usage bias in peach (Prunus persica), Fenzi Zhiwu Yuzhong (Molecular Plant Breeding (online)), 18(50): 1-9 (doi: 10.5376/mpb.cn.2020.18.0050))

摘要

为深入研究桃密码子使用特征,本研究基于桃(Prunus persica)基因组26 873个注释基因编码序列的GC含量特征、有效密码子数(ENC)和同义密码子相对使用频率(RSCU)等参数的计算,统计分析了桃基因组密码子的偏好性及其密码子使用模式。分析结果表明桃密码子使用具有偏好性,61个密码子中存在4个密码子TCA,ACA,GCA,GAA为桃最优密码子,它们均以A结尾。进一步统计桃与其它9种近缘蔷薇科植物的密码子使用频率,发现近缘种属的密码子使用规律具有一定相似性。研究同时发现桃基因组tRNA基因拷贝数与氨基酸及特定密码子的出现频度呈正相关。这些结果揭示了桃基因组密码子的使用模式,为相关密码子使用机制研究及基因工程改良提供了重要的参考。

关键词
桃;密码子使用模式;密码子使用偏好性

在生物体中同义密码子对应同一氨基酸。但这些同义密码子的使用频度不同,个别密码子被频繁使用,称为“密码子使用偏好性”现象(Plotkin and Kudla, 2011)。密码子使用的偏好性受到多种因素的影响,如DNA复制起始位点(Huang et al., 2009),蛋白质翻译效率(Zalucki et al., 2007),tRNA丰度(Olejniczak and Uhlenbeck, 2006),基因长度(Moriyama and Powell, 1998)等。密码子使用偏好性是由复杂的机制决定的,它反映了物种间的遗传差异。研究密码子偏好性对研究基因高效表达,预测新基因以及探究相关基因演化具有重要的参考价值(Wu et al., 2015)。随着基因组大规模测序时代的来临,越来越多的动植物基因组被破译,使得全面、系统地分析相关物种密码子偏好性成为可能。

 

桃(Prunus persica L.)是重要的落叶果树。由于其农艺性状多样,成花结果周期短,遗传连锁图谱精密,已成为果树学和遗传学研究的模式树种之一。目前桃基因组已测序公布,然而其密码子的使用偏好性研究还鲜见报道。本研究统计分析26 873个注释编码基因的序列特征和密码子规律,探究了影响桃基因组密码子使用的因素。所得结果为研究桃基因分子演化提供参考,也为进一步开展基因结构分析及基因工程改良研究提供帮助。

 

1结果与分析

1.1密码子使用参数分析

分析26 873个注释基因发现T3s,C3s,A3s,G3s含量的变化范围分别为5.1 %~70.3 % (平均38.9 %);1.7 %~83.5 % (平均26.8 %);2.7 %~57.5 % (平均31.8 %);0~72.5 % (平均28.1 %)。ENC值的变化范围为22.45~61 (平均52.5)。初步判定26 873个基因具有不同程度的密码子使用偏好性(表1)。

 

 

表 1 密码子组成及使用参

Table 1 Constitution and usage parameters of codon

 

利用CAI (密码子适应指数)评估同义密码子和密码子最优使用的匹配程度,结果表明CAI变化范围为6.2 %~59.2 % (平均20.2 %)。同时统计桃基因组编码基因GC3s以及密码子GC含量,其变化范围分别为13.8 %~90.1 %和23.9 %~73.4 %,平均值为42.8 %和45.4 %。进一步绘图展示26 873个编码基因密码子各自GC和GC3s含量(图1),发现整体趋势线偏离GC = GC3s斜线,证实桃密码子具有一定偏好性,这与前人结果中双子叶植物的密码子偏好性使用一致(Chiapello et al., 1998; Kawabe and Miyashita, 2003)。

 

 

图 1 26 873个编码基因密码子相应GC和GC3s分析

Figure 1 GC and GC3s analyses of codon use features from 26 873 protein-encoding genes

 

1.2 ENC-plot、PR2-plot分析分析密码子使用偏好性

统计有效密码子数,利用ENC-plot可以直观地展示了同义密码子使用的非均衡程度,衡量同义密码子的使用与随机选择的偏离程度。ENC其值介于20~61,最小值20表示每个氨基酸只使用同一种密码子,最大值61表示61个密码子均被使用,ENC值越低则密码子使用偏好性越强。以GC3s和ENC为横纵坐标,ENC-plot分析密码子使用偏好性是否是密码子第3位核苷酸变异(中性突变)的结果(Liu et al., 2012),结果显示有部分基因趋近理论趋势线,部分基因点偏离趋势线(图2)。该结果表明除核苷酸中性突变影响外还存在其他因素也同时影响着这些基因的密码子使用偏好性。

 

 

图 2 桃基因组编码基因ENC-plot曲线

注: 黑色散点代表单个基因, 曲线为理论趋势线

Figure 2 ENC-plot curve of peach genomic coding genes

Note: Black scatter means a single gene, and the curve indicates a theoretic trend

 

PR2-plot分析以A3s/(A3s+T3s)和G3s/(G3s+C3s)为横纵坐标,分析密码子第3位上核苷酸碱基组成情况,通过图中中心点(A=T; C=G)发出的矢量直观地显示偏离碱基的类型和偏离程度。通常情况下,若DNA双链的中性突变率和所受的选择压力没有偏差,A3s、T3s、G3s、C3s总体上遵循A3s = T3s和G3s = C3s规律,则在PR2-plot图中表现为基因聚集分布于中心处(图3)。但通过对桃所有基因的PR2-plot分析发现,基因整体表现出偏离中心点的趋势,即对密码子第3位碱基的使用存在偏好性。这表明桃密码子偏好性除了受已知的核苷酸中性突变影响外, 应该还受其它因素影响,如选择压力等。

 

 

图 3 桃基因组编码基因PR2-plot分析

Figure 3 PR2-plot analysis of peach genomic coding genes


1.3最优密码子分析

表中列出了全部基因的RSCU值(表2),RSCU>1的高频密码子共有27个,分别为TTT,TTG,CTT,ATT,GTT,GTG,TCT,TCA,CCT,CCA,ACT,ACA,GCT,GCA,TAT,CAT,CAA,AAT,AAG,GAT,GAA,TGT,TGA,AGA,AGG,GGT,GGA。其中23个以A/T结尾,4个以G/C结尾。其中偏好性最强的密码子为AGA,其RSCU值为1.85。如表中列出了根据ENC值划分的高表达库与低表达库的RSCU值(表3),根据二者差值RSCU>0.08的标准,共鉴定出CTA,CTG,ATA,GTA,TCA,TCG,ACA,ACG,GCA,GAA,TGA,CGT,CGA,CGG,AGT,AGC等16个高表达优越密码子,其中11个以A/T结尾,5个以G/C结尾。依据高频密码子与高表达优越密码子结果确定4个最优密码子,分别为TCA,ACA,GCA,GAA,它们均以A结尾。

 

 

表 2 同义密码子使用情况

Table 2 Usage of synonymous codon

注: *: 高频密码子

Note: *: High frequency codon

 

1.4比较桃与蔷薇科近缘物种的密码子使用频率

不同物种间密码子使用偏好性是不同的。Pearson相关性分析10个物种61种密码子使用频度以衡量各物种密码子使用方式的相似性。计算结果表明苹果、桃、樱、梅(密码子使用频率)间的相关系数高于0.99,草莓属内5种作物(密码子使用频率)间的相关系数高于0.95,但苹果、桃、樱、梅与草莓属作物(密码子使用频率)相关系数普遍低于0.75。该结果间接表明苹果-桃-樱-梅密码子使用方式和频率近似,草莓属内5种作物密码子使用相似(图4)。根据结果推测苹果属Malus (如苹果M. x domestica)、梅属Prunus (如桃P. persica, 梅P. mume)和樱属Cerasus (如日本樱花C. x yedoensis)密码子使用规律相似,与草莓属Fragaria (如饭沼草莓F. iinumae, 日本草莓F. nipponica, 西藏草莓F. nubicola, 东方草莓F. orientalis, 凤梨草莓F. x ananassa, 森林草莓F. vesca)密码子使用有一定差别。

 

 

图 4 基于Pearson相关性分析10个近缘种的密码子使用频度

Figure 4 Pearson correlation analysis of codon usage frequency in 10 relative species

 

 

1.5 tRNA基因使用影响分析

生物体由于生命活动的需要能以最快的速度合成需要的蛋白质,通常高丰度tRNA与最优密码子具有对应性(Michaud et al., 2011)。研究证实每种氨基酸的转运最多需要五个具有不同反密码子的tRNA,它们被称为tRNA同工受体(tRNA isoacceptor),对应相同氨基酸的tRNA同工受体被划分为一个家族,每个物种tRNA同工受体的数量约为45~47个。在生物中,tRNA基因的数量可以很好地近似估算每个tRNA同工受体的丰度,进而与氨基酸频率及相关密码子的使用相关(Duret, 2000; Michaud et al., 2011)。

 

统计桃基因组中tRNA基因数量与26 873个蛋白中相应氨基酸的出现次数(氨基酸频度),观察到tRNA基因数量与氨基酸频度呈线性正相关(图5)。由于在生物体内大多数tRNA可以识别不止一个密码子,而某些密码子可以被不止一个同位受体tRNA识别,在假设密码子仅优先被一个tRNA异源受体读取的情况(即最小潜在密码子识别模式),统计分析桃基因组中tRNA同工受体基因数量与密码子使用之间的关系。结果表明,除去个别密码子,大部分密码子在编码基因中出现的总次数与相应的tRNA同工受体基因之间也存在一定线性相关性(图6; 表4)。综合考虑上述两个结果认为桃基因组tRNA基因的数量对氨基酸选用及密码子的偏好性具有一定的影响。

 

 

图 5 每种氨基酸特异的tRNA基因拷贝数与相应氨基酸出现次数之间的相关性

Figure 5 Correlation between the numbers of tRNA gene copies specific for each amino acid and the occurrence frequency of the corresponding amino acids 

 

 

图 6 桃基因组中tRNA同工受体的基因拷贝数与相应密码子出现次数之间的相关性分析

Figure 6 Correlation between the copy numbers of tRNA isoacceptor genes and the occurrence frequency of their corresponding codons

 

 

表 4 最小潜在密码子识别模式下tRNA同工受体基因数与密码子使用频率的关系

Table 4 The relationship between copy number of tRNA isoacceptor gene and codon frequency under minimal potential codon recognition pattern

 

2讨论

密码子偏好性广泛存在于多种生物中,是一种不可避免的复杂现象。目前密码子偏好性已经在细胞器,基因家族和全基因组范围内广泛被研究(罗洪等, 2015; 叶友菊等, 2018)。本研究基于桃基因组信息分析了密码子使用模式和可能的形成因素。桃基因组密码子特征的统计结果表明26 873个基因具有不同程度的密码子使用偏好性。ENC-plot与PR2-plot分析表明桃密码子偏好性在受到核苷酸中性突变影响的同时,选择压力也可能是影响密码子偏好性的重要因素。同时,基因的表达水平同样影响密码子的偏好性,分析鉴定得出的4个最优密码子TCA、ACA、GCA、GAA,均以A结尾,因此在基因工程翻译表达相关氨基酸时,可以针对性地选用最优密码子以获得更好的表达效果。此外,本研究发现桃基因组tRNA基因含量与相应氨基酸和密码子的使用频度具有一定相关性,从而证实基因组tRNA基因的含量也可能影响氨基酸及密码子的偏好性,该结果与拟南芥、水稻的相关研究报道一致(Michaud et al., 2011)。

 

总而言之,本研究的一系列分析为研究桃基因组密码子偏好性的潜在因素提供了基础且全面的理解。这些研究将对指导功能基因的外源表达具有重要意义(Zelasko et al., 2013)。研究密码子的偏好性和密码子使用频率有助于从另一视角了解相关物种的遗传演化规律。本研究结果表明蔷薇科苹果-桃-樱-梅(属核果类、仁果类,多年生木本)密码子使用方式和频率近似,草莓属内5种作物(属浆果类,多年生草本)密码子使用相似,但苹果-桃-樱-梅与草莓类差异相对较大,这符合植物形态学、系统分类学和分子进化学的一般认知,说明所检测的桃等10种蔷薇科植物近缘物种密码子使用偏好性和使用频率存在特定特征,亲缘性越近,物种密码子使用规律越类似。基于密码子特征的分析同样在分子水平也反映了物种演化关系。这些结果对蔷薇科及其它科属内近缘植物新编码基因预测以及外源基因工程改良提供重要的参考(Sharp and Cowe, 1991)。

 

3材料与方法

3.1基因序列信息

本研究选取的基因编码序列(CDS)和氨基酸序列均自Phytozome JGI数据库获得。所用序列文件为Ppersica_298_v2.1.cds.fa.gz与Ppersica_298_v2.1.protein.fa.gz。

 

3.2密码子偏好性参数的分析

CondonW 1.4.4 (http://codonw.sourceforge.net/)统计分析桃子CDS密码子的使用情况。(1)对密码子进行整体评价,分析密码子第3位上4种碱基A/ T/ C/ G的出现频率(A3s, T3s, C3s, G3s)、密码子的GC含量和第3位上GC含量(GC3s)等。(2)采用同义密码子的相对使用度(relative synonymous codon usage, RSCU)对密码子偏好性进行评价,并针对性统计有效密码子数(effective number of codon, ENC),计算密码子适应指数(codon adaptation index, CAI)。其中RSCU和CAI的计算参照Sharp和Li (1987)的方法。ENC的计算参照Wright (1990)的方法。

 

3.3 ENC-plot和PR2-plot分析密码子使用所受因素影响

ENC-plot分析桃密码子使用是否只受核苷酸中性突变影响,或者还存在其它因素影响。ENC值范围为20至61,与密码子使用偏差负相关。以相关GC3s为横坐标,ENC值为纵坐标进行ENC-plot作图分析。一般认为,当密码子偏好性仅受中性突变影响时,在ENC-plot分布图上基因将沿标准曲线或靠近预期曲线均衡分布,而如果密码子偏好性受其它非中性突变影响时,这些基因分布将显著偏离预期曲线。

 

以A3s /(A3s+ T3s)和G3s /(G3s + C3s)为横纵坐标进行PR2-plot作图分析。理论上认为:当DNA双链的中性突变率和所受选择压力无偏差时,四个核苷酸的出现频率总体上遵循A3s = T3s和G3s = C3s (其中A3s + T3s + G3s + C3s = 1) (Sueoka, 1995)。此时表现为A3s+ T3s = G3s + C3s,在PR2-plot图中应该处于中心点(A = T, C = G),即密码子使用偏好不受选择压力影响仅由中性突变引起。反之,基因分布不均匀,则说明选择压力可能存在。本研究利用PR2的偏差程度观察密码子偏好性是否受中性突变,选择压力或两者共同影响(Sueoka, 2001)。

 

3.4最优密码子的确定

参照文献(Liu and Xue, 2005)。根据CondoW计算获得的全部基因的RSCU值,将RSCU > 1的密码子定义为高频密码子。此后根据编码基因的ENC值对26873个编码基因进行排序,取前5 %和后5 %的基因分别组成高表达和低表达库,分别计算其RSCU值,当二者差值RSCU > 0.08时,则定义该密码子为高表达优越密码子。同时满足上述条件(高频密码子和高表达优越密码子)的密码子定义为桃的最优密码子。

 

3.5桃与其他蔷薇科果树物种基因组密码子使用情况比较

下载GDR (GENOME DATADASE FOR ROSACEAE)数据库(https://www.rosaceae.org/)公布的苹果、樱、梅及5种草莓属物种基因组、基因编码序列和相应氨基酸序列,依照上文方法计算相应的密码子使用频率。构建桃、苹果、樱、梅及草莓等9个蔷薇科重要园艺作物的密码子使用频度数矩阵,皮尔森(Pearson)相关性分析不同物种间密码子使用频度的相关性,研究相关物种密码子使用是否存在特定的规律性。

 

3.6 tRNA基因拷贝数对氨基酸使用影响分析

报道表明可以通过计算RNA基因的数量近似估算每个tRNA同工受体(tRNA isoacceptor)丰度,而后者与氨基酸以及密码子的选用频率相关(Duret, 2000; Michaud et al., 2011)。本研究利用tRNAscan,默认参数设定,搜索桃基因组的tRNA基因序列。Condow统计全部密码子及对应氨基酸的使用频次(次数),回归分析tRNA基因含量与对应氨基酸以及密码子选用频率的相关性。

 

作者贡献

李若愚、周平是本研究的实验设计和实验研究的执行人;李若愚、周平、张小丹及马昕怡完成数据分析,论文初稿的写作;郭瑞,颜少宾和金光参与实验设计,试验结果分析;周平是项目的构思者及负责人,指导实验设计,数据分析,论文写作与修改。全体作者都阅读并同意最终的文本。

 

致谢

本研究由福建省省属公益类科研院所基本科研专项(2018R1013-13)、国家现代农业产业技术体系建设专项资金(CARS-30-Z-07)和福建省农业科学院创新团队(STIT2017-1-4)共同资助。

 

参考文献

Chiapello H., Lisacek F., Caboche M., and Hénaut A., 1998, Codon usage and gene function are related in sequences of Arabidopsis thaliana, Gene, 209(1-2): GC1-GC38

 

Duret L., 2000, tRNA gene number and codon usage in the C. elegans genome are co-adapted for optimal translation of highly expressed genes, Trends in Genetics, 16(7): 287-289

 

Huang Y., Koonin E., Lipman D., and Przytycka T., 2009, Selection for minimization of translational frameshifting errors as a factor in the evolution of codon usage, Nucleic Acids Research, 37(20): 6799-6810

 

Kawabe A., and Miyashita N., 2003, Pattern of codon usage bias in three dicot and four monocot plant species, Genes. Genet. Syst., 78(5): 343-52

 

Liu H., Huang Y., Du X., Chen Z., Zeng X., Chen Y., and Zhang H., 2012, Patterns of synonymous codon usage bias in the model grass Brachypodium distachyon, Genet. Mol. Res., 11(4): 4695-4706

 

Liu Q., and Xue Q., 2005, Comparative studies on codon usage pattern of chloroplasts and their host nuclear genes in four plant species, J. Genet., 84(1): 55-62

 

Luo H., Hu S.S., Wu Q., and Yao H.P., 2015, Analysis of buckwheat chloroplast gene codon bias, Jiyinzuxue yu Yingyong Shengwuxue (Genomics and Applied Biology), 34(11): 2457-2464 (罗洪, 胡莎莎, 吴琦, 姚慧鹏, 2015, 甜荞叶绿体基因密码子偏爱性分析, 基因组学与应用生物学, 34(11): 2457-2464)

 

Michaud M., Cognat V., Duchêne A.M., and Maréchal-Drouard L., 2011, A global picture of tRNA genes in plant genomes, Plant J., 66(1): 80-93

 

Moriyama E.N., and Powell J.R., 1998, Gene length and codon usage bias in Drosophila melanogaster, Saccharomyces cerevisiae and Escherichia coli, Nucleic Acids Research, 26(13): 3188-3193

 

Olejniczak M., and Uhlenbeck O., 2006, tRNA residues that have coevolved with their anticodon to ensure uniform and accurate codon recognition, Biochimie., 88(8): 943-50

 

Plotkin J., and Kudla G., 2011, Synonymous but not the same: the causes and consequences of codon bias, Nat. Rev. Genet., 12(1): 32-42

 

Sharp P., and Cowe E., 1991, Synonymous codon usage in Saccharomyces cervisiae, Yeast, 7(7): 657-78

 

Sharp P., and Li W., 1987, The codon adaptation index-a measure of directional synonymous codon usage bias, and its potential applications, Nucleic Acids Research, 15(3): 1281-1295

 

Sueoka N., 1995, Intrastrand parity rules of DNA base composition and usage biases of synonymous codons, J. Mol. Evol., 40(3): 318-25

 

Sueoka N., 2001, Near homogeneity of PR2-Bias fingerprints in the human genome and their implications in phylogenetic analyses, J. Mol. Evol., 53(4-5): 469-476

 

Wright F., 1990, The effective number of codons used in a gene, Gene, 87(1): 23-29

 

Wu Y., Zhao D., and Tao J., 2015, Analysis of codon usage patterns in herbaceous peony (Paeonia lactiflora Pall.) based on transcriptome data, Genes, 6(4): 1125-1139

 

Ye Y.J., Ni Z.X., Bai T.D., and Xu L.A., 2018, The analysis of chloroplast genome codon usage bais in Pinus massoniana, Jiyinzuxue yu Yingyong Shengwuxue (Genomics and Applied Biology), 37(10): 4464-4471 (叶友菊, 倪州献, 白天道, 徐立安, 2018, 马尾松叶绿体基因组密码子偏好性分析, 基因组学与应用生物学, 37(10): 4464-4471)

 

Zalucki Y., Power P., and Jennings M., 2007, Selection for efficient translation initiation biases codon usage at second amino acid position in secretory proteins, Nucleic Acids Res., 35(17): 5748-54

 

Zelasko S., Palaria A., and Das A., 2013, Optimizations to achieve high-level expression of cytochrome P450 proteins using Escherichia coli expression systems, Protein Expr. Purif., 92(1): 77-87

    0.625
00120
《分子植物育种》网络版
• 第 18 卷
阅览选项
. 全文 PDF
. 全文 HTML
读者评论
. 评论
作者的其他论文
.
李若愚
.
张小丹
.
马昕怡
.
郭瑞
.
颜少宾
.
金光
.
周平
相关论文
.

.
密码子使用模式
.
密码子使用偏好性
服务
. 发表评论