作者 通讯作者
计算分子生物学, 2014 年, 第 3 卷, 第 9 篇 doi: 10.5376/cmb.cn.2014.03.0009
收稿日期: 2014年08月07日 接受日期: 2014年08月07日 发表日期: 2014年08月07日
Chakraborty and Paul, 2014, GC2 Biology Dictates Gene Expressivity in Camellia sinensis, Computational Molecular Biology, Vol.4, No.2, 10-17 (doi: 10.5376/cmb.2014.04.0002)
基因表达的有效性受到在基因的编码序列(cds)中使用的密码子的性质的影响。这是由于大多数基因和生物体不均匀使用同义密码子。优先使用某些同义密码子这种现象称为密码子使用偏移 (CUB)。我们分析了在每个密码子位点的标准化的AT和GC频率。我们观察到基因表达(通过CAI测量)和任何密码子位点处的GC含量之间的相关性非常弱,除了GC2显示与基因表达中度正相关。我们还测量了三个密码子位点的CAI和AT含量之间的相关性。AT2与基因表达呈中度负相关。我们进一步观察到RCBS(基因表达的测量)和cds长度之间的强相关性,表明自然选择可能有利于较短基因在更高水平表达。对于该分析,我们最初下载茶树的350个编码序列,其中仅发现十个cds以起始密码子ATG开始,并且长度为三个碱基的精确倍数并且缺乏N(任何未知碱基)。我们对这十个cds的分析显示,在确定基因表达性方面,茶树中同义密码子的第二个位置可能比第三个位置发挥更显着的作用,这从CUB和相关分析中可以看出。
基因表达的有效性受到整个基因中所使用密码子的性质影响。由于进化过程,即始终保守的基因在编码序列中几乎没有保持不变。这是由于大多数基因和生物体不使用同义密码子这一事实。优先使用某些同义密码子,称为密码子使用偏好(CUB)的现象。
密码子偏移 ,同义密码子的不等同使用,在物种之间变化很大,在某些情况下,还报道了同一生物体内不同基因之间密码子使用偏移 的显着变化(Bernardi, 1993)。以前的密码子使用分析表明,密码子使用偏移 非常复杂,并且与各种生物因子如基因表达水平相关(Gouy and Gautier, 1982; Sharp and Li, 1986; Sharp et al., 1986; Sharp and Li, 1987),基因长度(Bains, 1987; Eyre-Walker, 1996),基因翻译起始信号(Ma, 2002),蛋白质氨基酸组成(Lobry and Gautier, 1994),蛋白质结构(D'Onofrio et al., 2002),tRNA丰度(Ikemura, 1981, 1982),突变频率和模式(Sueoka, 1999)和GC组成(Sueoka and Kawanishi, 2000)。GC偏移的影响对密码子偏移 具有主要影响,导致第三个密码子位置的GC%(也称为GC3和GC偏移)之间的密切关联(Sueoka, 1988)。由于所有氨基酸(除甲硫氨酸和色氨酸外)在第三位置允许GC改变的同义取代,这导致了一种普遍的想法,即使用同义G/C-末端密码子应当随着GC偏好增加而频率增加,而使用A/T终止密码子应该减少(Wan et al., 2004)。
茶(Camellia sinensis)是世界上最受欢迎的饮料之一,归因于其多样化的品种和品质、味道和促进作用,也对人体健康有益处。它由于有迷人的香气、愉快的味道和许多药用的好处吸引了民众许多注意,从公元前3000已经在社会上开始消费(Kliman and Bernal, 2005)。 在茶叶中也发现了许多次生代谢物,例如多酚、生物碱(例如咖啡因)、维生素(A,B1,B2,E,C)、多糖、挥发油和矿物质(Lin et al., 2003)。
尽管它在遗传学的几个领域中具有根本的重要性,但是长期以来一直在努力测量CUB。测序技术的进步提供了不同的生物丰富的基因组数据。随着许多生物体的全基因组测序的出现,CUB的研究再次引起学者关注。在本文中,我们提出了通过分析密码子适应指数(CAI)研究茶树CUB、相对密码子使用偏性(RCBS)、优化密码子频率(Fop)、相对同义密码子的使用价值(Fop)、有效密码子数目(ENc)、GC含量、GC偏移和AT偏移。
1结果
1.1总密码子使用分析
由于全基因组序列不可用于茶树,在本研究中仅使用10个基因。表1显示了所选择的基因及其登录号以及总体RCBS、CAI、GC%、GC1s、GC2s和GC3s值。发现茶树的编码序列富含A和/或T。但是在铜绿假单胞菌 中,以G和/或C结束的密码子在整个编码区中明显占优势(Gupta and Ghosh, 2001)。然而,总体密码子使用值可能掩盖了基因中密码子使用偏移 的一些异质性,这可能叠加在这个生物的极端基因组组成上。
表 1 RCBS, CAI, CDS长度, GC含量分析和茶树中基因的登录号: RCBS, CAI, CDS length, GC content analysis and accession number for Camellia sinensis genes |
1.2密码子使用变异
在第三同义密码子位置(GC3s)处由基因使用的密码子的有效数目(Nc)和(G + C)百分比用于研究茶树中的基因之间的密码子使用变异。Wright(1990)建议Nc对GC3s的图可以有效地用于探索基因之间的密码子使用变异。Wright(1990)证明,如果基因的密码子使用偏差具有除基因组GC组成以外的某些影响,则基因的实际分布与未选择下的预期分布的比较可以是指示性的。
图1显示了茶树中不同基因的Nc分布。Nc的平均值和标准偏差值分别为15.2和0.42637,表明基因中密码子使用偏差有很大的变化。基因中密码子使用偏差的变化从第二个同义密码子位置的(G + C)分布进一步证实,如图2所示。这些结果表明,除了组成约束,其他趋势可能影响总体密码子使用茶树中的基因变异。
图 1 茶树基因的Nc分布; Nc distribution of Camellia sinensis genes |
图 2 茶树基因的GC3s分布; GC3s distribution of Camellia sinensis genes |
1.3 RCBS和CAI值之间的关系
每个基因已经演变出适应密码子使用模式的基因表达水平,并且RCBS值>0.5和CAI值>0.5表现出有利的密码子使用。因此,我们选择这两个指数作为基于书面证据的有效表达度量。CAI和RCBS基因的表达水平已经显示。从我们的分析,我们已经发现十个基因中的六个具有RCBS和CAI值,每个大于0.5,表明这六个茶树中的基因可以作为高度表达的基因。
当我们将它们绘制在图上时,RCBS和CAI显示类似的模式(图3)。我们进一步分析了编码区的长度和基因的表达水平之间的关系。与以前的其他研究(Ikemura, 1981; Ikemura, 1982; Moriyama and Powell, 1998)一致,我们的数据支持较小尺寸的高度表达的基因。我们观察到RCBS随编码的蛋白质的长度减少。在RCBS和蛋白质长度之间观察到显着的负相关。在图4中,我们将RCBS作为基因长度的函数。
图 3 RBCS和CAI值之间的关系; The relationship between RCBS and CAI values |
图 4 CARBS和蛋白质长度之间的关系; Relationship between RCBS and protein length |
GC含量的理想百分比范围在30%至70%之间(图5和图6)。在该范围之外的任何峰对转录和翻译效率有不利影响。在十个基因中,发现基因多酚氧化酶(PPO)具有在32%至75%的理想范围之外的GC含量。这些结果表明,存在于基因的CDS序列中的GC含量影响该特定基因的表达性。通过将GCI值对GC含量作图,再次证实了基因中GC含量的差异,并且发现由于它们的GC含量,两个基因显示与基因表达性呈负相关性(图7)。
图 5 基因AMP脱氨酶CDS长度的密码子使用频率分布; The distribution of codon usage frequency along the length of the CDS for the gene AMP deaminese |
图 6 硬脂酰基载体蛋白去饱和酶基因的GC含量的百分比范围; The percentage range of GC content for the Stearoyl acyl carrier protein desaturase gene |
图 7 茶树基因中GC含量CAI图; CAI plotted against the GC content for Camellia sinensis genes |
1.4 GC和AT含量与基因表达模式的关系
我们分析了在每个密码子位点的标准化的AT和GC频率。我们观察到通过CAI测量的基因表达和在任何密码子位点的GC含量之间的相关性非常弱(rGC1 = 0.069,rGC2 = 0.604和rGC3 = 0.186)(图8)。因此,与其他相矛盾的是,第三个密码子位置的GC含量是茶树中基因表达的非常差的预测因子(Sharp and Lloyad, 1993; Gerton et al., 2000; Marin et al., 2003)。但在第二个密码子位置,GC含量显示与基因表达中度正相关。由于茶树的编码序列富含AT,我们还分析了每个密码子位点的AT频率,发现第二个密码子位置显示与基因表达的中度负相关。
图 8 不同密码子位置的CIA和GC / AT含量之间的相关性; Correlation between CAI and GC/AT content at different codon positions |
2讨论
简而言之,我们已经提出了基因的表达测量,设计了从相对密码子偏好和密码子适应指数来预测基因表达水平。基于基因表达和密码子组成是强相关的假设,已经定义了密码子适应指数以提供对基因中密码子偏好程度的直观有意义的测量。我们概述了一个简单的方法来评估基因中密码子偏移 指数的强度,作为其可能的表达水平的指导,并结合茶树基因分析进行说明。
本研究的目的是:(a)分析CAI、RCBS、GC偏差、GC含量、茶树的基因的密码子的相对位置。 (b)将上述参数与基因表达模式相关联。根据我们在本研究中提到的目标,我们从茶树中选择十个基因进行CUB分析。使用由我们开发的perl程序来检索具有正确的初始和终止密码子的准确编码序列。为了使取样误差最小化,我们仅取得大于或等于1000bp的那些编码序列。通过使用由我们开发的基于PERL的程序计算所有上述用于CUB分析的参数。
在分析茶树的编码序列后,发现基因富含AT。但是在铜绿假单胞菌的情况下,显然在整个编码区中以G和/或C结尾的密码子占主导。我们还通过分析密码子的有效数(Nc)来预测密码子使用的异质性。Nc的平均值和标准偏差分别为15.2和0.42637,说明茶树中的基因密码子使用偏差存在较大差异。基因之间密码子使用偏差的变化从第三同义密码子位置处的(G + C)的分布进一步证实。这些结果表明,除了组成限制,其他趋势可能会影响茶树中基因的总体密码子使用变异。
每个基因已经演变出适应密码子使用模式的基因表达水平,并且RCBS值>0.5和CAI值>0.5表现出有利的密码子使用。我们计算了这些基因的CAI和RCBS值,发现茶树中10个基因中有6个是高度表达的基因。我们还分析了GC含量对密码子相对位置的分布;结果显示,除了基因PPO,所有其他基因具有理想的GC百分比。
我们分析了在每个密码子位点的标准化的AT和GC频率。我们观察到通过CAI测量的基因表达和在任何密码子位点的GC含量之间的相关性非常弱。GC2与基因表达呈中度正相关(0.604)。我们还测量了在任何密码子位点的CAI和AT含量之间的相关性。AT2与基因表达显示中度负相关(-0.604)。
此外,我们的分析进一步揭示了在确定基因表达水平上茶树中同义密码子的第二个位置比第三个位置发挥更显著的作用,如由CHAI和GC2s之间的正相关系数(0.064)与具有GC1和GC3的CAI的相关系数(0.069和0.187)相比所揭示的现象。这与以下事实矛盾:大肠杆菌中密码子的第三位置在确定基因表达中起主要作用,尽管茶树和大肠杆菌都是富含AT的。与具有AT1和AT3的CAI的相关系数(-0.069和-0.172)相比,CAI和AT2s之间的最高负相关性(-0.064)进一步证实了这一点。这可能是由于本研究用了少量的编码序列,并且只有具有高CAI和RCBS的基因。
cds的组成偏差在形成密码子使用中起关键作用。GC含量对密码子使用偏差具有主要影响,致使在第三密码子位置的GC%之间的密切关联,也称为GC3生物学。由于所有氨基酸(甲硫氨酸和色氨酸除外)允许在密码子第三位置进行GC改变的同义取代,这提出了即使用同义G / C-末端密码子可以增加基因的表达能力,而使用的A / T终止密码子可以降低基因表达的水平的普遍观点。对于该分析,我们最初下载茶树的350个编码序列,其中仅发现十个cds以起始密码子ATG开始,并且长度为三个碱基的精确倍数并且缺乏N(任何未知碱基)。从cds的CUB分析和在三个密码子位点的GC / AT含量与CAI值之间的相关分析显而易见,结果表明,在决定基因表现力方面,茶树中同义密码子的第二位置可能起到比第三位密码子更突出的作用。
3材料与方法
3.1数据收集
从NCBI(www.ncbi.nlm.nih.gov)下载Camellia sinensis的编码序列(cds)。为了使抽样误差最小化,我们只取得大于或等于1000bp并具有正确的初始和终止密码子并缺少N(任何未知碱基)的cds。使用我们开发的perl中的程序来检索精确的编码序列。最后,选择10个序列用于CUB分析。
3.2模型
使用相对密码子使用偏移 和密码子适应指数来研究基因之间的总体密码子使用变化。 RCBS是在随机密码子使用的假设下,观察到的密码子的频率与期望频率的差异,其中基础组合物在序列中的三个位点存在偏移。RCBS是指示基因中每个密码子的RCB的影响的基因的总得分。RCB反映了基因表达的水平。基因的表达量度由RCBS表示(Hertog et al., 1993)。RCBS值接近0表示密码子缺乏偏移,因此可用于比较不同组的基因。
基因表达水平与基因的密码子使用差异有关,该基因密码子在三个密码子位点处偏向核苷酸成分。令f(x,y,z)为基因的密码子三联体(x,y,z)的归一化密码子频率。然后,基因中密码子三联体(x,y,z)的相对密码子偏移(RCB)定义为:
dxyz = f(x,y,z)-f1(x)f2(y)f3(z)/f1(x)f2(y)f3(z)
其中,f1(x)是在第一密码子位置的x的归一化频率,f2(y)是在第二密码子位置的y的归一化频率, f3(z)是基因的第三个密码子位置处的z的归一化频率。频率f1,f2,f3已经从基因的密码子样品集合导出,并且频率的归一化在密码子的基因长度上进行,以试图补偿RCB与密码子总数的预期增加,以这样的方式定量基因的密码子偏好的程度,使得可以在基因组内和基因组之间进行比较。如前所述,dxyz包含比其他更多的定量信息,因为它考虑了密码子使用以及基本组成偏差。基因的表达量度为:
其中,dixyz是基因的第i个密码子的使用差异。L是基因中的密码子数。
基因表现力再次通过计算参数密码子适应指数来测定(Sharp and Li, 1986)。它基本上测量从给定基因到参考基因的氨基酸密码子用途的距离。CAI将翻译最佳密码子定义为在高度表达的基因中频繁出现的那些密码子。
其中,L是基因g的长度,wc(1)是密码子c在参考基因(不是g)中的相对适应性。相对适应性定义为:
其中,fc是密码子c的频率,密码子c是基因g中的lth密码子。a是由c编码的氨基酸,{Ca}是编码氨基酸a的同义密码子集合。某些密码子将在基因中出现多次。因此,我们可以重写方程式来对密码子而不是长度求和,并且使用计数而不是频率。这使得对实际基因的依赖更清楚。更常见的公式是:
有效密码子数(Nc)是序列中使用的不同密码子的总数(Wright, 1990)。Nc的值范围从20(其中每个氨基酸只使用一个密码子)至61(对于标准遗传密码),其中所有可能的同义密码子以相同的频率使用。Nc测量偏向使用较小的密码子子集,远离等同使用同义密码子。例如,如上所述,高度表达的基因选择使用较少的密码子。Nc的基本思想类似于来自群体遗传学的接合性概念,其涉及来自两个生物体的基因的相似性。
在密码子使用的环境中,多个同义密码子以类似于多个等位基因的方式进行处理。氨基酸Za的纯合性测量相似性程度,并基于相对密码子频率计算:
氨基酸的有效密码子的数目是纯合性的倒数:
Na =Za-1
Na的值的范围从1到同义密码子ka的数目(密码子简并性)。使用相等的密码子,纯合性是最小的,Na的值是同义密码子的数目。基因的有效密码子的总数(Nc)是不同冗余类k(所有冗余类别的集合K)的平均纯合子Za的总和:
每个冗余类别:
当密码子使用模式比预期更均匀时,可以发生Nc>61,在这种情况下将其重新调整为61.如果没有观察到氨基酸或非常罕见,则将该值替换为同一冗余类别中氨基酸的平均纯合性。如果Ile氨基酸缺失(具有三个同义密码子的冗余类中的唯一成员),则从其他冗余类别的平均纯合性估计相应的Z。
例如,在异亮氨酸的情况下:
当基因的氨基酸之间存在大的差异时,可以使用所有单个氨基酸的Nc之和,而不是采用每个冗余类别的平均值的总和:
GC3s是(G + C)的频率,A3s,T3s,G3s和C3s是A,T,G和C在密码子的同义第三位置的分布(Gupta and Ghosh, 2001)。GC偏移和AT偏移分别定义为DNA序列的(G-C)与(G + C)和(A-T)与(A + T)的比率(Wright, 1990)。
3.3分析
所有上述参数通过使用我们开发的PERL程序计算。此后我们测量了所有上述参数与茶树的基因表达性之间的相关性。
作者贡献
S.C对本研究进行构思,并进行软件分析。P.P. 负责分析数据集并撰写初稿,整理数据和表格。所有作者阅读并同意了最终稿件。
致谢
我们感谢在这项研究Assam University, Silchar, Assam, India提供必要的设施。我们真诚地感谢塞森博士,主任和其他工作人员,以及阿萨姆大学计算机中心和Silchar的帮助,他们为这项研究工作提供互联网接入的支持。
Bains W., 1987, Codon distribution in vertebrate genes may be used to predict gene length, J Mol. Biol., 197(3): 379-388
http://dx.doi.org/10.1016/0022-2836(87)90551-1
Bernardi G., 1993, The vertebrate genome: isochores and evolution, Mol. Biol. Evol., 10: 186-204
D'Onofrio G., Ghosh T.C., and Bernardi G., 2002, The base composition of the genes is correlated with the secondary structures of the encoded proteins, Gene, 300(1-2): 179-187
http://dx.doi.org/10.1016/S0378-1119(02)01045-4
Eyre-Walker A., 1996, Synonymous codon bias is related to gene length in Escherichia coli: selection for translational accuracy? Mol Biol Evol., 13(6): 864-872
http://dx.doi.org/10.1093/oxfordjournals.molbev.a025646
Gerton J.L., DeRisi J., Shroff, R., Lichten M., Brown P.O., and Petes T.D., 2000, Global mapping of meiotic recombination hotspots and coldspots in the yeast Saccharomyces cerevisiae, Proc. Natl. acad. Sci. USA, 97(21), 11383-11390
http://dx.doi.org/10.1073/pnas.97.21.11383
Gouy M., and Gautier C., 1982, Codon usage in bacteria: correlation with gene expressivity, Nucleic Acids Res., 10: 7055-7074
http://dx.doi.org/10.1093/nar/10.22.7055
Gupta S.K., and Ghosh T.C., 2001, Gene expressivity is the main factor in dictating the codon usage variation among the genes in Pseudomonas aeruginosa, Gene, 273: 63-70
http://dx.doi.org/10.1016/S0378-1119(01)00576-5
Hertog H.G., Hollman P.C., Katan M.B., and Kromhout D., 1993, Intake of potentially anticarcinogenic flavonoids and their determinations in adults in the Netherlands, Nutr. Cancer, 20(1): 21-29
http://dx.doi.org/10.1080/01635589309514267
Ikemura T., 1981, Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons in its protein genes: a proposal for a synonymous codon choice that is optimal for the E. coli translational system, J Mol. Biol., 151(3): 389-409
http://dx.doi.org/10.1016/0022-2836(81)90003-6
Ikemura T., 1982, Correlation between the abundance of yeast transfer RNAs and the occurrence of the respective codons in protein genes. Differences in synonymous codon choice patterns of yeast and Escherichia coli with reference to the abundance of isoaccepting transfer RNAs, J Mol. Biol., 158(4): 573-597
http://dx.doi.org/10.1016/0022-2836(82)90250-9
Kliman R.M., and Bernal C.A., 2005, Unusual usage of AGG and TTG codons in humans and their viruses, Gene, 352: 92-99
http://dx.doi.org/10.1016/j.gene.2005.04.001
Lobry J.R., and Gautier C., 1994, Hydrophobicity, expressivity and aromaticity are the major trends of amino-acid usage in 999 Escherichia coli chromosome-encoded genes, Nucleic Acids Res., 22(15): 3174-3180
http://dx.doi.org/10.1093/nar/22.15.3174
Ma J., Campbell A., and Karlin S., 2002, Correlations between Shine-Dalgarno sequences and gene features such as predicted expression levels and operon structures, J Bacteriol., 184(20): 5733-5745
http://dx.doi.org/10.1128/JB.184.20.5733-5745.2002
Marin A., Gallardo M., Kato Y., Shirahige K., Gutiérrez G., Ohta K., and Aguilera A., 2003, Relationship between G+C content, ORF length and mRNA concentration in Saccharomyces cerevisiae, Yeast, 20(8): 703-711
http://dx.doi.org/10.1002/yea.992
Moriyama E.N., and Powell J.R., 1998, Gene length and codon usage bias in Drosophila melanogaster, Saccharomyces cerevisiae and Escherichia coli, Nucleic Acids Res., 26(13): 3188-3193
http://dx.doi.org/10.1093/nar/26.13.3188
Roymondal U., Das S., and Sahoo S., 2009, Predicting gene expression level from relative codon usage bias: an application to Escherichia coli genome, DNA Res., 16(1): 13-30
http://dx.doi.org/10.1093/dnares/dsn029
Sharp P.M., and Li W.H., 1986, An evolutionary perspective on synonymous codon usage in unicellular organisms, J Mol. Evol., 24(1-2): 28-38
http://dx.doi.org/10.1007/BF02099948
Sharp P.M., and Li W.H., 1987, The codon Adaptation Index – a measure of directional synonymous codon usage bias, and its potential applications, Nucleic Acids Res., 15(3): 1281-1295
http://dx.doi.org/10.1093/nar/15.3.1281
Sharp P.M., and Lloyad A.T., 1993, Regional base composition variation along yeast chromosome III: evolution of chromosome primary structure, Nucleic Acids Res, 21(2): 179-183
http://dx.doi.org/10.1093/nar/21.2.179
Sharp P.M., Tuohy T.M., and Mosurski K.R., 1986, Codon usage in yeast: cluster analysis clearly differentiates highly and lowly expressed genes, Nucleic Acids Res., 14: 5125-5143
http://dx.doi.org/10.1093/nar/14.13.5125
Sueoka N., 1988, Directional mutation pressure and neutral molecular evolution, Proc. Natl. Acad. Sci., 85(8): 2653-2657
http://dx.doi.org/10.1073/pnas.85.8.2653
Sueoka N., 1999, Two aspects of DNA base composition: G+C content and translation-coupled deviation from intra-strand rule of A = T and G = C, J Mol. Evol., 49(1): 49-62
http://dx.doi.org/10.1007/PL00006534
Sueoka N., and Kawanishi Y., 2000, DNA G+C content of the third codon position and codon usage biases of human genes, Gene, 261(1): 53-62
http://dx.doi.org/10.1016/S0378-1119(00)00480-7
Wan X.F., Xu D., Kleinhofs A., and Zhou J., 2004, Quantitative relationship between synonymous codon usage bias and GC composition across unicellular genomes, BMC Evolutionary Biology, 4: 19
http://dx.doi.org/10.1186/1471-2148-4-19
Wright F., 1990, The ‘effective number of codons’ used in a gene, Gene, 87(1): 23-29
http://dx.doi.org/10.1016/0378-1119(90)90491-9
Y.S. Lin, Y.J. Tasi, J.S. Tsay, and J.K. Lin, 2003, Factors affecting the levels of tea polyphenols and caffeine in tea leaves, J. Agric. Food Chem., 51(7): 1864-1873