Volume 34 Issue 1
Jan.  2017
Turn off MathJax
Article Contents

HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
Citation: HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017

Synonymous codon bias of Phyllostachys edulis

doi: 10.11833/j.issn.2095-0756.2017.01.017
  • Received Date: 2016-02-29
  • Rev Recd Date: 2016-04-20
  • Publish Date: 2017-02-20
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(1)  / Tables(4)

Article views(3390) PDF downloads(567) Cited by()

Related
Proportional views

Synonymous codon bias of Phyllostachys edulis

doi: 10.11833/j.issn.2095-0756.2017.01.017

Abstract: Analysis of codon usage bias for different species, an important characteristic of genetic information transfer in organisms, is important for understanding the rules of genetic information transfer. To better understand the characteristics of Phyllostachys edulis, coding DNA sequences (CDS) of 26 103 proteins in this species were analyzed. The content of G+C at three positions of codons' the Effective number of codons (ENC) and frequency of synonym codon usage for genes were calculated the "optimal codons" were determined by Codon W, CHIPS and CUSP. Then, the frequency of codon usage for Ph. edulis with other organisms including five model value species (Drosophila melanogaster, Saccharomys cerevisiae, Escherichia coli, Arabidopsis thaliana, and Nicotiana tabacum) and three other Gramineae species (Oryza sativa, Zea mays, and Triticum aestivum) were compared. Results showed that the content of G+C at the first and third position of codons was much higher than that of the second positions, and genes preferred codons with C or G in the synonymous position. Meanwhile, 26 codons, ending with G or C, were determined as the "optimal codons". Frequency of codon usage also had fewer differences for the three Gramineae species than it did for the six model value species. To some extent, differences in the size of codon bias reflected the evolutionary relationships between species. These results provided the useful information for understanding the evolution of Ph. edulis.

HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
Citation: HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
  • 三联密码子是整个生物王国的核心,作为最基本的编码组分编码特定的氨基酸。除了甲硫氨酸Met和色氨酸Trp外,同一个氨基酸会由2~6个同义密码子编码[1]。根据中心法则,尽管同义突变不会引起蛋白序列的变化,但同义密码子使用偏好性在基因组内和基因组间广泛存在[2-4]。密码子使用偏好性是物种在遗传信息传递过程中的一个重要特点,分析物种的密码子使用偏好性对于了解该物种遗传信息的传递规律具有重要意义。密码子使用偏好性的研究有助于更好地理解分子生物及进化,信使核糖核酸(mRNA)翻译,转基因设计,新基因发现,以及其他生物应用[3-6]。几十年来,大量模式物种如拟南芥Arabidopsis thaliana,水稻Oryza sativa,果蝇Drosophila melanogaster,杨树Populus trichocarpa等的测序产生了大量的开放阅读框,这些全长编码序列作为密码生物学的基础,为研究密码子使用模式提供了强有力的保障。随着深度测序技术的快速发展,非模式植物也纷纷被测序,产生了大量的序列,有关密码子使用模式的工作也逐渐拉开序幕[7]。毛竹Phyllostachys edulis为禾本科Gramineae多年生木本植物,地上部分可材用,地下部分发育的笋可食用。毛竹基因组序列测定[8],产生了大量基因组及编码区序列,为研究毛竹密码子的使用情况提供了大量的信息。本研究通过分析毛竹全基因组编码序列数据,了解毛竹基因密码子用法特征,并与不同代表性物种进行比较。这些分析有助于我们理解毛竹的密码子模式,提升植物密码子使用的研究,同时为毛竹基因选择合适的表达系统,优化密码子提高基因表达量等提供重要理论基础。

  • http://202.127.18.221/bamboo/index.php的毛竹基因组注释数据中获取了31 987条蛋白质对应的编码基因序列(coding DNA sequence,CDS),从中挑选出以ATG为起始密码子,以TAA,TAG或TGA为终止密码子的,且CDS长度大于300 bp的26 103个基因作为序列分析样本[9]。这个数据库中已经去除所有假基因的信息。

  • 采用C语言编写程序进行序列筛选与处理。

  • 采用EMBOSS软件包中的CHIPS和CUSP程序在线http://emboss.bioinformatics.nl及CodonW1.4.4(http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::codonw)对毛竹全基因编码序列进行分析,计算有效密码子数(effective number of codons,Enc),CDS区的GC含量,密码子中第3位碱基的GC含量(GC3s),同义密码子相对使用频率(relative synonymous codon usage,RSCU)及密码子使用概率。

    衡量同义密码子使用偏好性参数的含义:①有效密码子数(Enc)。该值被认为是在评价基因整体密码子偏好性用法中最具有参考价值的参数之一,目前被广泛用于评价基因密码子偏好性,其取值范围为20(每个氨基酸只使用1个密码子的极端情况)到61(各个密码子均被平均使用)[10]。②同义密码子相对使用频率RSCU。该值的计算方法为某一密码子所使用的频率与其在无偏好使用时预期频率之间的比值,若某一密码子的RSCU值等于1,则表明该密码子的使用没有偏好性;RSCU值大于l,表明该密码子的使用频率相对较高,反之亦然。它去除了氨基酸组成对密码子使用的影响,且直观地反映了密码子使用的偏好性[11]。③同义密码子使用的绝对频率(Fract)。该值表示各个密码子在编码该氨基酸的密码子中所占的比例(各比例相加总和为1)[12]

  • 采用STENICO等[13]的方法,把密码子使用偏好性强和弱的2组基因之间相应密码子出现频率之差达到统计学上显著水平的密码子定义为最优密码子。具体方法如下:通过计算样本中每个基因的有效密码子数,并按该值的大小对基因进行排列,从这一排列的两端各取基因样本总数的5%,分别组成高、低表达样本组。计算这2组基因的相对密码子使用度,并进行卡方检验,确定最优密码子[14]

  • 运用CUSP程序计算毛竹基因各密码子的使用频率,并与从Codon Usage Database(http://www.kazusa.or.jp/codon/)中获得的果蝇,酵母Saccharomys cerevisiae,大肠埃希菌Escherichia coli,拟南芥,烟草Nicotiana tabacum,水稻,玉米Zea mays,小麦Triticum aestivum等的密码子使用频率进行比较。密码子使用频率若为0.5~2.0,表明这2个物种对该密码子的偏好性较接近,若≥2.0或≤0.5,则表明偏好性差异较大[15]

  • 利用SPSS 19.0对毛竹及其他9个物种进行基于密码子使用偏好性的聚类分析,方法参考文献[15]。

  • 将毛竹基因组注释数据中获取到的31 987条蛋白质对应的编码基因序列进行筛选后,获得26 103条有效序列,将这些序列作为一整体,在线计算了其有效密码子数及密码子第1位、第2位、第3位和3个位置平均的碱基GC百分率,结果见表 1。毛竹基因整体的有效密码子数为57.88,表明毛竹整体基因的密码子存在一定程度偏好,但偏好性不强。从密码子的GC含量来看,3个位置平均GC含量为0.52。其中,GC1含量为0.56,比GC2(0.44)高0.12,而GC3含量(0.57)比GC1略高0.01,表明选择压力使得毛竹密码子的第1位倾向于选择G/C,第2位倾向于选择T/A,第3位可以有大幅摆动。

    基因/个 密时子/个 笫1位置 第2位迓 第3位罝 3位置平均 有效密时子数
    26 103 11 634 464 0.56 0.44 0.57 0.52 57.88

    Table 1.  GC content of different positions and effective number of codons in Phyllostachys edulis

  • 经软件计算的同义密码子使用次数及频率结果见表 2。在64个密码子中,GAG是出现次数最高的密码子,绝对频率为39.21,是毛竹平均频率的2.51倍;紧随其后的是AAG,达到33.90;处于第3位的是GAU,为28.40;CGA的出现频率最低,仅为5.34,是毛竹平均频率的1/3;另有6个密码子(UUA,CUA,GUA,ACG,UGU,CGU)的频率小于10.00(表 2)。

    氨基酸 密码子 出现次数/次 绝对频率 相对频率(RSCU)
    笨丙氨酸Phe UUU 177 259 15.202 0.84
    UUC 245 828 21.082 1.16
    亮氨酸Leu UUA 83 127 7.129 0.45
    UUG 200 316 17.179 1.08
    CUU 213 205 18.284 1.14
    CUC 269 853 23.142 1.45
    CUA 97 208 8.336 0.52
    CUG 254 016 21.784 1.36
    异亮氨酸Ile AUU 192 698 16.526 1.12
    AUC 206 620 17.720 1.20
    AUA 118 527 10.165 0.69
    蛋筑酸Met AUG 278 037 23.844 1.00
    缬筑酸Val GUU 215 712 18.499 1.10
    GUC 205 738 17.644 1.04
    GUA 92 064 7.895 0.47
    GUG 274 313 23.525 1.39
    丝筑酸Ser UCU 179 360 15.382 1.10
    UCC 183 357 15.725 1.12
    UCA 177 440 15.217 1.09
    UCG 121 924 10.456 0.75
    腩筑酸Pro CCU 165 860 14.224 1.07
    CCC 125 023 10.722 0.81
    CCA 173 732 14.899 1.13
    CCG 152 555 13.083 0.99
    苏氨酸Thr ACU 141 566 12.141 1.02
    ACC 152 386 13.068 1.10
    ACA 155 105 13.302 1.12
    ACG 105 160 9.018 0.76
    丙筑酸Ala GCU 258 646 22.181 1.03
    GCC 284 302 24.381 1.13
    GCA 235 235 20.174 0.94
    GCG 227 989 19.552 0.91
    酪氨酸Tyr UAU 127 108 10.901 0.85
    UAC 171 249 14.686 1.15
    TER UAA 6 422 0.551 0.74
    UAG 7 782 0.667 0.89
    组筑酸His CAU 141 958 12.174 1.00
    CAC 140 843 12.079 1.00
    谷筑酰胺Gln CAA 167 201 14.339 0.79
    CAG 254 576 21.832 1.21
    天冬酜胺Asn AAU 211 015 18.096 0.99
    AAC 216 215 18.542 1.01
    検氨酸LyS AAA 207 746 17.816 0.69
    AAG 395 286 33.899 1.31
    天冬筑酸Asp GAU 331 197 28.403 1.05
    GAC 297 586 25.521 0.95
    谷氨酸Glu GAA 281 313 24.125 0.76
    GAG 457 181 39.207 1.24
    半咣筑酸Cys UGU 81 296 6.972 0.74
    UGC 138 420 11.871 1.26
    TER UGA 11 899 1.020 1.37
    色氨酸Trp UGG 152 825 13.106 1.00
    精筑酸Arg CGU 74 482 6.388 0.62
    CGC 138 100 11.843 1.14
    CGA 62 215 5.336 0.51
    CGG 125 552 10.767 1.04
    丝氨酸Ser AGU 127 392 10.925 0.78
    AGC 189 258 16.231 1.16
    衍筑酸Arg AGA 134 872 11.567 1.12
    AGO 189 633 16.263 1.57
    苷筑酸Gly GGU 192 842 16.538 0.90
    GGC 280 247 24.034 1.31
    GGA 187 574 16.086 0.88
    GGG 195 121 16.733 0.91
    说明:下划线表示RSCU大于1的密码子。

    Table 2.  Frequency of synonymous codons in genes of Phyllostachys edulis

    有34个密码子的RSCU值大于1,这些密码子为毛竹基因的偏好密码子,其中约1/3的密码子以A/U结尾,2/3的密码子以G/C结尾。AGG(编码Arg),CUC(编码Leu)和GUG(编码Val)的RSCU值处于前3位,分别为1.57,1.45和1.39。CUG(编码Cys)以及AAG(编码Lys)和GGC(编码Gly)相对于其同义密码子的使用频率高,分别为1.36和1.31。这5个密码子为本文的高频率密码子。

    4个NUA密码子的RSCU值最低,AUA为0.69,CUA为0.52,GUA为0.47,UUA为0.45,表明这几个是毛竹基因避免使用的密码子。4个NCG的RSCU值相对来说接近于平均水平甚至更低,CCG为0.99,GCG为0.91,ACG为0.76,UCG为0.75,表明毛竹体内的甲基化水平可能较低或中等,这点从NCG:NCC的比值(为0.82)也可看出。终止密码子UGA在毛竹基因中的使用频率较其余2个终止密码子高,为1.02,其次是UAG,RSCU值为0.67,UAA的使用频率最低,仅为0.55。

  • 不仅同义密码子间存在偏好性,且密码子本身的使用也存在偏好性。目前,关于毛竹基因表达的数据偏少,多数转录组测序的数据也基于几个毛竹的特异组织。因此,本研究依据Enc值来衡量基因的表达量。表 3中的结果是通过计算高表达/低表达基因之间同义密码子相对使用频率之差,经卡方测验确定的毛竹中的最优密码子,用*号标记,共26个。这些密码子均以G/C结尾,表明在高表达基因中优先使用这些密码子。这些密码子的使用频率在高表达基因组与低表达基因组之间的差异达到极显著水平。

    氨基酸 密码子
    数量/个 RSCU 数量/个 RSCU
    Phe UUU 550 0.07 17 107 1.28
    UUC* 14 471 1.93 9 706 0.72
    Leu UUA 107 0.02 10 064 0.85
    UUG 1 172 0.19 17 142 1.45
    CUU 1 074 0.18 18 765 1.58
    CUC* 19 835 3.28 6 415 0.54
    CUA 605 0.1 8 271 0.7
    CUG* 13 472 2.23 10 464 0.88
    Ile AUU 536 0.12 18 226 1.45
    AUC* 11 396 2.73 8 154 0.65
    AUA 611 0.15 11 292 0.9
    Val GUU 836 0.11 21 662 1.73
    GUC* 13 280 1.77 7 106 0.57
    GLA 493 0.07 9 334 0.75
    GUG* 15 329 2.05 11 844 0.95
    Tyr UAU 316 0.06 12 303 1.31
    UAC 10 241 1.94 6 541 0.69
    His CAU 530 0.12 14 620 1.46
    CAC* 8 171 1.88 5 466 0.54
    Gln CAA 681 0.13 17 457 1.05
    CAG* 9 443 1.87 15 734 0.95
    Asn AAU 641 0.12 23 601 1.34
    AAC* 9 785 1.88 11 686 0.66
    Lys AAA 650 0.09 22 589 0.98
    AAG* 13 132 1.91 23 377 1.02
    Asp GAU 1 393 0.14 33 692 1.46
    GAC* 18 250 1.86 12 413 0.54
    Glu GAA 984 0.1 30 614 1.13
    GAG* 18 403 1.9 23 754 0.87
    Ser UCU 780 0.17 21 517 1.67
    ICC* 9 894 2.2 7 839 0.61
    UCA 575 0.13 20 029 1.55
    LCG* 7 656 1.7 3 859 0.3
    AGU 392 0.08 14 622 1.13
    AGC* 7 735 1.72 9 612 0.74
    Pro CCU 1 054 0.19 15 839 1.63
    CCC* 7 554 1.36 4 437 0.46
    CCA 1 105 0.2 15 688 1.62
    CCG* 12 521 2.25 2 834 0.29
    Thr ACU 494 0.11 14 804 1.53
    ACC* 8 693 1.92 5 894 0.61
    ACA 587 0.13 15 321 1.59
    ACG* 8 327 1.84 2 583 0.27
    Ala GCU 1 895 0.17 23 625 1.72
    GCC* 21 775 1.9 7 404 0.54
    GCA 1 754 0.15 20 285 1.47
    GCG* 20 410 1.78 3 769 0.27
    Cys LGU 223 0.06 8 175 1.15
    LGC* 6 655 1.94 5 992 0.85
    Arg CGU 707 0.16 5 582 0.82
    CGC* 12 045 2.74 2 958 0.43
    CGA 565 0.13 4 509 0.66
    CGG* 8 353 1.9 3 555 0.52
    Arg AGA 427 0.1 13 864 2.03
    AGO 4 306 0.98 10 524 1.54
    Gly GGU 1 432 0.18 17 148 1.37
    GGC* 20 195 2.53 8 623 0.69
    GGA 1 551 0.19 15 565 1.25
    GGG* 8 780 1.1 8 577 0.69
    说明:经卡方测验确定的毛竹中的最优密码子。

    Table 3.  Codon usage of high/low expressed genes in Phyllostachys edulis

  • 将毛竹与3种模式生物大肠埃希菌、酵母和果蝇密码子使用频率比较,比值0.5~2.0表明2物种使用该密码子的偏好性相似,比值小于0.5或大于2.0,表明该密码子的使用偏好性差异较大。结果显示:毛竹与大肠埃希菌、酵母和果蝇密码子的比值中,分别有8,11,6个小于0.5或大于2.0,表明毛竹与这些模式生物之间的密码子偏好性存在一定差异。

    表 4的结果显示:毛竹与双子叶植物的代表种拟南芥和烟草的密码子偏好性差异性较大,比值大于2.0或小于0.5的分别有7个和6个,与同科植物相比,与C4植物玉米的密码子偏好性差异也较大,有6个,而与C3植物水稻和小麦的偏好性一致。

    Table 4.  Comparison of codon preference between bamboo and other model plants

  • 根据各物种编码序列密码子的使用频率,利用SPSS 19.0进行聚类分析(图 1)。从图 1可以看出:双子叶植物拟南芥和烟草密码子使用偏好更相近,禾本科植物毛竹与水稻的最近,其次与小麦和玉米。利用密码子使用频率得出的聚类结果一定程度上反映了各物种间的进化关系。

    Figure 1.  Cluster analysis dendrogram of frenquency of codon usage of different species

  • 在长期的进化过程中,不同物种对进化环境和选择压力的适应不同,因此,任何一个物种都会形成特定的密码子用法以适应其基因组环境,最终使其宿主适应外界进化环境。由此,不同物种就形成了各自特定的密码子偏好性。若要通过基因工程技术改造某一物种或将某一基因用于体外表达,应先按照宿主的密码子使用偏好性对所导入的基因进行优化和改造。本研究在毛竹全基因组测序的基础上,对编码蛋白基因的密码子偏好性进行了分析,结果表明与很多物种包括人、细菌、酵母、果蝇、玉米、草菇Volvariella volvacea等相似[15-16],毛竹基因密码子偏好使用G/C结尾的密码子,这种密码子使用偏好性有利于保证翻译的准确性[17-18],但与同为植物界的双子叶植物相比,密码子使用偏好性差异较大,双子叶植物偏好使用以A或T结尾的密码子[14, 19-20]

    从GC含量上看,很多植物的密码子的GC1含量均比GC2高,两者含量的差异达到0.096(Medicago truncatula)~0.155(Micromonas pusilla RCC299)。裸子植物、单子叶植物、绿藻等物种GC3的含量一般来说略高于GC1[7]。本研究中的毛竹GC1含量比GC2高0.12,而GC3含量比GC1高0.01,表明选择压力对毛竹密码子不同位置的碱基组成影响不同。不同物种中GC3会随着进化不同而发生变化[7, 21-22]。一般来说,原始的单细胞或多细胞绿色植物GC3含量会比较高,为0.690~0.854,苔藓植物为0.481~0.578,而被子植物GC3s的含量变异差异比较大,单子叶植物的变异范围为0.581~0.609,优等双子叶植物的变异范围为0.335~0.482。本研究中毛竹GC3s为0.52,超出了单子叶植物的变异范围。这样的特例在其他物种中也有发生,如莱茵衣藻Chlamydomonas reinhardtii,团藻Volvox carteri和细小微胞藻Micromonas pusilla[7]

    本研究用CodonW软件分析了毛竹同义密码子的RSCU值,发现AGG,CUC,GUG,AAG和UGC 5个密码子为本文的高频率密码子。而4个NUA密码子RSCU值较低,AUA为0.69,CUA为0.52,GUA为0.47,UUA为0.45,表明毛竹基因避免使用UA密码子,同一现象在其他物种中也发现,可能因为低含量的UA抑制了mRNA的降解,提高蛋白产物或产量[23]。毛竹中终止密码子的使用以UGA的使用频率最高,与大多数植物相吻合[24]

    NCG:NCC的比值已广泛用于评估CpG抑制,反映了编码区甲基化水平,尤其在真双子叶植物。甲基化水平低的物种往往其NCG:NCC的比值相对较高,如拟南芥(0.921),深山南芥Arabis lyrata(0.93);而高甲基化水平的物种,该比值相对较低,如葡萄Vitis vinifera(0.414),杨树(0.463);甲基化程度中等的物种;该比值中等,如苹果Malus×domestica(0.639),番茄Solanum lycopersicon(0.634)。毛竹中该比值为0.819 7,表明毛竹为低甲基化水平的物种。由此可以判断:甲基化水平对毛竹的生长发育过程影响有限[7]

    本研究使用同义密码子相对使用频率(RSCU)方法鉴定出26个最优密码子,全部以G/C结尾,毛竹编码蛋白序列的GC含量平均为52.4%,因此,本研究结果符合一般规律,即富含GC碱基的基因组中最优密码子也富含GC[2, 25]。通过比较某一特定基因与外源表达系统之间的密码子使用偏好性差异,从而分析是否会引起甲基化,导致基因表达量下降或基因沉默[26],从而改造密码子以提高外源基因在宿主中的表达[27-29]。本研究将毛竹基因组密码子的偏好性与模式动植物大肠埃希菌、酵母、果蝇、拟南芥、烟草、玉米、水稻和小麦待密码子偏好性相比,结果表明:毛竹与不同物种的差异程度不同,其中与大肠埃希菌和酵母的差异最大,而与同科C3植物水稻和小麦的偏好性一致。因此,要将毛竹基因进行体外表达时,需要通过密码子的改造,来提高表达效率。若要将毛竹基因用于水稻和小麦中表达时,可以不用经密码子优化直接进行外源基因表达。本研究的聚类结果表明:密码子偏好性差异大小在一定程度上反映物种间的进化关系,与传统分类有一定的吻合性,但不完全吻合,这与其他物种的基于密码子偏好性聚类的结果类似[4, 15],很可能是因为参数选择单一造成的。该研究结果可为毛竹基因外源表达选择合适的受体提供理论基础,同时,还为将毛竹基因转入模式生物中进行功能验证提供基础资料。

  • 本研究对毛竹基因组中的26 103个蛋白质编码基因序列进行了分析,根据同义密码子相对使用频率(RSCU值)确定了毛竹中的最优密码子26个,且均以G/C结尾。同时与模式动植物9个代表性物种进行了比较,毛竹密码子偏好性与水稻完全一致。

Reference (29)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return