留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于全基因组的毛竹同义密码子使用偏好性分析

黄笑宇 许在恩 郭小勤

黄笑宇, 许在恩, 郭小勤. 基于全基因组的毛竹同义密码子使用偏好性分析[J]. 浙江农林大学学报, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
引用本文: 黄笑宇, 许在恩, 郭小勤. 基于全基因组的毛竹同义密码子使用偏好性分析[J]. 浙江农林大学学报, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
Citation: HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017

基于全基因组的毛竹同义密码子使用偏好性分析

doi: 10.11833/j.issn.2095-0756.2017.01.017
基金项目: 

浙江省自然科学基金资助项目 Y307499

浙江省自然科学基金资助项目 LY13C160011

国家自然科学基金资助项目 30901155

浙江省大学生新苗人才计划项目 2015R412020

详细信息
    作者简介: 黄笑宇, 从事林学研究。E-mail:593796107@qq.com
    通信作者: 郭小勤, 副教授, 博士, 从事竹类植物遗传育种等研究。E-mail:xqguo@zafu.edu.cn
  • 中图分类号: S722;S795.7

Synonymous codon bias of Phyllostachys edulis

  • 摘要: 密码子使用偏好性是物种在遗传信息传递过程中的一个重要特点,分析物种的密码子使用偏好性对于了解该物种遗传信息的传递规律具有重要意义。应用CodonW软件对毛竹Phyllostachys edulis基因组中的26 103个蛋白质编码基因序列进行了分析,计算了位于密码子3个位置的G+C含量、有效密码子数、同义密码子的使用频率等,确定了毛竹的最优密码子。结果显示:毛竹密码子第1位和第3位的G+C含量明显高于第2位,表现出对以G或C碱基开头和结尾的密码子发生强烈偏向使用,且确定的26种最优密码子均以G/C碱基结尾。与模式动植物酵母Saccharomys cerevisiae,大肠埃希菌Escherichia coli,果蝇Drosophila melanogaster,拟南芥Arabidopsis thaliana,烟草Nicotiana tabacum,水稻Oryza sativa,玉米Zea mays,小麦Triticum aestivum等8个代表性物种进行比较,结果显示:毛竹密码子偏好性与模式动植物存在不同程度的差异,与大肠埃希菌、酵母、果蝇、拟南芥、烟草和玉米的差异较大,差异分别为8个、11个、6个、7个、6个和6个,而与小麦的差异较小(1个),与水稻完全一致。密码子偏好性差异大小在一定程度上反映物种间的进化关系。
  • 图  1  基于不同物种密码子使用频率的聚类分析

    Figure  1  Cluster analysis dendrogram of frenquency of codon usage of different species

    表  1  毛竹基因密码子中3个位置的GC含量及有效密码子数值

    Table  1.   GC content of different positions and effective number of codons in Phyllostachys edulis

    基因/个 密时子/个 笫1位置 第2位迓 第3位罝 3位置平均 有效密时子数
    26 103 11 634 464 0.56 0.44 0.57 0.52 57.88
    下载: 导出CSV

    表  2  毛竹基因同义密码子的使用频率毛竹基因同义密码子的使用频率

    Table  2.   Frequency of synonymous codons in genes of Phyllostachys edulis

    氨基酸 密码子 出现次数/次 绝对频率 相对频率(RSCU)
    笨丙氨酸Phe UUU 177 259 15.202 0.84
    UUC 245 828 21.082 1.16
    亮氨酸Leu UUA 83 127 7.129 0.45
    UUG 200 316 17.179 1.08
    CUU 213 205 18.284 1.14
    CUC 269 853 23.142 1.45
    CUA 97 208 8.336 0.52
    CUG 254 016 21.784 1.36
    异亮氨酸Ile AUU 192 698 16.526 1.12
    AUC 206 620 17.720 1.20
    AUA 118 527 10.165 0.69
    蛋筑酸Met AUG 278 037 23.844 1.00
    缬筑酸Val GUU 215 712 18.499 1.10
    GUC 205 738 17.644 1.04
    GUA 92 064 7.895 0.47
    GUG 274 313 23.525 1.39
    丝筑酸Ser UCU 179 360 15.382 1.10
    UCC 183 357 15.725 1.12
    UCA 177 440 15.217 1.09
    UCG 121 924 10.456 0.75
    腩筑酸Pro CCU 165 860 14.224 1.07
    CCC 125 023 10.722 0.81
    CCA 173 732 14.899 1.13
    CCG 152 555 13.083 0.99
    苏氨酸Thr ACU 141 566 12.141 1.02
    ACC 152 386 13.068 1.10
    ACA 155 105 13.302 1.12
    ACG 105 160 9.018 0.76
    丙筑酸Ala GCU 258 646 22.181 1.03
    GCC 284 302 24.381 1.13
    GCA 235 235 20.174 0.94
    GCG 227 989 19.552 0.91
    酪氨酸Tyr UAU 127 108 10.901 0.85
    UAC 171 249 14.686 1.15
    TER UAA 6 422 0.551 0.74
    UAG 7 782 0.667 0.89
    组筑酸His CAU 141 958 12.174 1.00
    CAC 140 843 12.079 1.00
    谷筑酰胺Gln CAA 167 201 14.339 0.79
    CAG 254 576 21.832 1.21
    天冬酜胺Asn AAU 211 015 18.096 0.99
    AAC 216 215 18.542 1.01
    検氨酸LyS AAA 207 746 17.816 0.69
    AAG 395 286 33.899 1.31
    天冬筑酸Asp GAU 331 197 28.403 1.05
    GAC 297 586 25.521 0.95
    谷氨酸Glu GAA 281 313 24.125 0.76
    GAG 457 181 39.207 1.24
    半咣筑酸Cys UGU 81 296 6.972 0.74
    UGC 138 420 11.871 1.26
    TER UGA 11 899 1.020 1.37
    色氨酸Trp UGG 152 825 13.106 1.00
    精筑酸Arg CGU 74 482 6.388 0.62
    CGC 138 100 11.843 1.14
    CGA 62 215 5.336 0.51
    CGG 125 552 10.767 1.04
    丝氨酸Ser AGU 127 392 10.925 0.78
    AGC 189 258 16.231 1.16
    衍筑酸Arg AGA 134 872 11.567 1.12
    AGO 189 633 16.263 1.57
    苷筑酸Gly GGU 192 842 16.538 0.90
    GGC 280 247 24.034 1.31
    GGA 187 574 16.086 0.88
    GGG 195 121 16.733 0.91
    说明:下划线表示RSCU大于1的密码子。
    下载: 导出CSV

    表  3  毛竹中高/低表达样本的密码子用法

    Table  3.   Codon usage of high/low expressed genes in Phyllostachys edulis

    氨基酸 密码子
    数量/个 RSCU 数量/个 RSCU
    Phe UUU 550 0.07 17 107 1.28
    UUC* 14 471 1.93 9 706 0.72
    Leu UUA 107 0.02 10 064 0.85
    UUG 1 172 0.19 17 142 1.45
    CUU 1 074 0.18 18 765 1.58
    CUC* 19 835 3.28 6 415 0.54
    CUA 605 0.1 8 271 0.7
    CUG* 13 472 2.23 10 464 0.88
    Ile AUU 536 0.12 18 226 1.45
    AUC* 11 396 2.73 8 154 0.65
    AUA 611 0.15 11 292 0.9
    Val GUU 836 0.11 21 662 1.73
    GUC* 13 280 1.77 7 106 0.57
    GLA 493 0.07 9 334 0.75
    GUG* 15 329 2.05 11 844 0.95
    Tyr UAU 316 0.06 12 303 1.31
    UAC 10 241 1.94 6 541 0.69
    His CAU 530 0.12 14 620 1.46
    CAC* 8 171 1.88 5 466 0.54
    Gln CAA 681 0.13 17 457 1.05
    CAG* 9 443 1.87 15 734 0.95
    Asn AAU 641 0.12 23 601 1.34
    AAC* 9 785 1.88 11 686 0.66
    Lys AAA 650 0.09 22 589 0.98
    AAG* 13 132 1.91 23 377 1.02
    Asp GAU 1 393 0.14 33 692 1.46
    GAC* 18 250 1.86 12 413 0.54
    Glu GAA 984 0.1 30 614 1.13
    GAG* 18 403 1.9 23 754 0.87
    Ser UCU 780 0.17 21 517 1.67
    ICC* 9 894 2.2 7 839 0.61
    UCA 575 0.13 20 029 1.55
    LCG* 7 656 1.7 3 859 0.3
    AGU 392 0.08 14 622 1.13
    AGC* 7 735 1.72 9 612 0.74
    Pro CCU 1 054 0.19 15 839 1.63
    CCC* 7 554 1.36 4 437 0.46
    CCA 1 105 0.2 15 688 1.62
    CCG* 12 521 2.25 2 834 0.29
    Thr ACU 494 0.11 14 804 1.53
    ACC* 8 693 1.92 5 894 0.61
    ACA 587 0.13 15 321 1.59
    ACG* 8 327 1.84 2 583 0.27
    Ala GCU 1 895 0.17 23 625 1.72
    GCC* 21 775 1.9 7 404 0.54
    GCA 1 754 0.15 20 285 1.47
    GCG* 20 410 1.78 3 769 0.27
    Cys LGU 223 0.06 8 175 1.15
    LGC* 6 655 1.94 5 992 0.85
    Arg CGU 707 0.16 5 582 0.82
    CGC* 12 045 2.74 2 958 0.43
    CGA 565 0.13 4 509 0.66
    CGG* 8 353 1.9 3 555 0.52
    Arg AGA 427 0.1 13 864 2.03
    AGO 4 306 0.98 10 524 1.54
    Gly GGU 1 432 0.18 17 148 1.37
    GGC* 20 195 2.53 8 623 0.69
    GGA 1 551 0.19 15 565 1.25
    GGG* 8 780 1.1 8 577 0.69
    说明:经卡方测验确定的毛竹中的最优密码子。
    下载: 导出CSV

    表  4  毛竹与模式植物的密码子偏好性比较

    Table  4.   Comparison of codon preference between bamboo and other model plants

  • [1] 宋辉, 王鹏飞, 马登超, 等.蒺藜苜蓿WRKY转录因子密码子使用偏好性分析[J].农业生物技术学报, 2015, 23(2):203-212.

    SONG Hui, WANG Pengfei, MA Dengchao, et al. Analysis of codon usage bias of WRKY transcription factors in Medicago truncatula[J]. J Agric Biotechnol, 2015, 23(2):203-212.
    [2] HERSHBERG R, PETROV D A. Selection on codon bias[J]. Annu Rev Genet, 2008, 42(42):287-299.
    [3] 刘汉梅, 何瑞, 赵耀, 等.玉米密码子用法分析[J].核农学报, 2008, 22(2):141-147.

    LIU Hanmei, HE Rui, ZHAO Yao, et al. Analysis of codon usage in maize[J]. Acta Agric Nucl Sin, 2008, 22(2):141-147.
    [4] 晁岳恩, 吴政卿, 杨会民, 等. 11种植物psbA基因的密码子偏好性及聚类分析[J].核农学报, 2011, 25(5):927-932.

    ZHAO Yueen, WU Zhengqing, YANG Huimin, et al. Cluster analysis and codon usage bias studies on psbA genes from 11 plant species[J]. Acta Agric Nucl Sin, 2011, 25(5):927-932.
    [5] DURET L, MOUCHIROUD D. Expression pattern and, surprisingly, gene length shape codon usage in Caenorhabditis, Drosophila, and Arabidopsis[J]. Proc Nat Acad Sci U S A, 1999, 96(8):4482-4487.
    [6] SAKAI H, WASHIO T, SAITO R, et al. Correlation between sequence conservation of the 5' untranslated region and codon usage bias in Mus musculus genes[J]. Gene, 1998, 431(3):101-105.
    [7] FENG Chao, XU Changjie, WANG Yue, et al. Codon usage patterns in Chinese bayberry (Myrica rubra) based on RNA-Seq data[J]. BMC Genet, 2013, 14(6):986-991.
    [8] PENG Zhenhua, LU Ying, LI Lubin, et al. The draft genome of the fast-growing non-timber forest species moso bamboo (Phyllostachys heterocycla)[J]. Nat Genet, 2013, 45(4):456-461.
    [9] 刘庆坡, 谭军, 薛庆中.籼稻品种93-11同义密码子的使用偏好性[J].遗传学报, 2003, 30(4):335-340.

    LIU Qingpo, TAN Jun, XUE Qingzhong. Synonymous codon usage bias in the rice cultivar 93-11(Oryza sativa L. ssp. indica)[J]. Acta Genet Sin, 2003, 30(4):335-340.
    [10] WRIGHT F. The "effective number of codons" used in a gene[J]. Gene, 1990, 87(1):23-29.
    [11] SHARP P M, LI W H. An evolutionary perspective on synonymous codon usage in unicellular organisms[J]. J Mol Evol, 1986, 24(1/2):28-38.
    [12] 时慧, 王玉, 杨路成, 等.茶树抗寒调控转录因子ICE1密码子偏好性分析[J].园艺学报, 2012, 39(7):1341-1352.

    SHI Hui, WANG Yu, YANG Lucheng, et al. Analysis of codon bias of the cold regulated transcription factor ICE1 in tea plant[J]. Acta Hortic Sin, 2012, 39(7):1341-1352.
    [13] STENICO M, LLOYD A T, SHARP P M. Codon usage in Caenorhabditis elegans:delineation of translational selection and mutational biases[J]. Science, 2002, 296(5576):2174-2176.
    [14] KAWABE A, MIYASHITA N T. Patterns of codon usage bias in three dicot and four monocot plant species[J]. Genes Genet Syst, 2003, 78(5):343-352.
    [15] 蒋玮, 吕贝贝, 何建华, 等.草菇密码子偏好性分析[J].生物工程学报, 2014, 30(9):1424-1435.

    JIANG Wei, LÜBeibei, HE Jianhua, et al. Codon usage bias in the straw mushroom Volvariella volvacea[J]. Chin J Biotech, 2014, 30(9):1424-1435.
    [16] 刘汉梅, 何瑞, 张怀渝, 等.玉米同义密码子偏爱性分析[J].农业生物技术学报, 2010, 18(3):456-461.

    LIU Hanmei, HE Rui, ZHANG Huaiyu, et al. Analysis of synonymous codon bias in maize[J]. J Agric Biotechnol, 2010, 18(3):456-461.
    [17] 石秀凡, 黄京飞, 柳树群, 等.人类基因同义密码子偏好的特征以及与基因GC含量的关系[J].生物化学与生物物理进展, 2002, 29(3):411-414.

    SHI Xiufan, HUANG Jingfei, LIU Shuqun, et al. The features of synonymous codon bias and GC content relationship in human genes[J]. Prog Biochem Biophys, 2002, 29(3):411-414.
    [18] SHARP P M, COWE E, HIGGINS D G, et al. Codon usage patterns in Escherichia coli, Bacillus subtilis, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Drosophila melanogaster and Homo sapiens:a review of the considerable within-species diversity[J]. Nucl Acid Res, 1988, 16(17):8207-8211.
    [19] WANG Liangjiang, ROOSSINCK M J. Comparative analysis of expressed sequences reveals a conserved pattern of optimal codon usage in plants[J]. Plant Mol Biol, 2006, 61(4/5):699-710.
    [20] WANG Huaichun, HICKEY D A. Rapid divergence of codon usage patterns within the rice genome[J]. BMC Evolut Biol, 2007, 7(S1):173-188.
    [21] LYNCH D B, LOGUE M E, BUTLER G, et al. Chromosomal G+C content evolution in yeasts:systematic interspecies differences, and GC-poor troughs at centromeres[J]. Gen Biol Evol, 2010, 2(1):572-583.
    [22] EYRE-WALKER A, HURST LD. The evolution of isochors[J]. Nat Rev Genet, 2001, 2(7):549-555.
    [23] MAHER A S, KHABAR K S A. UU/UA dinucleotide frequency reduction in coding regions results in increased mRNA stability and protein expression[J]. Mol Ther J Am Soc Gene Ther, 2012, 20(5):954-959.
    [24] SUN Jingchun, CHEN Ming, XU Jinlin, et al. Relationships among stop codon usage bias, its context, isochores, and gene expression level in various eukaryotes[J]. J Mol Evol, 2005, 61(4):437-444.
    [25] RAO Yousheng, WU Guozuo, WANG Zhangfeng, et al. Mutation bias is the driving force of codon usage in the Gallus gallus genome[J]. J Jpn Veter Med Ass, 1986, 39(6):154-158.
    [26] 张乐, 金龙国, 罗玲, 等.大豆基因组和转录组的核基因密码子使用偏好性分析[J].作物学报, 2011, 37(6):965-974.

    ZHANG Le, JIN Longguo, LUO Ling, et al. Analysis of nuclear gene codon bias on soybean genome and transcriptome[J]. Acta Agron Sin, 2011, 37(6):965-974.
    [27] SHAO Zhuqing, ZHANG Yanmei, FENG Xueying, et al. Synonymous codon ordering:a subtle but prevalent strategy of bacteria to improve translational efficiency[J]. Plos One, 2012, 7(3):e33547. doi:10.1371/journal.pone.0033547.
    [28] QIAN Wenfeng, YANG Jianrong, PEARSON N M, et al. Balanced codon usage optimizes eukaryotic translational efficiency[J]. Plos Genet, 2012, 8(3):e1002603. doi:10.1371/journal.pgen.1002603.
    [29] KYOKO H T, MPANJA N, TADAYOSHI H, et al. High-level accumulation of recombinant miraculin protein in transgenic tomatoes expressing a synthetic miraculin gene with optimized codon usage terminated by the native miraculin terminator[J]. Plant Cell Rep, 2011, 30(1):113-124.
  • [1] 吴民华, 叶晓霞, 谭靖怡, 梁秋婷, 吴子健, 黄琼林.  了哥王叶绿体基因组分析 . 浙江农林大学学报, doi: 10.11833/j.issn.2095-0756.20230412
    [2] 洪森荣, 张牧彤, 徐子林, 张钦荣, 罗雨欣, 田文慧, 王心雨.  ‘怀玉山’高山马铃薯叶绿体基因组特征及密码子使用偏好性分析 . 浙江农林大学学报, 2024, 41(1): 92-103. doi: 10.11833/j.issn.2095-0756.20230169
    [3] 郑钢, 顾翠花, 林琳, 王杰.  20种千屈菜科植物rbcL基因密码子使用偏好性分析 . 浙江农林大学学报, 2021, 38(3): 476-484. doi: 10.11833/j.issn.2095-0756.20200390
    [4] 卜柯丽, 傅卢成, 王灵杰, 栗青丽, 王柯杨, 马元丹, 高岩, 张汝民.  毛竹茎秆快速生长期PeATG1/PeATG4基因表达分析 . 浙江农林大学学报, 2020, 37(1): 43-50. doi: 10.11833/j.issn.2095-0756.2020.01.006
    [5] 王柯杨, 卜柯丽, 马元丹, 栗青丽, 王灵杰, 高岩, 高海波, 张汝民.  毛竹茎秆发育过程中不同节间叶绿素荧光的变化 . 浙江农林大学学报, 2019, 36(4): 697-703. doi: 10.11833/j.issn.2095-0756.2019.04.009
    [6] 蒋政勤, 周明兵, 郑浩, 季航, 徐芷馨.  毛竹Phyllostachys edulis retrotransposon 7(PHRE7)转座子的克隆与鉴定 . 浙江农林大学学报, 2019, 36(5): 917-927. doi: 10.11833/j.issn.2095-0756.2019.05.010
    [7] 高平珍, 陈双林, 郭子武, 杨清平.  毛竹林下固氮植物资源及其经济价值分析 . 浙江农林大学学报, 2018, 35(1): 161-166. doi: 10.11833/j.issn.2095-0756.2018.01.021
    [8] 赵丽华, 黄程鹏, 王悦悦, 黄张婷.  毛竹植硅体微观形态及稳定性的扫描电镜初探 . 浙江农林大学学报, 2018, 35(6): 1177-1181. doi: 10.11833/j.issn.2095-0756.2018.06.023
    [9] 周哲宇, 徐超, 胡策, 王海湘, 梁谢恩, 张汝民, 温国胜.  毛竹快速生长期的叶绿素荧光参数特征 . 浙江农林大学学报, 2018, 35(1): 75-80. doi: 10.11833/j.issn.2095-0756.2018.01.010
    [10] 李丹丹, 许馨露, 翟建云, 孙建飞, 曹友志, 高岩, 张汝民.  毛竹笋竹快速生长期可溶性糖质量分数与PeTPS1/PeSnRK1基因表达分析 . 浙江农林大学学报, 2017, 34(6): 1016-1023. doi: 10.11833/j.issn.2095-0756.2017.06.007
    [11] 李秀云, 陈晓沛, 徐英武, 曹友志.  毛竹生长过程中纤维素合成酶基因的时空表达和功能预测 . 浙江农林大学学报, 2017, 34(4): 565-573. doi: 10.11833/j.issn.2095-0756.2017.04.001
    [12] 吴兴波, 陈登举, 马元丹, 高岩, 温国胜, 张汝民.  氯霉素对毛竹幼苗色素质量分数及叶绿素荧光的影响 . 浙江农林大学学报, 2016, 33(2): 209-215. doi: 10.11833/j.issn.2095-0756.2016.02.004
    [13] 曾莹莹, 王玉魁, 蔡先锋, 于晓鹏, 李洪吉, 袁佳丽, 张汝民, 温国胜.  毛竹林爆发式生长期立竹器官营养成分的动态变化 . 浙江农林大学学报, 2015, 32(2): 272-277. doi: 10.11833/j.issn.2095-0756.2015.02.015
    [14] 王超莉, 张智俊, 屈亚平, 王蕾.  毛竹丙酮酸磷酸双激酶调节蛋白基因克隆、原核表达及纯化 . 浙江农林大学学报, 2015, 32(5): 749-755. doi: 10.11833/j.issn.2095-0756.2015.05.014
    [15] 许改平, 刘芳, 吴兴波, 温国胜, 王玉魁, 高岩, 高荣孚, 张汝民.  低温胁迫下毛竹叶片色素质量分数与反射光谱的相关性 . 浙江农林大学学报, 2014, 31(1): 28-36. doi: 10.11833/j.issn.2095-0756.2014.01.005
    [16] 高培军, 邱永华, 周紫球, 何仁华, 徐佳.  氮素施肥对毛竹生产力与光合能力的影响 . 浙江农林大学学报, 2014, 31(5): 697-703. doi: 10.11833/j.issn.2095-0756.2014.05.006
    [17] 陆国富, 杜华强, 周国模, 吕玉龙, 谷成燕, 商珍珍.  毛竹笋快速生长过程中冠层参数动态及其与光合有效辐射的关系 . 浙江农林大学学报, 2012, 29(6): 844-850. doi: 10.11833/j.issn.2095-0756.2012.06.007
    [18] 刘颖坤, 蔡莎艺, 喻卫武, 冷华南, 桂仁意.  超高效液相色谱测定铝胁迫下水培毛竹根系分泌物中有机酸 . 浙江农林大学学报, 2011, 28(4): 533-537. doi: 10.11833/j.issn.2095-0756.2011.04.002
    [19] 张利阳, 温国胜, 张汝民, 王电杰, 张俊.  毛竹光合生理对气候变化的短期响应模拟 . 浙江农林大学学报, 2011, 28(4): 555-561. doi: 10.11833/j.issn.2095-0756.2011.04.006
    [20] 林琼影, 陈建新, 杨淑贞, 温国胜.  毛竹气体交换特征 . 浙江农林大学学报, 2008, 25(4): 522-526.
  • 加载中
  • 链接本文:

    https://zlxb.zafu.edu.cn/article/doi/10.11833/j.issn.2095-0756.2017.01.017

    https://zlxb.zafu.edu.cn/article/zjnldxxb/2017/1/120

图(1) / 表(4)
计量
  • 文章访问数:  3328
  • HTML全文浏览量:  668
  • PDF下载量:  564
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-02-29
  • 修回日期:  2016-04-20
  • 刊出日期:  2017-02-20

基于全基因组的毛竹同义密码子使用偏好性分析

doi: 10.11833/j.issn.2095-0756.2017.01.017
    基金项目:

    浙江省自然科学基金资助项目 Y307499

    浙江省自然科学基金资助项目 LY13C160011

    国家自然科学基金资助项目 30901155

    浙江省大学生新苗人才计划项目 2015R412020

    作者简介:

    黄笑宇, 从事林学研究。E-mail:593796107@qq.com

    通信作者: 郭小勤, 副教授, 博士, 从事竹类植物遗传育种等研究。E-mail:xqguo@zafu.edu.cn
  • 中图分类号: S722;S795.7

摘要: 密码子使用偏好性是物种在遗传信息传递过程中的一个重要特点,分析物种的密码子使用偏好性对于了解该物种遗传信息的传递规律具有重要意义。应用CodonW软件对毛竹Phyllostachys edulis基因组中的26 103个蛋白质编码基因序列进行了分析,计算了位于密码子3个位置的G+C含量、有效密码子数、同义密码子的使用频率等,确定了毛竹的最优密码子。结果显示:毛竹密码子第1位和第3位的G+C含量明显高于第2位,表现出对以G或C碱基开头和结尾的密码子发生强烈偏向使用,且确定的26种最优密码子均以G/C碱基结尾。与模式动植物酵母Saccharomys cerevisiae,大肠埃希菌Escherichia coli,果蝇Drosophila melanogaster,拟南芥Arabidopsis thaliana,烟草Nicotiana tabacum,水稻Oryza sativa,玉米Zea mays,小麦Triticum aestivum等8个代表性物种进行比较,结果显示:毛竹密码子偏好性与模式动植物存在不同程度的差异,与大肠埃希菌、酵母、果蝇、拟南芥、烟草和玉米的差异较大,差异分别为8个、11个、6个、7个、6个和6个,而与小麦的差异较小(1个),与水稻完全一致。密码子偏好性差异大小在一定程度上反映物种间的进化关系。

English Abstract

黄笑宇, 许在恩, 郭小勤. 基于全基因组的毛竹同义密码子使用偏好性分析[J]. 浙江农林大学学报, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
引用本文: 黄笑宇, 许在恩, 郭小勤. 基于全基因组的毛竹同义密码子使用偏好性分析[J]. 浙江农林大学学报, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
Citation: HUANG Xiaoyu, XU Zaien, GUO Xiaoqin. Synonymous codon bias of Phyllostachys edulis[J]. Journal of Zhejiang A&F University, 2017, 34(1): 120-128. doi: 10.11833/j.issn.2095-0756.2017.01.017
  • 三联密码子是整个生物王国的核心,作为最基本的编码组分编码特定的氨基酸。除了甲硫氨酸Met和色氨酸Trp外,同一个氨基酸会由2~6个同义密码子编码[1]。根据中心法则,尽管同义突变不会引起蛋白序列的变化,但同义密码子使用偏好性在基因组内和基因组间广泛存在[2-4]。密码子使用偏好性是物种在遗传信息传递过程中的一个重要特点,分析物种的密码子使用偏好性对于了解该物种遗传信息的传递规律具有重要意义。密码子使用偏好性的研究有助于更好地理解分子生物及进化,信使核糖核酸(mRNA)翻译,转基因设计,新基因发现,以及其他生物应用[3-6]。几十年来,大量模式物种如拟南芥Arabidopsis thaliana,水稻Oryza sativa,果蝇Drosophila melanogaster,杨树Populus trichocarpa等的测序产生了大量的开放阅读框,这些全长编码序列作为密码生物学的基础,为研究密码子使用模式提供了强有力的保障。随着深度测序技术的快速发展,非模式植物也纷纷被测序,产生了大量的序列,有关密码子使用模式的工作也逐渐拉开序幕[7]。毛竹Phyllostachys edulis为禾本科Gramineae多年生木本植物,地上部分可材用,地下部分发育的笋可食用。毛竹基因组序列测定[8],产生了大量基因组及编码区序列,为研究毛竹密码子的使用情况提供了大量的信息。本研究通过分析毛竹全基因组编码序列数据,了解毛竹基因密码子用法特征,并与不同代表性物种进行比较。这些分析有助于我们理解毛竹的密码子模式,提升植物密码子使用的研究,同时为毛竹基因选择合适的表达系统,优化密码子提高基因表达量等提供重要理论基础。

    • http://202.127.18.221/bamboo/index.php的毛竹基因组注释数据中获取了31 987条蛋白质对应的编码基因序列(coding DNA sequence,CDS),从中挑选出以ATG为起始密码子,以TAA,TAG或TGA为终止密码子的,且CDS长度大于300 bp的26 103个基因作为序列分析样本[9]。这个数据库中已经去除所有假基因的信息。

    • 采用C语言编写程序进行序列筛选与处理。

    • 采用EMBOSS软件包中的CHIPS和CUSP程序在线http://emboss.bioinformatics.nl及CodonW1.4.4(http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::codonw)对毛竹全基因编码序列进行分析,计算有效密码子数(effective number of codons,Enc),CDS区的GC含量,密码子中第3位碱基的GC含量(GC3s),同义密码子相对使用频率(relative synonymous codon usage,RSCU)及密码子使用概率。

      衡量同义密码子使用偏好性参数的含义:①有效密码子数(Enc)。该值被认为是在评价基因整体密码子偏好性用法中最具有参考价值的参数之一,目前被广泛用于评价基因密码子偏好性,其取值范围为20(每个氨基酸只使用1个密码子的极端情况)到61(各个密码子均被平均使用)[10]。②同义密码子相对使用频率RSCU。该值的计算方法为某一密码子所使用的频率与其在无偏好使用时预期频率之间的比值,若某一密码子的RSCU值等于1,则表明该密码子的使用没有偏好性;RSCU值大于l,表明该密码子的使用频率相对较高,反之亦然。它去除了氨基酸组成对密码子使用的影响,且直观地反映了密码子使用的偏好性[11]。③同义密码子使用的绝对频率(Fract)。该值表示各个密码子在编码该氨基酸的密码子中所占的比例(各比例相加总和为1)[12]

    • 采用STENICO等[13]的方法,把密码子使用偏好性强和弱的2组基因之间相应密码子出现频率之差达到统计学上显著水平的密码子定义为最优密码子。具体方法如下:通过计算样本中每个基因的有效密码子数,并按该值的大小对基因进行排列,从这一排列的两端各取基因样本总数的5%,分别组成高、低表达样本组。计算这2组基因的相对密码子使用度,并进行卡方检验,确定最优密码子[14]

    • 运用CUSP程序计算毛竹基因各密码子的使用频率,并与从Codon Usage Database(http://www.kazusa.or.jp/codon/)中获得的果蝇,酵母Saccharomys cerevisiae,大肠埃希菌Escherichia coli,拟南芥,烟草Nicotiana tabacum,水稻,玉米Zea mays,小麦Triticum aestivum等的密码子使用频率进行比较。密码子使用频率若为0.5~2.0,表明这2个物种对该密码子的偏好性较接近,若≥2.0或≤0.5,则表明偏好性差异较大[15]

    • 利用SPSS 19.0对毛竹及其他9个物种进行基于密码子使用偏好性的聚类分析,方法参考文献[15]。

    • 将毛竹基因组注释数据中获取到的31 987条蛋白质对应的编码基因序列进行筛选后,获得26 103条有效序列,将这些序列作为一整体,在线计算了其有效密码子数及密码子第1位、第2位、第3位和3个位置平均的碱基GC百分率,结果见表 1。毛竹基因整体的有效密码子数为57.88,表明毛竹整体基因的密码子存在一定程度偏好,但偏好性不强。从密码子的GC含量来看,3个位置平均GC含量为0.52。其中,GC1含量为0.56,比GC2(0.44)高0.12,而GC3含量(0.57)比GC1略高0.01,表明选择压力使得毛竹密码子的第1位倾向于选择G/C,第2位倾向于选择T/A,第3位可以有大幅摆动。

      表 1  毛竹基因密码子中3个位置的GC含量及有效密码子数值

      Table 1.  GC content of different positions and effective number of codons in Phyllostachys edulis

      基因/个 密时子/个 笫1位置 第2位迓 第3位罝 3位置平均 有效密时子数
      26 103 11 634 464 0.56 0.44 0.57 0.52 57.88
    • 经软件计算的同义密码子使用次数及频率结果见表 2。在64个密码子中,GAG是出现次数最高的密码子,绝对频率为39.21,是毛竹平均频率的2.51倍;紧随其后的是AAG,达到33.90;处于第3位的是GAU,为28.40;CGA的出现频率最低,仅为5.34,是毛竹平均频率的1/3;另有6个密码子(UUA,CUA,GUA,ACG,UGU,CGU)的频率小于10.00(表 2)。

      表 2  毛竹基因同义密码子的使用频率毛竹基因同义密码子的使用频率

      Table 2.  Frequency of synonymous codons in genes of Phyllostachys edulis

      氨基酸 密码子 出现次数/次 绝对频率 相对频率(RSCU)
      笨丙氨酸Phe UUU 177 259 15.202 0.84
      UUC 245 828 21.082 1.16
      亮氨酸Leu UUA 83 127 7.129 0.45
      UUG 200 316 17.179 1.08
      CUU 213 205 18.284 1.14
      CUC 269 853 23.142 1.45
      CUA 97 208 8.336 0.52
      CUG 254 016 21.784 1.36
      异亮氨酸Ile AUU 192 698 16.526 1.12
      AUC 206 620 17.720 1.20
      AUA 118 527 10.165 0.69
      蛋筑酸Met AUG 278 037 23.844 1.00
      缬筑酸Val GUU 215 712 18.499 1.10
      GUC 205 738 17.644 1.04
      GUA 92 064 7.895 0.47
      GUG 274 313 23.525 1.39
      丝筑酸Ser UCU 179 360 15.382 1.10
      UCC 183 357 15.725 1.12
      UCA 177 440 15.217 1.09
      UCG 121 924 10.456 0.75
      腩筑酸Pro CCU 165 860 14.224 1.07
      CCC 125 023 10.722 0.81
      CCA 173 732 14.899 1.13
      CCG 152 555 13.083 0.99
      苏氨酸Thr ACU 141 566 12.141 1.02
      ACC 152 386 13.068 1.10
      ACA 155 105 13.302 1.12
      ACG 105 160 9.018 0.76
      丙筑酸Ala GCU 258 646 22.181 1.03
      GCC 284 302 24.381 1.13
      GCA 235 235 20.174 0.94
      GCG 227 989 19.552 0.91
      酪氨酸Tyr UAU 127 108 10.901 0.85
      UAC 171 249 14.686 1.15
      TER UAA 6 422 0.551 0.74
      UAG 7 782 0.667 0.89
      组筑酸His CAU 141 958 12.174 1.00
      CAC 140 843 12.079 1.00
      谷筑酰胺Gln CAA 167 201 14.339 0.79
      CAG 254 576 21.832 1.21
      天冬酜胺Asn AAU 211 015 18.096 0.99
      AAC 216 215 18.542 1.01
      検氨酸LyS AAA 207 746 17.816 0.69
      AAG 395 286 33.899 1.31
      天冬筑酸Asp GAU 331 197 28.403 1.05
      GAC 297 586 25.521 0.95
      谷氨酸Glu GAA 281 313 24.125 0.76
      GAG 457 181 39.207 1.24
      半咣筑酸Cys UGU 81 296 6.972 0.74
      UGC 138 420 11.871 1.26
      TER UGA 11 899 1.020 1.37
      色氨酸Trp UGG 152 825 13.106 1.00
      精筑酸Arg CGU 74 482 6.388 0.62
      CGC 138 100 11.843 1.14
      CGA 62 215 5.336 0.51
      CGG 125 552 10.767 1.04
      丝氨酸Ser AGU 127 392 10.925 0.78
      AGC 189 258 16.231 1.16
      衍筑酸Arg AGA 134 872 11.567 1.12
      AGO 189 633 16.263 1.57
      苷筑酸Gly GGU 192 842 16.538 0.90
      GGC 280 247 24.034 1.31
      GGA 187 574 16.086 0.88
      GGG 195 121 16.733 0.91
      说明:下划线表示RSCU大于1的密码子。

      有34个密码子的RSCU值大于1,这些密码子为毛竹基因的偏好密码子,其中约1/3的密码子以A/U结尾,2/3的密码子以G/C结尾。AGG(编码Arg),CUC(编码Leu)和GUG(编码Val)的RSCU值处于前3位,分别为1.57,1.45和1.39。CUG(编码Cys)以及AAG(编码Lys)和GGC(编码Gly)相对于其同义密码子的使用频率高,分别为1.36和1.31。这5个密码子为本文的高频率密码子。

      4个NUA密码子的RSCU值最低,AUA为0.69,CUA为0.52,GUA为0.47,UUA为0.45,表明这几个是毛竹基因避免使用的密码子。4个NCG的RSCU值相对来说接近于平均水平甚至更低,CCG为0.99,GCG为0.91,ACG为0.76,UCG为0.75,表明毛竹体内的甲基化水平可能较低或中等,这点从NCG:NCC的比值(为0.82)也可看出。终止密码子UGA在毛竹基因中的使用频率较其余2个终止密码子高,为1.02,其次是UAG,RSCU值为0.67,UAA的使用频率最低,仅为0.55。

    • 不仅同义密码子间存在偏好性,且密码子本身的使用也存在偏好性。目前,关于毛竹基因表达的数据偏少,多数转录组测序的数据也基于几个毛竹的特异组织。因此,本研究依据Enc值来衡量基因的表达量。表 3中的结果是通过计算高表达/低表达基因之间同义密码子相对使用频率之差,经卡方测验确定的毛竹中的最优密码子,用*号标记,共26个。这些密码子均以G/C结尾,表明在高表达基因中优先使用这些密码子。这些密码子的使用频率在高表达基因组与低表达基因组之间的差异达到极显著水平。

      表 3  毛竹中高/低表达样本的密码子用法

      Table 3.  Codon usage of high/low expressed genes in Phyllostachys edulis

      氨基酸 密码子
      数量/个 RSCU 数量/个 RSCU
      Phe UUU 550 0.07 17 107 1.28
      UUC* 14 471 1.93 9 706 0.72
      Leu UUA 107 0.02 10 064 0.85
      UUG 1 172 0.19 17 142 1.45
      CUU 1 074 0.18 18 765 1.58
      CUC* 19 835 3.28 6 415 0.54
      CUA 605 0.1 8 271 0.7
      CUG* 13 472 2.23 10 464 0.88
      Ile AUU 536 0.12 18 226 1.45
      AUC* 11 396 2.73 8 154 0.65
      AUA 611 0.15 11 292 0.9
      Val GUU 836 0.11 21 662 1.73
      GUC* 13 280 1.77 7 106 0.57
      GLA 493 0.07 9 334 0.75
      GUG* 15 329 2.05 11 844 0.95
      Tyr UAU 316 0.06 12 303 1.31
      UAC 10 241 1.94 6 541 0.69
      His CAU 530 0.12 14 620 1.46
      CAC* 8 171 1.88 5 466 0.54
      Gln CAA 681 0.13 17 457 1.05
      CAG* 9 443 1.87 15 734 0.95
      Asn AAU 641 0.12 23 601 1.34
      AAC* 9 785 1.88 11 686 0.66
      Lys AAA 650 0.09 22 589 0.98
      AAG* 13 132 1.91 23 377 1.02
      Asp GAU 1 393 0.14 33 692 1.46
      GAC* 18 250 1.86 12 413 0.54
      Glu GAA 984 0.1 30 614 1.13
      GAG* 18 403 1.9 23 754 0.87
      Ser UCU 780 0.17 21 517 1.67
      ICC* 9 894 2.2 7 839 0.61
      UCA 575 0.13 20 029 1.55
      LCG* 7 656 1.7 3 859 0.3
      AGU 392 0.08 14 622 1.13
      AGC* 7 735 1.72 9 612 0.74
      Pro CCU 1 054 0.19 15 839 1.63
      CCC* 7 554 1.36 4 437 0.46
      CCA 1 105 0.2 15 688 1.62
      CCG* 12 521 2.25 2 834 0.29
      Thr ACU 494 0.11 14 804 1.53
      ACC* 8 693 1.92 5 894 0.61
      ACA 587 0.13 15 321 1.59
      ACG* 8 327 1.84 2 583 0.27
      Ala GCU 1 895 0.17 23 625 1.72
      GCC* 21 775 1.9 7 404 0.54
      GCA 1 754 0.15 20 285 1.47
      GCG* 20 410 1.78 3 769 0.27
      Cys LGU 223 0.06 8 175 1.15
      LGC* 6 655 1.94 5 992 0.85
      Arg CGU 707 0.16 5 582 0.82
      CGC* 12 045 2.74 2 958 0.43
      CGA 565 0.13 4 509 0.66
      CGG* 8 353 1.9 3 555 0.52
      Arg AGA 427 0.1 13 864 2.03
      AGO 4 306 0.98 10 524 1.54
      Gly GGU 1 432 0.18 17 148 1.37
      GGC* 20 195 2.53 8 623 0.69
      GGA 1 551 0.19 15 565 1.25
      GGG* 8 780 1.1 8 577 0.69
      说明:经卡方测验确定的毛竹中的最优密码子。
    • 将毛竹与3种模式生物大肠埃希菌、酵母和果蝇密码子使用频率比较,比值0.5~2.0表明2物种使用该密码子的偏好性相似,比值小于0.5或大于2.0,表明该密码子的使用偏好性差异较大。结果显示:毛竹与大肠埃希菌、酵母和果蝇密码子的比值中,分别有8,11,6个小于0.5或大于2.0,表明毛竹与这些模式生物之间的密码子偏好性存在一定差异。

      表 4的结果显示:毛竹与双子叶植物的代表种拟南芥和烟草的密码子偏好性差异性较大,比值大于2.0或小于0.5的分别有7个和6个,与同科植物相比,与C4植物玉米的密码子偏好性差异也较大,有6个,而与C3植物水稻和小麦的偏好性一致。

      表 4  毛竹与模式植物的密码子偏好性比较

      Table 4.  Comparison of codon preference between bamboo and other model plants

    • 根据各物种编码序列密码子的使用频率,利用SPSS 19.0进行聚类分析(图 1)。从图 1可以看出:双子叶植物拟南芥和烟草密码子使用偏好更相近,禾本科植物毛竹与水稻的最近,其次与小麦和玉米。利用密码子使用频率得出的聚类结果一定程度上反映了各物种间的进化关系。

      图  1  基于不同物种密码子使用频率的聚类分析

      Figure 1.  Cluster analysis dendrogram of frenquency of codon usage of different species

    • 在长期的进化过程中,不同物种对进化环境和选择压力的适应不同,因此,任何一个物种都会形成特定的密码子用法以适应其基因组环境,最终使其宿主适应外界进化环境。由此,不同物种就形成了各自特定的密码子偏好性。若要通过基因工程技术改造某一物种或将某一基因用于体外表达,应先按照宿主的密码子使用偏好性对所导入的基因进行优化和改造。本研究在毛竹全基因组测序的基础上,对编码蛋白基因的密码子偏好性进行了分析,结果表明与很多物种包括人、细菌、酵母、果蝇、玉米、草菇Volvariella volvacea等相似[15-16],毛竹基因密码子偏好使用G/C结尾的密码子,这种密码子使用偏好性有利于保证翻译的准确性[17-18],但与同为植物界的双子叶植物相比,密码子使用偏好性差异较大,双子叶植物偏好使用以A或T结尾的密码子[14, 19-20]

      从GC含量上看,很多植物的密码子的GC1含量均比GC2高,两者含量的差异达到0.096(Medicago truncatula)~0.155(Micromonas pusilla RCC299)。裸子植物、单子叶植物、绿藻等物种GC3的含量一般来说略高于GC1[7]。本研究中的毛竹GC1含量比GC2高0.12,而GC3含量比GC1高0.01,表明选择压力对毛竹密码子不同位置的碱基组成影响不同。不同物种中GC3会随着进化不同而发生变化[7, 21-22]。一般来说,原始的单细胞或多细胞绿色植物GC3含量会比较高,为0.690~0.854,苔藓植物为0.481~0.578,而被子植物GC3s的含量变异差异比较大,单子叶植物的变异范围为0.581~0.609,优等双子叶植物的变异范围为0.335~0.482。本研究中毛竹GC3s为0.52,超出了单子叶植物的变异范围。这样的特例在其他物种中也有发生,如莱茵衣藻Chlamydomonas reinhardtii,团藻Volvox carteri和细小微胞藻Micromonas pusilla[7]

      本研究用CodonW软件分析了毛竹同义密码子的RSCU值,发现AGG,CUC,GUG,AAG和UGC 5个密码子为本文的高频率密码子。而4个NUA密码子RSCU值较低,AUA为0.69,CUA为0.52,GUA为0.47,UUA为0.45,表明毛竹基因避免使用UA密码子,同一现象在其他物种中也发现,可能因为低含量的UA抑制了mRNA的降解,提高蛋白产物或产量[23]。毛竹中终止密码子的使用以UGA的使用频率最高,与大多数植物相吻合[24]

      NCG:NCC的比值已广泛用于评估CpG抑制,反映了编码区甲基化水平,尤其在真双子叶植物。甲基化水平低的物种往往其NCG:NCC的比值相对较高,如拟南芥(0.921),深山南芥Arabis lyrata(0.93);而高甲基化水平的物种,该比值相对较低,如葡萄Vitis vinifera(0.414),杨树(0.463);甲基化程度中等的物种;该比值中等,如苹果Malus×domestica(0.639),番茄Solanum lycopersicon(0.634)。毛竹中该比值为0.819 7,表明毛竹为低甲基化水平的物种。由此可以判断:甲基化水平对毛竹的生长发育过程影响有限[7]

      本研究使用同义密码子相对使用频率(RSCU)方法鉴定出26个最优密码子,全部以G/C结尾,毛竹编码蛋白序列的GC含量平均为52.4%,因此,本研究结果符合一般规律,即富含GC碱基的基因组中最优密码子也富含GC[2, 25]。通过比较某一特定基因与外源表达系统之间的密码子使用偏好性差异,从而分析是否会引起甲基化,导致基因表达量下降或基因沉默[26],从而改造密码子以提高外源基因在宿主中的表达[27-29]。本研究将毛竹基因组密码子的偏好性与模式动植物大肠埃希菌、酵母、果蝇、拟南芥、烟草、玉米、水稻和小麦待密码子偏好性相比,结果表明:毛竹与不同物种的差异程度不同,其中与大肠埃希菌和酵母的差异最大,而与同科C3植物水稻和小麦的偏好性一致。因此,要将毛竹基因进行体外表达时,需要通过密码子的改造,来提高表达效率。若要将毛竹基因用于水稻和小麦中表达时,可以不用经密码子优化直接进行外源基因表达。本研究的聚类结果表明:密码子偏好性差异大小在一定程度上反映物种间的进化关系,与传统分类有一定的吻合性,但不完全吻合,这与其他物种的基于密码子偏好性聚类的结果类似[4, 15],很可能是因为参数选择单一造成的。该研究结果可为毛竹基因外源表达选择合适的受体提供理论基础,同时,还为将毛竹基因转入模式生物中进行功能验证提供基础资料。

    • 本研究对毛竹基因组中的26 103个蛋白质编码基因序列进行了分析,根据同义密码子相对使用频率(RSCU值)确定了毛竹中的最优密码子26个,且均以G/C结尾。同时与模式动植物9个代表性物种进行了比较,毛竹密码子偏好性与水稻完全一致。

参考文献 (29)

目录

    /

    返回文章
    返回