留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

云锦杜鹃转录组分析

许蔷薇 楼雄珍 杨彬 林二培 童再康

许蔷薇, 楼雄珍, 杨彬, 林二培, 童再康. 云锦杜鹃转录组分析[J]. 浙江农林大学学报, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017
引用本文: 许蔷薇, 楼雄珍, 杨彬, 林二培, 童再康. 云锦杜鹃转录组分析[J]. 浙江农林大学学报, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017
XU Qiangwei, LOU Xiongzhen, YANG Bin, LIN Erpei, TONG Zaikang. Transcriptome sequencing and analysis of Rhododendron fortunei[J]. Journal of Zhejiang A&F University, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017
Citation: XU Qiangwei, LOU Xiongzhen, YANG Bin, LIN Erpei, TONG Zaikang. Transcriptome sequencing and analysis of Rhododendron fortunei[J]. Journal of Zhejiang A&F University, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017

云锦杜鹃转录组分析

doi: 10.11833/j.issn.2095-0756.2019.06.017
基金项目: 

浙江省农业新品种选育重大科技专项 2016C02052-12

详细信息
    作者简介: 许蔷薇, 从事林木遗传育种研究。E-mail:459262240@qq.com
    通信作者: 童再康, 教授, 博士, 从事林木遗传育种等研究工作。E-mail:zktong@zafu.edu.cn
  • 中图分类号: S722.3;Q753

Transcriptome sequencing and analysis of Rhododendron fortunei

  • 摘要: 云锦杜鹃Rhododendron fortunei具有很高的园艺观赏价值。由于缺乏相关的遗传信息,云锦杜鹃的多样性、分子辅助育种等工作进展较为缓慢。通过高通量测序技术(Illumina),对云锦杜鹃的转录组进行了测定和分析。通过测序拼接和去冗余共获得84 633条单基因簇(unigene)序列,平均长度为691.4 bp。通过与公共数据库比对成功注释到了35 526条单基因簇,其中与葡萄Vitis vinifera基因相似的序列最多。根据基因本体论数据库(GO)可将23 215个单基因簇归类于生物学过程、细胞组分及分子功能等三大类的55个功能组;真核直系同源基因数据库(KOG)将11 085条单基因簇分为26个功能分类,涉及一般功能预测的单基因簇最多,多达1 970条;以京都基因与基金组百科全书(KEGG)作为参考,依据代谢途径可将9 887个单基因簇定位到272个代谢通路。进一步分析基因注释结果,挖掘获得24个编码MADS-box基因的单基因簇分属于10个不同亚家族。此外,检测到了21 900个简单序列重复(SSR)位点,可用于SSR标记开发。
  • 图  1  云锦杜鹃单基因簇Nr数据库比对相似性物种分布图

    Figure  1  Similarity of unigenes of R. fortunei with those of other species in Nr database

    图  2  云锦杜鹃单基因簇的GO功能分类

    Figure  2  GO functional categories of R. fortunei unigenes

    图  3  云锦杜鹃单基因簇的KOG功能分类

    Figure  3  KOG functional categories of R. fortunei unigenes

    图  4  云锦杜鹃SSR类型数量分布

    Figure  4  Distribution of SSR motif number of R. fortunei

    表  1  云锦杜鹃转录组组装结果

    Table  1.   Summary of transcriptome assembly for R. fortunei

    长度范围/bp 转录本/个 单基因簇/个
    <301 35 575(31.54) 32 101(37.93)
    301~500 25 511(22.62) 20 759(24.53)
    501~1 000 22 466(19.92) 15 142(17.89)
    1 001~2 000 18 807(16.68) 10 871(12.84)
    >2 000 10 418(9.24) 5 760(6.81)
      总数 112 777 84 633
      总长度 91 621 682 58 517 298
      N50长度 1 410 1 177
      平均长度 812.4 691.4
    说明:括号内数值为占总数的百分比(%)
    下载: 导出CSV

    表  2  云锦杜鹃单基因簇功能注释

    Table  2.   Annotation of unigenes in transcriptome of R. fortunei

    数据库 被注释的单基因簇/条 百分比/%
    Nr 30 700 36.27
    KEGG 9 887 11.68
    Nt 18 046 21.32
    SwissProt 22 202 26.23
    Pfam 22 882 27.03
    GO 23 215 27.43
    KOG 11 085 13.09
    总计 35 526 41.97
    下载: 导出CSV

    表  3  云锦杜鹃单基因簇的KEGG分析

    Table  3.   Summary KEGG pathway of R. fortunei transcriptome

    KEGG通路 通路ID 单基因簇/条
    碳代谢carbon metabolism ko01200 377
    核糖体ribosome ko03010 364
    氨基酸合成biosynthesis of amino acids ko01230 348
    内质网蛋白加工protein processing in endoplasmic reticulum ko04141 319
    剪切体spliceosome ko03040 256
    植物激素信号转导plant hormone signal transduction ko04075 244
    淀粉和蔗糖代谢starch and sucrose metabolism ko00500 240
    RNA转运RNA transport ko03013 227
    氧化磷酸化oxidative phosphorylation ko00190 224
    植物病原物互作plant-pathogen interaction ko04626 210
    内吞作用endocytosis ko04144 194
    嘌呤代谢purine metabolism ko00230 193
    糖酵解途径glycolysis / gluconeogenesis ko00010 184
    泛素介导蛋白降解ubiquitin mediated proteolysis ko04120 174
    mRNA监测通路mRNA surveillance pathway ko03015 171
    苯丙素生物合成phenylpropanoid biosynthesis ko00940 169
    细胞周期cell cycle ko04110 168
    氨基糖和核苷酸糖代谢amino sugar and nucleotide sugar metabolism ko00520 160
    嘧啶代谢pyrimidine metabolism ko00240 148
    RNA降解RNA degradation ko03018 146
    说明:注释数量总数为15 455
    下载: 导出CSV

    表  4  云锦杜鹃成花相关MADS-box基因鉴定

    Table  4.   Identification of Floral related MADS-box genes of R. fortunei

    序列号 注释 功能 亚家族
    c18022_g1 Agamous-like MADS-box protein AGL15 雄蕊,心皮,胚珠和果实发育;花分生组织发育 AG
    c70492_g1 Agamous-like MADS-box protein AGL12 花期转变 AGL12
    c12164_g1 Agamous-like MADS-box protein AGL15 胚胎发育 AGL15
    c41091_g4 MADS-box transcription factor 27 促进开花 AGL17
    c39737_g1 MADS-box transcription factor 27 促进开花 AGL17
    c36841_g1 Agamous-like MADS-box protein AGL21 促进开花 AGL17
    c38538_g1 MADS-box transcription factor 27 促进开花 AGL17
    c40334_g4 MADS-box transcription factor 27 促进开花 AGL17
    c18716_g1 Agamous-like MADS-box protein AGL3 花被发育;花分生组织发育 AGL2
    c33061_g1 Agamous-like MADS-box protein AGL9 homolog 花被发育;花分生组织发育 AGL2
    c29354_g1 Floral homeotic protein DEFICIENS 花瓣和雄蕊发育 DEF
    c32438_g1 Agamous-like MADS-box protein AGL31 花期调控;成花抑制 FLC
    c37758_g1 MADS-box protein FLOWERING LOCUS C 花期调控;成花抑制 FLC
    c50592_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
    c10093_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
    c9572_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
    c2583_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
    c37773_g1 MADS-box protein SVP 花期调控;成花抑制和激活 SVP
    c31351_g1 MADS-box protein SVP 花期调控;成花抑制和激活 SVP
    c30064_g1 MADS-box protein JOINTLESS 花期调控;成花抑制和激活 SVP
    c33061_g2 MADS-box protein SVP 花期调控;成花抑制和激活 SVP
    c73448_g1 MADS-box transcription factor 56 花期调控;成花激活 TM3
    c20770_g1 MADS-box transcription factor 50 花期调控;成花激活 TM3
    c5966_g1 MADS-box protein SOC1 花期调控;成花激活 TM3
    下载: 导出CSV

    表  5  云锦杜鹃转录组SSR分析结果

    Table  5.   Summary of SSR in R. fortunei transcriptome

    搜索项目 数量/个
    分析序列数量total number of sequences examined 84 633
    分析序列长度total size of examined sequences(bp) 58 517 298
    SSR位点总数total number of identified SSRs 21 900
    包含SSR位点序列数number of SSR containing sequences 17 414
    包含1个以上SSR位点序列数number of sequences containing more than 1 SSR 3 606
    复合形式存在的SSR位点数number of SSRs present in compound formation 1 437
    单碱基重复mono-nucleotide 6 448
    二碱基重复di-nucleotide 12 294
    三碱基重复tri-nucleotide 2 970
    四碱基重复tetra-nucleotide 140
    五碱基重复penta-nucleotide 25
    六碱基重复hexa-nucleotide 23
    下载: 导出CSV
  • [1] UNAMBA C I N, AKSHAY N, SHARMA R K. Next generation sequencing technologies:the doorway to the unexplored genomics of non-model plants[J]. Front Plant Sci, 2015, 6:1074.
    [2] PARAMPREET K, KISHOR G. From genomes to GENE-omes:exome sequencing concept and applications in crop improvement[J]. Front Plant Sci, 2017, 8:2164.
    [3] ZHANG Yue, ZHANG Xue, WANG Yuehua, et al. De novo assembly of transcriptome and development of novel EST-SSR markers in Rhododendron rex Lévl. through Illumina Sequencing[J]. Front Plant Sci, 2017, 8:1664.
    [4] COSTA V, ANGELINI C, de FEIS I, et al. Uncovering the complexity of transcriptomes with RNA-Seq[J]. J Biomed Biotechnol, 2010:853916. doi:10.1155/2010/853916.
    [5] WANG Zhong, GERSTEIN M, SNYDER M. RNA-Seq:a revolutionary tool for transcriptomics[J]. Nat Rev Genet, 2009, 10(1):57-63.
    [6] WU Zhengyi, RAVEN P, HONG D Y. Flora of China:Vol 14[M]. Beijing:Science Press, 2005:260-455.
    [7] 曾红, 钱慧琴, 梁兆昌, 等.云锦杜鹃枝叶化学成分研究[J].中草药, 2013, 44(22):3123-3126.

    ZENG Hong, QIAN Huiqin, LIANG Zhaochang, et al. Chemical constituents in twigs and leaves of Rhododendron fortunei[J]. Chin Med Mat, 2013, 44(22):3123-3126.
    [8] LAI Yongqi, ZENG Hong, HE Meijun, et al. 6, 8-Di-C-methyl-flavonoids with neuroprotective activities from Rhododendron fortunei[J]. Fitoterapia, 2016, 112:237-243.
    [9] 徐晓锋, 潘德月, 陈江芳, 等.浙江大盘山杜鹃花属植物资源及其保护与利用[J].中国野生植物资源, 2017, 36(1):58-61.

    XU Xiaofeng, PAN Deyue, CHEN Jiangfang, et al. Study on rxploitation and utilization of Rhododendron Linn. in Dapanshan, Zhejiang Province[J]. Chin Wild Plant Resour, 2017, 36(1):58-61.
    [10] 邓贤兰, 刘鹏, 吴杨, 等.井冈山云锦杜鹃群落特征研究[J].亚热带植物科学, 2011, 40(4):20-25.

    DENG Xianlan, LIU Peng, WU Yang, et al. Studies on the community characteristics of Rhododendron fortunei in Jinggang Mountain[J]. Subtrop Plant Sci, 2011, 40(4):20-25.
    [11] 王书胜, 单文, 张乐华, 等.基质和IBA浓度对云锦杜鹃扦插生根的影响[J].林业科学, 2015, 51(9):165-172.

    WANG Shusheng, SHAN Wen, ZHANG Lehua, et al. Effects of media and IBA concentrations on rooting of Rhododendron fortunei for cutting propagation[J]. Sci Silv Sin, 2015, 51(9):165-172.
    [12] 李钧敏, 金则新, 杨蓓芬.云锦杜鹃总黄酮含量及成分分析[J].西北林学院学报, 2004, 19(1):110-112.

    LI Junmin, JIN Zexin, YANG Beifen. The content and analysis of the components of flavonoids in Rhododendron fortunei[J]. J Northwest For Univ, 2004, 19(1):110-112.
    [13] 柯世省, 杨敏文.水分胁迫对云锦杜鹃光合生理和光温响应的影响[J].园艺学报, 2007, 34(4):959-964.

    KE Shisheng, YANG Minwen. Effects of water stress on photosynthetic physiological characteristics in leaves of Rhododendron fortunei and their response to light and temperature[J]. Acta Hortic Sin, 2007, 34(4):959-964.
    [14] WEI Xiangying, CHEN Jianjun, ZHANG Chunying, et al. Differential gene expression in Rhododendron fortunei roots colonized by an ericoid mycorrhizal fungus and increased nitrogen absorption and plant growth[J]. Front Plant Sci, 2016, 7:1594.
    [15] GRABHEER M G, HAAS B J, YASSOUR M, et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nat Biotechnol, 2011, 29:644-652.
    [16] KRIZEK B A, FLETCHER J C. Molecular mechanisms of flower development:an armchair guide[J]. Nat Rev Genet, 2005, 6(9):688-698.
    [17] FENG Chao, CHEN Ming, XU Changjie, et al. Transcriptomic analysis of Chinese bayberry (Myrica rubra) fruit development and ripening using RNA-Seq[J]. BMC Genomies, 2012, 13(1):19.
    [18] XU Wei, CUI Qinghua, LI Fei, et al. Transcriptome-wide identification and characterization of MicroRNAs from castor bean (Ricinus communis L.)[J]. PLoS One, 2013, 8(7):e69995. doi:10.1371/journal.pone.0069995.
    [19] CHEN Chunling, XU Meilong, WANG Wenwen, et al. Characterization of the Lycium barbarum fruit transcriptome and development of EST-SSR markers[J]. PLoS One, 2017, 12(11):e0187738. doi:10.1371/journal.pone.0187738.
    [20] 黄玉兰, 殷奎德, 向君亮.薏苡幼苗叶片转录组分析[J].农业生物技术学报, 2017, 25(3):386-396.

    HUANG Yulan, YIN Kuide, XIANG Junliang. Analysis transcriptome of coix (Coix lachryma-jobi) leaf at seedling stage[J]. J Agric Biotech, 2017, 25(3):386-396.
    [21] YANG Yanhui, LI Mingjie, YI Yanjie, et al. The root transcriptome of Achyranthes bidentata and the identification of the genes involved in the replanting benefit[J]. Plant Cell Rep, 2018, 37(4):611-625.
    [22] ZHANG Linsen, YANG Xiaoni, QI Xiangning, et al. Characterizing the transcriptome and microsatellite markers for almond (Amygdalus communis L.) using the Illumina sequencing platform[J]. Hereditas, 2018, 155(1):14.
    [23] 刘莉, 舒江平, 韦宏金, 等.东亚特有珍稀蕨类植物岩穴蕨(碗蕨科)高通量转录组测序及分析[J].生物多样性, 2016, 24(12):1325-1334.

    LIU Li, SU Jiangping, WEI Hongjin, et al. De novo transcriptome analysis of the rare fern Monachosorum maximowiczii (Dennstaedtiaceae) endemic to East Asia[J]. Biodivers Sci, 2016, 24(12):1325-1334.
    [24] 张少平, 邱珊莲, 郑云云, 等.紫色黄秋葵转录组功能基因测序及分析[J].核农学报, 2017, 31(4):643-653.

    ZHANG Shaoping, QIU Shanlian, ZHENG Yunyun, et al. The purple Abelmoschus esculentus transcriptome as a source for gene sequence information[J]. Acta Agric Nucl Sin, 2017, 31(4):643-653.
    [25] 罗冉, 吴委林, 张旸, 等. SSR分子标记在作物遗传育种中的应用[J].基因组学与应用生物学, 2010, 29(1):137-143.

    RUO Ran, WU Weilin, ZHANG Yang, et al. SSR marker and its application to crop genetics and breeding[J]. Genom Appl Biol, 2010, 29(1):137-143.
    [26] CHEN Honglin, WANG Lixia, LIU Xiaoyan, et al. De novo transcriptomic analysis of cowpea (Vigna unguiculata L. Walp.) for genic SSR marker development[J]. BMC Genet, 2017, 18(1):65.
    [27] 张敏, 周彩红, 陈焘, 等.榧树转录组SSR信息分析及其分子标记开发[J].果树学报, 2017, 34(10):1258-1265.

    ZHANG Min, ZHOU Caihong, CHEN Tao, et al. Analysis of SSR information in transcriptome and development of molecular markers in Torreya grandis[J]. J Fruit Sci, 2017, 34(10):1258-1265.
  • [1] 邓璇, 陈春兵, 邓静, 刘练练, 李娟, 查幸福.  桑葚幼果的落果与正常果的果柄转录组分析 . 浙江农林大学学报, 2023, 40(1): 45-54. doi: 10.11833/j.issn.2095-0756.20220205
    [2] 刘一灵, 刘奇源, 董帅, 张民, 罗燕, 李振华.  基于转录组和蛋白组数据联合分析浅光休眠烟草种子暗萌发的分子网络 . 浙江农林大学学报, 2023, 40(2): 237-243. doi: 10.11833/j.issn.2095-0756.20220515
    [3] 王佳琦, 王欣, 邓小梅, 吴蔼民.  基于代谢与转录水平的花榈木萜类合成候选基因分析 . 浙江农林大学学报, 2023, 40(5): 970-981. doi: 10.11833/j.issn.2095-0756.20220737
    [4] 郝力慧, 董彬, 朱绍华, 马进.  牡丹响应高温胁迫的转录组分析及PsHSP基因表达 . 浙江农林大学学报, 2021, 38(4): 802-811. doi: 10.11833/j.issn.2095-0756.20200529
    [5] 蒋琦妮, 付建新, 张超, 董彬, 赵宏波.  桂花OfAP1基因的克隆及表达分析 . 浙江农林大学学报, 2019, 36(4): 664-669. doi: 10.11833/j.issn.2095-0756.2019.04.005
    [6] 李思巧, 韦伊, 刘洪妤, 张志东, 张野, 王丽华, 刘玉林.  花椒cpSSR标记开发及在种间、种内的通用性分析 . 浙江农林大学学报, 2019, 36(6): 1241-1246. doi: 10.11833/j.issn.2095-0756.2019.06.023
    [7] 王罗云, 何彩云, 罗红梅, 张建国, 段爱国, 曾艳飞.  沙棘7个亚种与26个重要品种的遗传多样性 . 浙江农林大学学报, 2019, 36(4): 670-677. doi: 10.11833/j.issn.2095-0756.2019.04.006
    [8] 尹跃, 安巍, 赵建华, 王亚军, 樊云芳, 曹有龙.  黑果枸杞转录组SSR信息分析及分子标记开发 . 浙江农林大学学报, 2019, 36(2): 422-428. doi: 10.11833/j.issn.2095-0756.2019.02.025
    [9] 武丹阳, 杨洋, 李慧玉.  3个白桦BpBEE基因的克隆与表达分析 . 浙江农林大学学报, 2017, 34(1): 137-144. doi: 10.11833/j.issn.2095-0756.2017.01.019
    [10] 王庆灵, 刘文鑫, 赵嘉平.  山海关杨PdERF-18转录因子的表达特征分析 . 浙江农林大学学报, 2014, 31(5): 716-723. doi: 10.11833/j.issn.2095-0756.2014.05.009
    [11] 刘攀峰, 乌云塔娜, 杜兰英, 吴敏, 黄海燕, 杜红岩.  杜仲2-甲基-D-赤藓糖醇-2,4-环焦磷酸合酶基因全长cDNA克隆与序列分析 . 浙江农林大学学报, 2014, 31(3): 410-416. doi: 10.11833/j.issn.2095-0756.2014.03.013
    [12] 黄程前, 宋丽青, 童再康, 程龙军.  光皮桦BlFTL基因的克隆和表达模式 . 浙江农林大学学报, 2013, 30(3): 343-349. doi: 10.11833/j.issn.2095-0756.2013.03.006
    [13] 张振, 张含国, 张磊, 朱航勇, 李雪峰.  兴安落叶松基本群体与育种群体RAPD多样性分析 . 浙江农林大学学报, 2012, 29(1): 130-136. doi: 10.11833/j.issn.2095-0756.2012.01.022
    [14] 许晨璐, 张守攻, 孙晓梅.  针叶树基因组资源及其在遗传育种中的作用 . 浙江农林大学学报, 2012, 29(5): 768-777. doi: 10.11833/j.issn.2095-0756.2012.05.021
    [15] 林二培, 马海泉, 樊民亮, 骆文坚, 黄华宏, 童再康.  百山祖冷杉SSR体系的建立及人工辅助授粉子代的初步鉴定 . 浙江农林大学学报, 2011, 28(2): 234-240. doi: 10.11833/j.issn.2095-0756.2011.02.010
    [16] 宋红改, 蒋晶, 乔桂荣, 杨晔, 周婧, 潘銮银, 卓仁英.  利用酵母建立植物抗逆基因快速筛选体系 . 浙江农林大学学报, 2010, 27(6): 890-895. doi: 10.11833/j.issn.2095-0756.2010.06.014
    [17] 王正加, 黄有军, 夏国华, 郑炳松, 金松恒, 黄坚钦.  山核桃APETALA1同源基因的克隆与序列分析 . 浙江农林大学学报, 2008, 25(4): 427-430.
    [18] 吕志伟, 边才苗.  天台山云锦杜鹃幼树的构型分析 . 浙江农林大学学报, 2007, 24(6): 696-701.
    [19] 杨蓓芬.  云锦杜鹃次生代谢产物质量分数的测定 . 浙江农林大学学报, 2004, 21(4): 371-375.
    [20] 管康林, 吴家森, 范义荣, 徐太方, 余其龙, 周祖耀, 楼丙茂.  华顶山云锦杜鹃林衰退原因及对策 . 浙江农林大学学报, 2001, 18(2): 195-197.
  • 加载中
  • 链接本文:

    https://zlxb.zafu.edu.cn/article/doi/10.11833/j.issn.2095-0756.2019.06.017

    https://zlxb.zafu.edu.cn/article/zjnldxxb/2019/6/1190

图(4) / 表(5)
计量
  • 文章访问数:  3008
  • HTML全文浏览量:  922
  • PDF下载量:  39
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-11-07
  • 修回日期:  2019-03-29
  • 刊出日期:  2019-12-20

云锦杜鹃转录组分析

doi: 10.11833/j.issn.2095-0756.2019.06.017
    基金项目:

    浙江省农业新品种选育重大科技专项 2016C02052-12

    作者简介:

    许蔷薇, 从事林木遗传育种研究。E-mail:459262240@qq.com

    通信作者: 童再康, 教授, 博士, 从事林木遗传育种等研究工作。E-mail:zktong@zafu.edu.cn
  • 中图分类号: S722.3;Q753

摘要: 云锦杜鹃Rhododendron fortunei具有很高的园艺观赏价值。由于缺乏相关的遗传信息,云锦杜鹃的多样性、分子辅助育种等工作进展较为缓慢。通过高通量测序技术(Illumina),对云锦杜鹃的转录组进行了测定和分析。通过测序拼接和去冗余共获得84 633条单基因簇(unigene)序列,平均长度为691.4 bp。通过与公共数据库比对成功注释到了35 526条单基因簇,其中与葡萄Vitis vinifera基因相似的序列最多。根据基因本体论数据库(GO)可将23 215个单基因簇归类于生物学过程、细胞组分及分子功能等三大类的55个功能组;真核直系同源基因数据库(KOG)将11 085条单基因簇分为26个功能分类,涉及一般功能预测的单基因簇最多,多达1 970条;以京都基因与基金组百科全书(KEGG)作为参考,依据代谢途径可将9 887个单基因簇定位到272个代谢通路。进一步分析基因注释结果,挖掘获得24个编码MADS-box基因的单基因簇分属于10个不同亚家族。此外,检测到了21 900个简单序列重复(SSR)位点,可用于SSR标记开发。

English Abstract

许蔷薇, 楼雄珍, 杨彬, 林二培, 童再康. 云锦杜鹃转录组分析[J]. 浙江农林大学学报, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017
引用本文: 许蔷薇, 楼雄珍, 杨彬, 林二培, 童再康. 云锦杜鹃转录组分析[J]. 浙江农林大学学报, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017
XU Qiangwei, LOU Xiongzhen, YANG Bin, LIN Erpei, TONG Zaikang. Transcriptome sequencing and analysis of Rhododendron fortunei[J]. Journal of Zhejiang A&F University, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017
Citation: XU Qiangwei, LOU Xiongzhen, YANG Bin, LIN Erpei, TONG Zaikang. Transcriptome sequencing and analysis of Rhododendron fortunei[J]. Journal of Zhejiang A&F University, 2019, 36(6): 1190-1198. doi: 10.11833/j.issn.2095-0756.2019.06.017
  • 随着第2代测序技术的发展,转录组测序(RNA-Seq)已成为植物分子生物学研究的重要手段,广泛应用于功能基因挖掘、分子标记开发、代谢通路和调控机制研究等方面[1-3]。该技术具有成本低、数据量大、效率高、准确性高等优点[4],可对组织或者细胞中所有RNA进行测序,并通过读段(reads)的拼接和丰度统计获得相应的转录本序列信息及其表达水平[5]。云锦杜鹃Rhododendron fortunei为杜鹃花科Ericaceae杜鹃花属Rhododendron植物,为中国特有种,主要分布于安徽、湖南、湖北、浙江等省[6]。云锦杜鹃叶形大,花形美丽具清香,具有较高的园艺观赏价值;适应性较强,易人工栽培,也常作为杜鹃属种间杂交的亲本;此外,枝叶等组织中含有槲皮素、山柰酚、杨梅素等有效活性成分,可开发入药[7-8]。可见,云锦杜鹃作为一种兼具观赏价值和药用价值的优良木本花卉,开发潜力巨大,具有良好的产业化前景。目前,云锦杜鹃的研究主要集中在野生资源调查[9]、群落结构[10]、无性繁殖技术[11]、有效成分分析[8, 12]、光合特性[13]、菌根共生等方面[14]。由于缺乏遗传信息,云锦杜鹃的遗传多样性、分子辅助育种等的研究较为滞后。本研究通过RNA-seq高通量测序技术对云锦杜鹃转录组进行测定,通过序列拼接、功能注释和分析,获取大量的序列信息,旨在为云锦杜鹃分子标记开发,遗传多样性分析,以及功能基因挖掘、重要性状形成分子机制等研究提供序列信息。

    • 前期以天台华顶林场云锦杜鹃优株茎段为外植体,通过组培获得云锦杜鹃无性系ZL-01。以该无性系组培苗为材料,取其嫩叶、嫩茎和根,液氮冷冻后保存于-80 ℃用于RNA提取。

    • 采用Trizol试剂(Invitrogen),按照试剂说明书分别提取组培苗根、茎、叶的总RNA。采用Agilent 2100 Bioanalyzer(Agilent),对总RNA样品的纯度、浓度和完整性进行检测评估,等量混合后用于测序文库构建。

    • 取检验合格的RNA,用带有Oligo(dT)的磁珠富集mRNA,将得到的mRNA随机打断成短片段,用六碱基随机引物合成一链cDNA,然后加入缓冲液、dNTPs、DNA polymerase I和RNase H合成二链cDNA。双链cDNA经纯化后进行末端修复,加ploy(A)并连接测序接头,通过PCR扩增及纯化后得到测序文库。采用Illumina Hiseq 2500进行转录组的测序,测序由北京诺禾致源生物公司完成。

    • 针对测序得到的原始数据(raw data)进行接头和低质量测序片段(reads)去除等处理,获得高质量的干净数据(clean data);计算干净数据的Q20和Q30,GC含量和碱基错误率,评估测序质量;利用序列的重叠,通过Trinity软件对干净数据数据进行序列组装,将短测序片段延伸成较长的片段,并得到片段集合,利用De Bruijin方法[15]得到转录本(transcripts)和单基因簇(unigene)序列。

    • 利用BLAST和HMMER软件将云锦杜鹃单基因簇序列与公共数据库进行比对,根据基因的相似性进行功能注释,得到与给定单基因簇具有最高序列相似性的蛋白,从而得到该单基因簇的蛋白功能注释信息,其中BLAST参数E≤1e-5,HMMER参数E≤1e-10作为筛选标准。比对采用的公共数据库包括美国生物信息中心(NCBI)非冗余蛋白数据库(Non-redundant protein database,Nr),NCBI核酸序列数据库(Non-redundant nucleotide sequences,Nt),蛋白质序列数据库(Swiss Prot protein database,SwissProt),真核直系同源基因数据库(Eukaryotic orthologous groups,KOG),蛋白质家族数据库(Protein families database,Pfam),基因本体论数据库(Gene ontology,GO)及京都基因与基金组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)。

    • 采用MISA软件对云锦杜鹃单基因簇进行简单序列重复(SSR)分析,鉴定其中6种类型的SSR;各SSR类型重复次数设定为:单核苷酸SSR,重复数≥10次;二核苷酸SSR,重复数≥6次;三至六核苷酸SSR,重复数≥5次。

    • 分别提取无性系ZL-01组培苗根、茎和叶的RNA。检测结果表明:根RNA的质量浓度为362 mg·L-1,28S/18S为1.6,RNA完整性计数(RNA integrity number,RIN)为9.6;茎RNA的质量浓度为515 mg·L-1,28S/18S为1.8,RIN值为9.8;叶RNA的质量浓度为485 mg·L-1,28S/18S为1.8,RIN值为9.7。这些指标均符合建库测序要求,因此,将这3个组织的RNA等量混合后进行测序。

      测序数据经处理后得到94 252 430个干净测序片段(clean reads),包含了14.14 Gb核苷酸序列信息,GC含量为47.58%。测序质量评估结果显示,碱基错误率为0.02%,Q20为96.70%,Q30为91.85%。这些表明该转录组的数据量和质量均较高,为后续的序列组装提供了高质量的原始数据。

      通过Trintiy软件组装得到112 777个转录本,总长度为91 621 682 bp,平均长度为812.4 bp,N50为1 410,其中长度在1 kb以上的有29 225条,占25.92%;2 kb以上的10 418条,占9.24%(表 1)。对转录本进行聚类和组装得到84 633个单基因簇,总长度为58 517 298 bp,平均长度为691.4 bp,N50为1 177 bp;其中超过1 kb的有16 631条,占19.65%;超过2 kb的5 760条,占6.81%(表 1)。

      表 1  云锦杜鹃转录组组装结果

      Table 1.  Summary of transcriptome assembly for R. fortunei

      长度范围/bp 转录本/个 单基因簇/个
      <301 35 575(31.54) 32 101(37.93)
      301~500 25 511(22.62) 20 759(24.53)
      501~1 000 22 466(19.92) 15 142(17.89)
      1 001~2 000 18 807(16.68) 10 871(12.84)
      >2 000 10 418(9.24) 5 760(6.81)
        总数 112 777 84 633
        总长度 91 621 682 58 517 298
        N50长度 1 410 1 177
        平均长度 812.4 691.4
      说明:括号内数值为占总数的百分比(%)
    • 将单基因簇序列与Nr,Nt,SwissProt,GO,KOG,KEGG和Pfam 7个数据库进行比对,共有35 526条单基因簇获得成功注释,占单基因簇的41.97%(表 2)。其中,30 700条单基因簇获得Nr数据库注释,占36.27%;23 215条单基因簇获得GO数据库注释,占27.43%;22 882条单基因簇获得Pfam数据库注释,占27.03%;22 202条单基因簇获得Swiss-prot数据库注释,占26.23%;18 046条单基因簇获得Nt数据库注释,占21.32%;11 085条单基因簇获得KOG数据库注释,占13.09%;9 887条单基因簇获得KEGG数据库注释占11.68%(表 2)。

      表 2  云锦杜鹃单基因簇功能注释

      Table 2.  Annotation of unigenes in transcriptome of R. fortunei

      数据库 被注释的单基因簇/条 百分比/%
      Nr 30 700 36.27
      KEGG 9 887 11.68
      Nt 18 046 21.32
      SwissProt 22 202 26.23
      Pfam 22 882 27.03
      GO 23 215 27.43
      KOG 11 085 13.09
      总计 35 526 41.97

      在Nr库中,云锦杜鹃转录组注释到其他物种的单基因簇基因序列共30 700条。其中与葡萄Vitis vinifera基因序列相似的最多,所占比例为24.39%;其次为中粒咖啡Coffea canephora,所占比例为7.39%;第3为可可Theobroma cacao,占6.77%;其他相似性序列数量大于3%的物种有烟草Nicotiana tomentosiformis(6.19%),毛果杨Populus trichocarpa(4.09%),甜橙Citrus sinensis(3.82%),麻疯树Jatropha curcas(3.76%)和梅花Prunus mume(3.16%),其他物种占40.43%(图 1)。

      图  1  云锦杜鹃单基因簇Nr数据库比对相似性物种分布图

      Figure 1.  Similarity of unigenes of R. fortunei with those of other species in Nr database

    • 通过GO数据库的注释,共有23 215条单基因簇获注释信息,得到119 389个GO功能注释。由分类结果可知:生物学过程(biological process)最多55 692条,占46.65%,其次是细胞组分(cellular component),35 577条,占29.80%,最少的分子功能(molecular function),有28 120条,占23.55%;这三大功能分类又可分为55个亚类,其中生物学过程23个亚类,细胞组分18个亚类,分子功能14个亚类(图 2)。生物学过程中,涉及细胞过程、代谢过程和单一有机体进程的单基因簇较多,分别有12 698,12 376和9 581条;细胞组分中涉及较多的是细胞、细胞部分和大分子复合体,分别有7 216,7 214和4 713条;分子功能中涉及较多的有结合功能和催化活性,分别有13 302,10 524条(图 2)。

      图  2  云锦杜鹃单基因簇的GO功能分类

      Figure 2.  GO functional categories of R. fortunei unigenes

    • 通过KOG数据库对云锦杜鹃单基因簇进行注释,结果显示有11 085条序列获得12 475个注释信息,可分为26个功能分类(图 3)。从基因功能分类来看,涉及一般功能预测的序列最多,多达1 970条;涉及翻译后修饰、蛋白翻转、分子伴侣功能的序列次之,有1 527条;而涉及核结构、胞外结构和细胞运动的序列很少,仅有37,34和5条(图 3)。

      图  3  云锦杜鹃单基因簇的KOG功能分类

      Figure 3.  KOG functional categories of R. fortunei unigenes

    • 利用KEGG注释系统对云锦杜鹃单基因簇涉及的代谢途径进行分析,结果显示:9 887条单基因簇得到15 455个注释,归属于272条通路。按获得注释的基因数量进行排序,取前20个途径,发现含有200条单基因簇以上的通路有10个,涉及碳代谢的单基因簇最多,有377条;其次是与核糖体相关的单基因簇,有364条;第3位是与氨基酸合成相关的单基因簇,有348条;涉及其他途径有内质网蛋白加工(319)、剪切体(256)、植物激素信号转导(244)、淀粉和蔗糖代谢(240)、RNA转运(227)、氧化磷酸化(224)和植物病原物相互作用(210);其他通路的单基因簇数量均在200以下(表 3)。

      表 3  云锦杜鹃单基因簇的KEGG分析

      Table 3.  Summary KEGG pathway of R. fortunei transcriptome

      KEGG通路 通路ID 单基因簇/条
      碳代谢carbon metabolism ko01200 377
      核糖体ribosome ko03010 364
      氨基酸合成biosynthesis of amino acids ko01230 348
      内质网蛋白加工protein processing in endoplasmic reticulum ko04141 319
      剪切体spliceosome ko03040 256
      植物激素信号转导plant hormone signal transduction ko04075 244
      淀粉和蔗糖代谢starch and sucrose metabolism ko00500 240
      RNA转运RNA transport ko03013 227
      氧化磷酸化oxidative phosphorylation ko00190 224
      植物病原物互作plant-pathogen interaction ko04626 210
      内吞作用endocytosis ko04144 194
      嘌呤代谢purine metabolism ko00230 193
      糖酵解途径glycolysis / gluconeogenesis ko00010 184
      泛素介导蛋白降解ubiquitin mediated proteolysis ko04120 174
      mRNA监测通路mRNA surveillance pathway ko03015 171
      苯丙素生物合成phenylpropanoid biosynthesis ko00940 169
      细胞周期cell cycle ko04110 168
      氨基糖和核苷酸糖代谢amino sugar and nucleotide sugar metabolism ko00520 160
      嘧啶代谢pyrimidine metabolism ko00240 148
      RNA降解RNA degradation ko03018 146
      说明:注释数量总数为15 455
    • MADS-box基因家族在植物花分生组织形成、花器官发育等过程中发挥关键作用[16]。鉴定转录组中的MADS-box基因有助于进一步研究或调控云锦杜鹃成花过程。通过与Nr,Nt和Swiss-prot三大数据库比对,共找出编码MADS-box基因的单基因簇序列24条,分别属于10个不同的亚家族(表 4)。其中AGL17亚家族成员最多,包含c41091_g4,c39737_g1,c36841_g1,c38538_g1和c40334_g4;SQUA和SVP亚家族则各有4个成员,分别为c50592_g1,c10093_g1,c9572_g1,c2583_g1与c37773_g1,c31351_g1,c30064_g1,c33061_g2;TM3亚家族有3个成员,其他亚家族仅有2个或1个成员(表 4)。这些单基因簇的同源基因分别与花分生组织发育、花期调控、花器官发育、果实发育等重要生物学过程相关。

      表 4  云锦杜鹃成花相关MADS-box基因鉴定

      Table 4.  Identification of Floral related MADS-box genes of R. fortunei

      序列号 注释 功能 亚家族
      c18022_g1 Agamous-like MADS-box protein AGL15 雄蕊,心皮,胚珠和果实发育;花分生组织发育 AG
      c70492_g1 Agamous-like MADS-box protein AGL12 花期转变 AGL12
      c12164_g1 Agamous-like MADS-box protein AGL15 胚胎发育 AGL15
      c41091_g4 MADS-box transcription factor 27 促进开花 AGL17
      c39737_g1 MADS-box transcription factor 27 促进开花 AGL17
      c36841_g1 Agamous-like MADS-box protein AGL21 促进开花 AGL17
      c38538_g1 MADS-box transcription factor 27 促进开花 AGL17
      c40334_g4 MADS-box transcription factor 27 促进开花 AGL17
      c18716_g1 Agamous-like MADS-box protein AGL3 花被发育;花分生组织发育 AGL2
      c33061_g1 Agamous-like MADS-box protein AGL9 homolog 花被发育;花分生组织发育 AGL2
      c29354_g1 Floral homeotic protein DEFICIENS 花瓣和雄蕊发育 DEF
      c32438_g1 Agamous-like MADS-box protein AGL31 花期调控;成花抑制 FLC
      c37758_g1 MADS-box protein FLOWERING LOCUS C 花期调控;成花抑制 FLC
      c50592_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
      c10093_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
      c9572_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
      c2583_g1 Agamous-like MADS-box protein AGL8 homolog 萼片和花瓣发育;花分生组织发育;果实发育;花期调控 SQUA
      c37773_g1 MADS-box protein SVP 花期调控;成花抑制和激活 SVP
      c31351_g1 MADS-box protein SVP 花期调控;成花抑制和激活 SVP
      c30064_g1 MADS-box protein JOINTLESS 花期调控;成花抑制和激活 SVP
      c33061_g2 MADS-box protein SVP 花期调控;成花抑制和激活 SVP
      c73448_g1 MADS-box transcription factor 56 花期调控;成花激活 TM3
      c20770_g1 MADS-box transcription factor 50 花期调控;成花激活 TM3
      c5966_g1 MADS-box protein SOC1 花期调控;成花激活 TM3
    • 利用MISA软件对云锦杜鹃转录组序列进行分析,共发现21 900个SSR位点,分布在17 414条单基因簇中,其中有含有1个以上SSR位点的单基因簇有3 606条(表 5)。在所有SSR位点中,双碱基重复SSR最多,有12 294个,占总数的56.14%;其次为单碱基重复SSR,有6 448个,占总数的29.44%;三碱基重复SSR有2 970个,占13.56%;四碱基重复SSR有140个,占0.63%;五碱基和六碱基重复SSR分别仅有25个和23个(表 5)。进一步分析这些SSR重复基序,可以发现,在单碱基SSR中,A/T发生频率最高;双碱基SSR中,发生频率最高的是AG/CT,其次是AC/GT;三碱基重复中发生频率最高是AAG/CTT,其次是AGG/CCT(图 4)。

      表 5  云锦杜鹃转录组SSR分析结果

      Table 5.  Summary of SSR in R. fortunei transcriptome

      搜索项目 数量/个
      分析序列数量total number of sequences examined 84 633
      分析序列长度total size of examined sequences(bp) 58 517 298
      SSR位点总数total number of identified SSRs 21 900
      包含SSR位点序列数number of SSR containing sequences 17 414
      包含1个以上SSR位点序列数number of sequences containing more than 1 SSR 3 606
      复合形式存在的SSR位点数number of SSRs present in compound formation 1 437
      单碱基重复mono-nucleotide 6 448
      二碱基重复di-nucleotide 12 294
      三碱基重复tri-nucleotide 2 970
      四碱基重复tetra-nucleotide 140
      五碱基重复penta-nucleotide 25
      六碱基重复hexa-nucleotide 23

      图  4  云锦杜鹃SSR类型数量分布

      Figure 4.  Distribution of SSR motif number of R. fortunei

    • 中国是世界上杜鹃花属植物资源最为丰富的国家,为世界杜鹃花育种做出了巨大贡献。但中国杜鹃花育种尤其常绿杜鹃育种水平较欧美、日本等国仍有较大差距,资源开发利用水平低,优良品种少。云锦杜鹃作为中国特有常绿杜鹃,观赏价值高、抗性好,野生资源也较为丰富,具有良好的开发潜力。但由于缺乏相关的遗传背景信息,云锦杜鹃的遗传多样性、杂交子代鉴定和优异基因型挖掘等遗传育种研究一直受到制约。近年来,随着高通量测序技术的发展,转录组测序已成为非模式生物遗传背景解析的重要手段,在标记开发、表达分析、功能基因挖掘等方面得到广泛应用[17-21]。本研究利用Illumina测序技术对云锦杜鹃组培苗的转录组进行测序和分析,以获得其转录组序列信息。云锦杜鹃转录组的测序数据分析结果表明:数据的Q30值为91.85%,拼接后共获得84 633条单基因簇,平均长度为691.4 bp,N50值为1 177 bp。一般认为Q30在80%以上就认为测序质量可靠;N50值越大就表示长片段越多,且不小于800 bp就说明组装得到序列完整性较好[22]。上述结果表明本研究测序数据的质量和组装长度达到了转录组分析的基本要求,为进一步分析利用奠定了基础。

      基因功能注释是转录组分析的重要内容,是进行重要功能基因挖掘的前提。因此,本研究利用Nr和Swiss-prot等七大数据库对云锦杜鹃转录组序列进行功能注释,结果表明:共有35 526条单基因簇获得注释信息,仍有约5万条序列没有获得注释。这与薏苡Coix lachryma-jobi[20]和岩穴蕨Monachosorum maximowiczii[23]的情况类似,可能是由于云锦杜鹃是未测序物种,在相关数据库中缺乏对应的功能注释信息,也可能是部分云锦杜鹃单基因簇序列本身太短造成的。GO和KOG注释功能分类的结果显示,云锦杜鹃单基因簇的功能涉及了各类生命活动;KEGG通路注释到9 887条单基因簇,涉及到272条代谢通路。这些结果表明:对于云锦杜鹃等这一非模式植物,转录组测序可以有效地解析遗传背景,获得大量序列信息。基因功能注释也是挖掘与特定途径或功能相关基因的有效手段。如在紫色黄秋葵Abelmoschus esculentus中,通过转录组的KEGG注释,获得与花色素苷、黄酮、类黄酮、二萜类和萜类骨架等生物合成相关的单基因簇[24]。本研究通过功能注释,也鉴定获得24个编码MADS-box基因的单基因簇,属于10个不同的亚家族,它们可能与花分生组织发育、花期调控、花器官发育等重要成花过程相关。

      简单序列重复(SSR)又称微卫星序列,具有共显性、密度大、信息量丰富等优势,广泛应用于遗传图谱构建、遗传多样性分析、基因定位、分子标记辅助育种等方面[25]。利用转录组序列开发SSR标记具有通量高,成本低的优势,已在多种植物中获得成功[19, 26-27]。在大王杜鹃R. rex转录组序列中鉴定获15 314个SSR位点,占比最高的为双碱基重复SSR,其次为单碱基重复SSR和三碱基重复SSR,且利用这些SSR位点开发了相应引物对20份大王杜鹃种质进行了遗传多样性评价[3]。本研究也在云锦杜鹃单基因簇序列中鉴定获得21 900个SSR位点,发现其中双核苷酸重复SSR最多,达到12 294个;其次为单核苷酸重复和三核苷酸重复SSR,这与大王杜鹃中发现的规律类似。这些结果将为云锦杜鹃SSR标记开发提供重要序列信息,也为云锦杜鹃种质资源遗传多样性分析、功能基因挖掘以及分子辅助育种等工作提供了重要基础。

参考文献 (27)

目录

    /

    返回文章
    返回