-
转座子(transposable elements, TEs)是一种自私的基因组“寄生虫”,能够增加拷贝数并改变其在宿主基因组中的位置[1]。转座子由于具有突变的可能,会对邻近基因表达产生潜在的危害,并导致染色体重排,对基因组的稳定性构成威胁[2-4]。转座子根据其转座中间产物被分为2类,其中Ⅰ类转座子包括复制黏贴式反转录转座子(retrotransposons, REs)[5],Ⅱ类转座子包括剪切黏贴式转座子[6]。Ⅰ类转座子根据其内部的结构可以分为LTR类(long terminal repeat retrotransposons)[6]、DIRS类(dictyostelium intermediate repeat sequence elements)[7]、PLE类(penelope-like elements)[8]、LINE类(long interspersed nuclear elements)[9]、SINE类(short interspersed nuclear elements)[10]。其中LTR反转录转座子是至今为止研究最多的一类[6]。LTR反转录转座子具有4个结构特点。第一,在序列两端有1对靶位点重复序列(target site repeats,TSD),约4~6 bp[11];第二,5′端和3′端有1对长为几十到几千bp不等高度相似的长末端重复序列[12];第三,LTR主要包括GAG衣壳蛋白编码区和POL多蛋白编码区(polyprotien),其中POL包括RH核糖核苷酸酶(ribonuclease h,RNaseH)、RT反转录酶(reverse transcriptase)、INT整合酶(integrase)和AP蛋白酶(aspartic proteinase)。还有一些Retrovirus和ENV超家族(superfamily)的LTR含有ENV序列(envelope protein, EN或ENV)[13];第四,在5′端附近有1个引物结合位点(primer binding site,PBS),可调控其基因组RNA反转录所必需的tRNA引物,它以染色体外线性DNA(extrachromosomal linear DNA, eclDNA)的形式产生LTR反转录转座子生命周期中间体。在3′端附近有1个富嘌呤位点(poly purine trait,PPT)[14],协助反转录的完成。根据LTR反转录转座子开放阅读框(open reading frames,ORF)的完整性分为自主LTR反转录转座子和非自主LTR反转录转座子[15]。自主LTR反转录转座子又可以根据POL中RT、INT和RH编码序列的排列方式,分为Ty1-copia 超家族(5′-INT-RT-RH-3′)和Ty3-gypsy超家族(5′-RH-RH-INT-3′)[16]。根据每个超家族的序列同源性(80-80-80的分类规则[17])可以分为不同的家族。根据LTR反转录转座子的同源性、蛋白结构、进化关系可以划分为不同的谱系,如梨Pyrus基因组中被划分为Ale、Ivana、Bianca、Angela、Tar、Tat、Athila、Renia、Crm、Galadriel、Tekay等11个谱系[18]。LTR反转录转座子的活性包括转录活性和转座活性。转录是转座的第1步,许多LTR反转录转座子在植物杂交、多倍体化或在环境挑战下发生去甲基化,被转录激活[19]。转座活性不仅包括转录活性,还受转录后调控,如植物基因组为了抑制转座子的活性通过转录基因沉默(transcriptional gene silencing, TGS)机制抑制它们的能力[20]。如果TGS得到缓解,则受21~22个核苷酸作用的转录后基因沉默机制(post-transcriptional gene silencing, PTGS)会将靶向转座子转录物进行降解[21],所以在实验条件下LTR反转录转座子很难被转座激活。在整个植物王国中LTR反转录转座子的进化特别成功,不断复制转座,导致基因组大小增加,基因组尺寸产生差异。在被子植物基因组之间由于几个LTR反转录转座子家族的扩增,产生一些巨大的基因组。例如2 400 Mb玉米Zea mays[22]和400 Mb水稻Oryza sativa[23]的基因组中LTR反转录转座子家族数相同,但是玉米基因组中5个谱系的LTR反转录转座子拷贝数较高。即使是亲缘关系很近的品种,LTR反转录转座子也会促使它们的基因结构产生巨大差异。如玉米与大刍草Zea mexicana是近亲,但是大刍草的基因组比玉米大1倍[24]。LTR反转录转座子在植物基因组中处于动态变化的过程,不仅会扩增,也会丢失,不平衡重组(illegitimate recombination)和非法重组(unequal recombination)活动就是丢失的主要原因[25-26]。不平衡重组和非法重组的产物主要包括含有TSD位点的solo LTR,不含TSD位点的Truncated LTR[27]。预测LTR反转录转座子可以通过4种方式[28]:比较基因组法(comparative genomic methods)[29]、重复序列从头算起法(de novo repeat discovery)[30]、同源比对法(homology-based methods)[31]、基于结构预测法(structure-based methods)。基于结构预测法是通过LTR反转录转座子的序列结构和转座机制分析来捕获,如LTR_STRUC、LTR_FINDER、LTRharvest、LTR_par、LTR_Rho等[32]。毛竹Phyllostachys edulis具有较高的经济和生态价值,其种植面积在中国的竹子总种植面积(443 万hm2)中占73.76%[33]。2018年第2版毛竹基因组的公布[34]为深入分析毛竹基因组中LTR反转座子提供了良好的条件。本研究运用了LTRharvest的方法[35],对第2版毛竹基因组中的LTR反转录转座进行预测,并对LTR反转录转座子的结构、在基因组中的分布特征、插入时间等进行系统分析,以期能了解毛竹LTR反转录转座子对基因组的影响。
HTML
-
由表1所示:得到1 014 565条LTR反转录转座子,占整个毛竹基因组的54.97%。毛竹中LTR反转录转座子比例与其他基因组相比,低于玉米基因组的70.1%[22],相近于高粱Sorghum bicolor基因组的55%[40],远高于水稻基因组的26%[23]。其中两端具有完整LTR序列,编码结构域完整的LTR反转录转座子(full-length LTR)有7 731条,两端具有完整LTR序列,编码结构域不完整的LTR反转录转座子(solo LTR)有13 656条(其余不含TSD位点的LTR反转录转座子忽略不计)。然后按照WICKER等[16]提出的真核生物转座子的分类方法,将blastn(all-vs-all)的方法和80-80-80的规则相结合,对7 731条完整的LTR反转录转座子进行分类,共分为1 562个家族。
超家族 谱系 家族a 结构 数量/个 全长/bp 百分比b/% Ty1-copia Tork 236 GAG-PR-INT-RT-RH 145 708 124 219 995 6.51 Retrofit 342 GAG-PR-INT-RT-RH 41 965 43 615 815 2.29 Sire 136 GAG-PR-INT-RT-RH-ENV 223 386 210 097 734 11.01 Oryco 105 GAG-PR-INT-RT-RH 22 078 22 854 591 1.20 合计 819 433 137 400 788 135 21.01 Ty3-gypsy Del 207 GAG-PR-RT-RH-INT-CHR 295 222 334 005 916 17.51 Reina 249 GAG-PR-RT-RH-INT-CHR 27 803 39 235 939 2.06 Crm 47 GAG-PR-RT-RH-INT 40 781 44 298 955 2.32 Tat 238 GAG-PR-RT-RH-INT 217 288 230 055 053 12.06 Galadriel 1 GAG-PR-RT-RH-INT-CHR 23 51 248 0.00 Athila 1 GAG-PR-RT-RH-INT-ENV 311 257 970 0.01 合计 743 581 428 647 905 081 33.96 总计 1 562 1 014 565 1 048 693 216 54.97 说明:a表示每个谱系的数量;b表示在毛竹基因组中LTR反转录转座子所占的比例 Table 1. Classification of LTR retrotransposons superfamily of moso bamboo genome
毛竹LTR反转录转座子分为Ty1-copia和Typ3-gypsy 2个超家族,在1 562个LTR反转录转座子家族中有819个家族属于Ty1-Copia 超家族,共包括433 137条序列,长度为400 788 135 bp,占毛竹基因组的21.01%。743个家族属于Ty3-Gypsy超家族,共包括581 429条序列,长度为647 905 081 bp,占毛竹基因组的33.96%(表2)。Ty3-gypsy与Ty1-copia数量之比为1.3∶1.0,低于大豆Glycine max(1.4∶1.0)[19]和玉米(1.6∶1.0)[22],远低于水稻(4.9∶1.0)[41]和高粱(3.7∶1.0)[40],但远高于苜蓿Medicago sativa(0.3∶1.0)[42]。
谱系 家族a 百分比c/% 全长LTRd Solo LTRe 全长LTR/Solo LTR 全长 LTR+Solo LTR 百分比f/% Tork 236 28.82 1 169 1 492 1.28 2 661 28.76 Retrofit 342 41.76 302 1 158 3.83 1 460 15.78 Sire 136 16.61 464 3 139 6.77 3 603 38.95 Oryco 105 12.82 521 1 006 1.93 1 527 16.51 Ty1-copia 819 100.00 2 456 6 795 2.77 9 251 100.00 Del 207 27.86 2 102 2 992 1.42 5 094 41.97 Reina 249 33.51 495 1 245 2.52 1 740 14.34 Crm 47 6.33 510 1 352 2.65 1 862 15.34 Tat 238 32.03 2 168 1 251 0.58 3 419 28.17 Galadriel 1 0.13 0 7 0 7 0.06 Athila 1 0.13 0 14 0 14 0.12 Ty3-gypsy 743 100.00 5 275 6 861 1.30 12 136 100.00 总计 1 562 100.00 7 731 13 656 1.77 21 387 100.00 说明:a表示每个谱系的数量;c表示每个谱系在超家族中所占的比例;d表示结构完整的LTR反转录转座子(full-length LTR),包含 两端LTR序列和完整的编码结构域[44];e表示仅含有两端LTR序列,编码结构域有缺失的LTR反转录转座子(solo LTR)[44];f表 示每个谱系中full-length LTR和solo LTR在超家族中所占的比例 Table 2. Structure of LTR retrotransposon family of moso bamboo
根据LTR反转录转座子不同家族之间的进化关系和结构特征,Ty1-copia超家族和Ty3-gypsy超家族可以被分为多个不同的谱系[42-43]。根据Gypsy Database2.0[37]中植物典型的谱系序列特征,对毛竹LTR反转录转座子进行分类,将Ty1-copia超家族分为4个谱系,分别为Tork、Retrofit、Sire、Oryco;Ty3-gypsy超家族分为6个谱系,分别为Del、Reina、Crm、Tat、Galadriel、Athila。其中Tork包含236个家族,Reftrofit包含342个家族,Sire包含136个家族,Oryco包含105个家族,Del包含207个家族,Reina包含249个家族,Crm包含47个家族,Tat包含238个家族,Galadriel包含1个家族,Athila包含1个家族。在Ty1-copia超家族的4个谱系中,Sire的含量最高(达11.01%),紧随其后的是Tork(6.51%)。在Ty3-gypsy超家族的4个谱系中,Del的含量最高(达17.51%),紧随其后的是Tat(12.06%)(表1)。Tat和Del在植物中普遍存在并且是植物所特有的。ENV域在Sire中被识别,CHR域在Del和Reina中被识别(表1~2)。
-
在转座过程中,PBS是LTR反转录转座子反转录开始的重要位点,因为LTR反转录转座子开始反转录时tRNA会结合到RNA的PBS处,然后通过反转录酶合成cDNA[45]。不同超家族和谱系的LTR反转录转座子对PBS具有不同的偏好性。由表3所示:MetCAT24是转座子反转过程中使用频率最高的PBS位点,占4.05%,比其他的位点要高,其次是LysTTT和LysTTT10。表3中Ty1-copia和Ty3-gypsy超家族对PBS位点的偏好性呈相反趋势,MetCAT24是Ty1-copia超家族中使用最多的PBS位点,LysTTT是Ty3-gypsy超家族使用最多的PBS位点,但在Ty1-copia超家族中频率很低,仅有1个。LTR序列是LTR反转录转座子中特有的,它们位于LTR反转录转座子的5′端和3′端,是一对高度相似的序列,通常较长的LTR反转录转座子具有更长的LTR序列,结构也更加完整。所以把5′端LTR作为参照,对LTR序列长度进行统计,结果如图1显示。对LTR反转录转座子而言,LTR序列长度与其全长序列的长度成正比。
tRNA 数量/个 百分比/% Ty1-copia
使用比例/%Ty3-gypsy
使用比例/%MetCAT24 1 383 4.05 1.70 0.83 LysTTT 486 1.42 0.00 1.10 LysTTT10 285 0.83 0.31 0.03 LeuAAG21 131 0.38 0.00 0.15 LysTTT3 111 0.32 0.16 0.01 LeuTAG9 66 0.19 0.07 0.01 Table 3. Usage status of PBS in LTR retrotransposons
-
对21 387个含有TSD位点的毛竹LTR反转录转座子的插入时间进行统计,如图2和图3所示。毛竹LTR反转录转座子的插入时间集中于0~2.0 Ma,其中插入最旺盛的是在1.0~1.5 Ma,有4 426 个,占21.06%,插入较少的是在3.0 Ma之前,有891个,仅占2.61%,插入时间为0的有508个(占1.4%),说明这部分LTR反转录转座子可能还具有转座潜力。Del转座频率最高,有4 777个拷贝,占22.62%,且在0.5~1.5 Ma转座活动最为旺盛,其次为Sire和Tat。而Retrofit、Oryco、Reina、Crm转座频率都较低,Retrofit最低,仅有1 527个拷贝,占6.91%。以上数据说明毛竹基因组中LTR反转录转座子在0~2.0 Ma内大量复制增长,且还处于不断增长的状态,但增长趋势在减弱。