-
小麦Triticum aestivum是世界范围内种植面积最广、产量最多的粮食作物之一。随着自然进化与人类科技进步,世界农业育种已经历了驯化育种、传统育种和分子育种3个时代[1]。目前,仅依靠常规育种技术,包括小麦在内的主要作物的产量已经达到了相当高的水平,但仍然不能满足未来需求[2]。小麦传统育种以杂交育种为中心,选育出了许多高产、稳产、高抗的优异品种。但传统育种周期长、效率低和遗传背景狭窄等问题日益突出[3]。基因组学、系统生物学、合成生物学和人工智能等前沿学科的交叉融合,催生了融合遗传学、细胞生物学、现代生物工程技术和信息技术等现代生物育种技术[4−5]。
文献计量学是以文献或文献相关媒介为研究对象,采用数学、统计学等计量方法,研究文献和文献工作系统的数量关系和规律,以及探讨科学技术动态特征的一门学科[6]。在小麦研究领域,王瑞[7]、GIRALDO等[8]和孟静等[9]分别对2018年以前发表的小麦相关学术文献或专利开展了文献计量学分析,并探索了小麦研究的不同研究主题和研究前沿。2014年国际小麦研究联盟发表了首个小麦基因组草图,2018年发布了第2版小麦基因组序列[10]。此后,人工智能、自动表型、基因组育种等现代生物技术得到了广泛应用,小麦生物育种进入了快速发展的时代[11]。因此,了解这个阶段小麦生物育种的发展过程和特点,有助于预测小麦生物育种的未来研究方向,对保障粮食安全至关重要。近年来,随着人工智能的发展,利用机器学习方法处理大量文字信息,建立文本模型的自然语言处理(NLP)被应用到医学研究和社会科学等领域[12−13],然而该方法在农业生物领域应用较少。
为全面了解小麦生物育种的发展态势和研究趋势,本研究基于Web of Science (WoS)核心合集数据库检索小麦生物育种相关文献,结合文献计量学和机器学习方法,分析了国内外小麦生物育种相关的学术文献,包括发文的年代分布特点、主要发文国家、发文机构、研究热点与前沿、研究主题等,旨在揭示小麦生物育种领域的学术研究态势,为小麦育种的理论研究和学科发展提供参考。
-
2013—2024年小麦生物育种领域发表的16 151篇文献的年度发文量显示(表1):从2013年开始每年发文量均在900篇以上,且呈逐年上升趋势,在2022年达到了1 931篇,10 a间发文量增长超过2倍,2023年发文量略有下降。从每年的发文量增量来看,2014—2018年以每年33~107篇的速度稳步增加,2019年发文量出现跳跃式增长,比2018年增加了223篇。2019年后小麦生物育种发文量的快速增长可能与2018年发布第2版小麦基因组序列有关。虽然2023年后小麦生物育种发文量出现下降趋势,但小麦生物育种仍处于快速发展的重要阶段,是近年来的热门研究领域。
出版年份 发文量/篇 出版年份 发文量/篇 出版年份 发文量/篇 出版年份 发文量/篇 2013 906 2016 1 113 2019 1 520 2022 1 931 2014 1 013 2017 1 217 2020 1 671 2023 1 681 2015 1 080 2018 1 297 2021 1 760 Table 1. Annual publications of wheat bio-breeding during 2013-2023
-
小麦是世界三大粮食作物之一。共有123个国家参与了小麦生物育种研究(图1),说明小麦生物育种研究是全球广泛关注的学科领域。在所有国家中,中国发文量最多(5 389篇),随后是美国(2 695篇)、澳大利亚(1 489篇)和印度(1 398篇)。中国发文量明显高于其他国家,在全球小麦生物育种研究领域具有竞争优势。在文献影响力方面,中国的总被引频次最高,美国次之,随后是澳大利亚、英国和德国。在篇均被引频次方面,挪威、瑞士、英国、德国、法国、荷兰等发达国家普遍高于发展中国家。中国发表论文数量远远超过其他国家,但篇均被引仅为20.5次,说明中国小麦生物育种研究在提高科研产出数量的同时,还需要进一步提高科研影响力。
本研究使用VOSviewer软件对小麦生物育种的主要发文国家进行合作网络分析(图2)。由图2可见:发文量较多的58个国家形成了5个不同合作集群,分别以中国和美国(紫色)、英国和德国(绿色)、土耳其和伊朗(红色)、巴基斯坦和埃及(蓝色)、澳大利亚和印度(黄色)为代表。其中,中国是发文最多的国家,但美国是国际合作最多的国家(链接数为58个,总链接强度为2 855)。与中国合作最多的5个国家是美国(链接强度为536)、澳大利亚(链接强度为375)、巴基斯坦(链接强度为271)、加拿大(链接强度为135)和墨西哥(链接强度为129)。国际合作不仅能促进了中国小麦生物育种科研产出的数量,也能提高论文的国际影响力。
-
从机构发文量来看,在小麦生物育种领域发文较多的机构有美国农业部、中国农业科学院、国际农业研究磋商组织、西北农林科技大学、国际玉米小麦改良中心等(表2)。西北农林科技大学是发文量进入前5位的高等学校,在此领域的科研实力较强。在学术影响力方面,英国生物技术与生物科学研究理事会(BBSRC)、英国研究与创新署(UKRI)、法国国家农业食品与环境研究院(INRAE)、英联邦科学与工业研究组织(CSIRO)、堪萨斯州立大学具有较高的篇均被引频次。中国在小麦生物育种领域的主要研究机构是中国农业科学院、西北农林科技大学、中国科学院等,在世界上处于第一梯队。
机构 发文量/
篇总被引
频次/次篇均被引
频次/次机构 发文量/
篇总被引
频次/次篇均被引
频次/次美国农业部 1 145 29 407 25.7 堪萨斯州立大学 498 20 780 41.7 中国农业科学院 1 115 25 663 23.0 四川农业大学 432 6 742 15.6 国际农业研究磋商组织 970 29 080 30.0 英联邦科学与工业研究组织 428 17 861 41.7 西北农林科技大学 861 17 803 20.7 法国国家农业食品与环境研究院 388 18 639 48.0 国际玉米小麦改良中心 818 26 104 31.9 埃及知识库 383 7 608 19.9 印度农业研究理事会 732 12 926 17.7 华盛顿州立大学 381 9 639 25.3 中国科学院 702 21 794 31.0 中国农业大学 377 9 910 26.3 中国农业与农村部 605 11 806 19.5 河南农业大学 371 7 505 20.2 英国研究与创新署 504 24 995 49.6 加拿大农业与农业食品部 348 10 435 30.0 生物技术与生物科学研究理事会 503 24 980 49.7 南京农业大学 328 6 900 21.0 Table 2. Most publishing institutions in the research field of wheat bio-breeding
-
为了探索小麦生物育种的研究热点和趋势,利用VOSviewer对小麦生物育种领域发表文献的关键词进行共现和演化分析,生成关键词共现标签视图(图3A)。可以看出:在频次大于30的关键词中,产量(yield)这一关键词的节点最大,说明产量是小麦生物育种的重点,其次是数量性状位点 (QTL)、硬粒小麦(durum wheat)、全基因组关联分析(GWAS)、干旱(drought)、 基因表达(gene expression)、育种(breeding)、单核苷酸多态性(SNP)和分子标记(molecular markers)。
Figure 3. Co-occurrence overlay visualization of author keyword (A) and yearly trends of newly emerging keywords (B) in the research field of wheat bio-breeding
由图3A可见小麦生物育种领域研究热点的演变。代表性的蓝色节点有简单序列重复 (SSR)、小麦叶锈菌(Puccinia triticina)、RNA干扰(RNAi)等。这些技术或领域在较早的时期就被大量研究,而近年来的研究进展缓慢或有下降趋势,说明小麦生物育种中的相关研究已经相当成熟或有新的技术方法得到应用。代表性的绿色节点,如yield、breeding、QTL、durum wheat、drought等关键词增长平缓。黄色节点的关键词在近几年的研究中较为活跃,可能代表新兴的研究方向,代表性的关键词包括GWAS、竞争性等位基因特异性PCR (KASP)、候选基因 (candidate genes)、基因组编辑 (genome editing)、转录组 (transcriptome)、 机器学习(machine learning)等,说明这些技术或领域是近年来的研究热点,科研产出上升较快。
为了清楚地了解这些词的变化趋势,选取了平均出版年数值大于2020(即关键词所在文献的平均出版年在2020年之后),并且出现频次较高的前30个关键词,对其年度分布进行了分析(图3B)。可以看出:GWAS相关的年度产出要明显高于其他关键词。GWAS在2017前发文还较少(出现频次低于10次),2017年后迅速增长,2022年已成为小麦生物育种研究中最大的热点(出现频次高于同年其他关键词)。有些关键词在2017年以前没有或只有少量相关研究,2017年后逐渐兴起,如KASP、CRISPR、 高通量表型分析(high-throughput phenotyping)、基因组编辑、无人机 (UAV)、机器学习等。这与近年来组学、生物技术、高通量表型和人工智能等现代生物育种技术的发展和广泛应用相关。
-
本研究提取了16 151篇文献的摘要,进行LDA分析,建立语言模型,识别研究主题,最终将所有文献归为50个研究主题。进一步根据Luovian聚类将50个主题分为了5个主题网络集群,以5种不同的颜色显示(图4A)。
Figure 4. Topic cluster network by LDA (A) and yearly trends of different research topics (B) in the research field of wheat bio-breeding
在以遗传定位为代表的主题网络集群(绿色区域)中,研究较多的主题是QTL、GWAS、遗传多样性(genetic diversity)、基因标记(gene marker)、表型(phenotyping)、模型预测(model prediction)等。其中GWAS、基因标记、基因组测序和QTL之间联系紧密,而表型、模型预测和遗传选择(genetic selection)之间联系紧密,表明现代小麦遗传育种涉及了表型、基因组、基因定位和育种模型的联合分析以及重要基因的遗传定位。在以基因组和育种研究为代表的主题网络集群(紫色区域)中,包括小麦基因组(wheat genomes)、染色体易位(chromosome translocation)、硬粒小麦、地方品种(landraces)、突变体(mutants)、淀粉(starch)、开花(flowering)、株高(height)等研究主题。在以生物逆境为代表的主题集群(红色区域)中,包括锈病抗性(rust resistance)、赤霉病(fusarium head blight, FHB)、病原菌(pathogens)、叶片光合作用(leaf photosynthesis)等研究主题,其中锈病抗性相关研究发表文章最多。在以非生物逆境为代表的主题集群(蓝色区域)中,研究较多的主题是盐胁迫(salt stress)、高温胁迫(heat stress)、干旱胁迫(drought stress)、氮效率(nitrogen efficiency)、根系生长(root growth)等。在以产量形成为代表的主题网络集群(橙色区域)中,主要包括产量、产量稳定性(yield stability)、灌浆(grain filling)、基因型与环境互作(genotype-environment interaction)等研究主题。对每个主题的年度发文量进行分析,发现锈病抗性相关的研究近年来发表数量持续增多,在2022年达到了207篇,是小麦生物育种的热点研究主题,其次是QTL、面粉品质(flour quality)、干旱胁迫(drought stress)、病原菌、脱落酸、GWAS等相关主题(图4B)。2022年GWAS相关文章发表124篇,与2013年相比增长了接近10倍,是论文数量增长最快的主题,该结果与关键词共现和演化分析结果一致。
Literature analysis of Triticum aestivum bio-breeding based on bibliometrics and machine learning
doi: 10.11833/j.issn.2095-0756.20240485
- Received Date: 2024-08-10
- Rev Recd Date: 2024-10-29
-
Key words:
- Triticum aestivum /
- bio-breeding /
- bibliometrics /
- VOSviewer /
- LDA /
- machine learning
Abstract:
Citation: | ZHENG Qian. Literature analysis of Triticum aestivum bio-breeding based on bibliometrics and machine learning[J]. Journal of Zhejiang A&F University. doi: 10.11833/j.issn.2095-0756.20240485 |