留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

关于正交试验设计的重复试验问题

管宇 黄必恒 吴志松 徐群芳

郑倩. 基于文献计量学和机器学习的小麦生物育种文献分析[J]. 浙江农林大学学报, 2025, 42(1): 210−217 doi:  10.11833/j.issn.2095-0756.20240485
引用本文: 管宇, 黄必恒, 吴志松, 等. 关于正交试验设计的重复试验问题[J]. 浙江农林大学学报, 2003, 20(4): 413-418.
ZHENG Qian. Literature analysis of Triticum aestivum bio-breeding based on bibliometrics and machine learning[J]. Journal of Zhejiang A&F University, 2025, 42(1): 210−217 doi:  10.11833/j.issn.2095-0756.20240485
Citation: GUAN Yu, HUANG Bi-heng, WU Zhi-song, et al. On duplicate test of orthogonal experiment design[J]. Journal of Zhejiang A&F University, 2003, 20(4): 413-418.

关于正交试验设计的重复试验问题

详细信息
    作者简介: 管宇(1964-), 男, 浙江台州人, 讲师, 从事统计计算与数值分析。E-mail: guanyu@zjfc.edu.cn
    通信作者: 管宇(1964-), 男, 浙江台州人, 讲师, 从事统计计算与数值分析。
  • 中图分类号: S11 ;S711

On duplicate test of orthogonal experiment design

  • 摘要: 利用计算机进行大量随机模拟试验, 揭示了在正交试验设计时因素水平差异显著与否, 主要取决于试验效应的平方和与随机标准差, 并推导出随机误差临界值近似计算公式: 其正确性经随机模拟得以验证。建议做正交试验时尽可能设置2 次重复试验。图3 表3 参10
  • 小麦Triticum aestivum是世界范围内种植面积最广、产量最多的粮食作物之一。随着自然进化与人类科技进步,世界农业育种已经历了驯化育种、传统育种和分子育种3个时代[1]。目前,仅依靠常规育种技术,包括小麦在内的主要作物的产量已经达到了相当高的水平,但仍然不能满足未来需求[2]。小麦传统育种以杂交育种为中心,选育出了许多高产、稳产、高抗的优异品种。但传统育种周期长、效率低和遗传背景狭窄等问题日益突出[3]。基因组学、系统生物学、合成生物学和人工智能等前沿学科的交叉融合,催生了融合遗传学、细胞生物学、现代生物工程技术和信息技术等现代生物育种技术[45]

    文献计量学是以文献或文献相关媒介为研究对象,采用数学、统计学等计量方法,研究文献和文献工作系统的数量关系和规律,以及探讨科学技术动态特征的一门学科[6]。在小麦研究领域,王瑞[7]、GIRALDO等[8]和孟静等[9]分别对2018年以前发表的小麦相关学术文献或专利开展了文献计量学分析,并探索了小麦研究的不同研究主题和研究前沿。2014年国际小麦研究联盟发表了首个小麦基因组草图,2018年发布了第2版小麦基因组序列[10]。此后,人工智能、自动表型、基因组育种等现代生物技术得到了广泛应用,小麦生物育种进入了快速发展的时代[11]。因此,了解这个阶段小麦生物育种的发展过程和特点,有助于预测小麦生物育种的未来研究方向,对保障粮食安全至关重要。近年来,随着人工智能的发展,利用机器学习方法处理大量文字信息,建立文本模型的自然语言处理(NLP)被应用到医学研究和社会科学等领域[1213],然而该方法在农业生物领域应用较少。

    为全面了解小麦生物育种的发展态势和研究趋势,本研究基于Web of Science核心合集数据库检索小麦生物育种相关文献,结合文献计量学和机器学习方法,分析了国内外小麦生物育种相关的学术文献,包括发文的年代分布特点、主要发文国家、发文机构、研究热点与前沿、研究主题等,旨在揭示小麦生物育种领域的学术研究态势,为小麦育种的理论研究和学科发展提供参考。

    本研究文献数据来源于Web of Science核心合集数据库,引文索引数据库包括科学引文索引(SCIE)、社会科学引文索引(SSCI)、会议论文引文索引(CPCI-S、CPCI-SSH)和化学信息数据库(IC、CCR)。通过文献调研、专家咨询和多次试检索,本研究以转基因、基因组育种、基因编辑、合成生物学等生物育种关键技术在小麦中的应用为检索策略,检索年限为2013—2024,检索得到的16 151篇文献作为本研究的数据来源。检索日期为2024年8月31日。

    分析国家、研究机构、作者的发文量和影响力时,使用WoS数据库平台中自带的分析功能,并结合Excel软件进行分析。由于本研究数据来源截止到2024年8月31日,数据库中2024年的相关文献仍在更新中,所有年度趋势仅显示2013—2023的分析结果。使用VOSviewer 1.6.20构建知识图谱。在进行国家合作网络分析时,国家最少发文数量设为35篇。在对作者关键词进行共现网络分析时,关键词最小频次设为30次,分析前对关键词进行清洗,合并同义关键词。

    潜在狄利克雷分配(LDA)用于确定每篇文章中的研究主题[14]。LDA模型是一种非监督机器学习的文本挖掘方法,能够从大规模的文档集中识别出潜藏的主题信息。LDA算法的主题网络分析突出了相互关联的主题集群共同出现的区域,并将相似的主题进行聚类,突出主题之间的关系。通过分析所有索引文章的摘要来对主题进行建模,并将确定的主题数量设置为50。根据算法计算出每个主题的概率,最终确定每篇文章所属的主题,并进行手动检查来命名每个主题。通过计算每个文档中不同主题同时出现的次数,建立1个主题互作网络,明确主题之间的联系。所有R和Python代码参考文献[14]。

    2013—2024年小麦生物育种领域发表的16 151篇文献的年度发文量显示(表1):从2013年开始每年发文量均在900篇以上,且呈逐年上升趋势,在2022年达到了1 931篇,2023年发文量略有下降。从每年的发文量增量来看,2014—2018年以每年33~107篇的速度稳步增加,2019年发文量出现跳跃式增长,比2018年增加了223篇。2019年后小麦生物育种发文量的快速增长可能与2018年发布第2版小麦基因组序列有关。虽然2023年后小麦生物育种发文量出现下降趋势,但小麦生物育种仍处于快速发展的重要阶段,是近年来的热门研究领域。

    表 1  小麦生物育种领域2013—2023年度发文量
    Table 1  Annual publications of wheat bio-breeding during 2013-2023
    出版年份 发文量/篇 出版年份 发文量/篇 出版年份 发文量/篇 出版年份 发文量/篇
    2013 906 2016 1 113 2019 1 520 2022 1 931
    2014 1 013 2017 1 217 2020 1 671 2023 1 681
    2015 1 080 2018 1 297 2021 1 760
    下载: 导出CSV 
    | 显示表格

    小麦是世界三大粮食作物之一。共有123个国家参与了小麦生物育种研究(图1),说明小麦生物育种研究是全球广泛关注的学科领域。在所有国家中,中国发文量最多(5 389篇),随后是美国(2 695篇)、澳大利亚(1 489篇)和印度(1 398篇)。中国发文量明显高于其他国家,在全球小麦生物育种研究领域具有竞争优势。在文献影响力方面,中国的总被引频次最高,美国次之,随后是澳大利亚、英国和德国。在篇均被引频次方面,挪威、瑞士、英国、德国、法国、荷兰等发达国家普遍高于发展中国家。中国发表论文数量远远超过其他国家,但篇均被引仅为20.5次,说明中国小麦生物育种研究在提高科研产出数量的同时,还需要进一步提高科研影响力。

    图 1  小麦生物育种全球发文情况和被引频次
    Figure 1  Worldwide scientific production and citations in the research field of wheat bio-breeding

    本研究使用VOSviewer软件对小麦生物育种的主要发文国家进行合作网络分析(图2)。由图2可见:发文量较多的58个国家形成了5个不同合作集群,分别以中国和美国(紫色)、英国和德国(绿色)、土耳其和伊朗(红色)、巴基斯坦和埃及(蓝色)、澳大利亚和印度(黄色)为代表。其中,中国是发文最多的国家,但美国是国际合作最多的国家(链接数为58个,总链接强度为2 855)。与中国合作最多的5个国家是美国(链接强度为536)、澳大利亚(链接强度为375)、巴基斯坦(链接强度为271)、加拿大(链接强度为135)和墨西哥(链接强度为129)。国际合作不仅能促进了中国小麦生物育种科研产出的数量,也能提高论文的国际影响力。

    图 2  小麦生物育种国家合作网络
    Figure 2  Country collaboration network visualization using VOSviewer

    从机构发文量来看,在小麦生物育种领域发文较多的机构有美国农业部、中国农业科学院、国际农业研究磋商组织、西北农林科技大学、国际玉米小麦改良中心等(表2)。西北农林科技大学是发文量进入前5位的高等学校,在此领域的科研实力较强。在学术影响力方面,英国生物技术与生物科学研究理事会(BBSRC)、英国研究与创新署(UKRI)、法国国家农业食品与环境研究院(INRAE)、英联邦科学与工业研究组织(CSIRO)、堪萨斯州立大学具有较高的篇均被引频次。中国在小麦生物育种领域的主要研究机构是中国农业科学院、西北农林科技大学、中国科学院等,在世界上处于第一梯队。

    表 2  小麦生物育种领域的主要发文机构
    Table 2  Most publishing institutions in the research field of wheat bio-breeding
    机构发文量/
    总被引
    频次/次
    篇均被引
    频次/次
    机构发文量/
    总被引
    频次/次
    篇均被引
    频次/次
    美国农业部1 14529 40725.7堪萨斯州立大学49820 78041.7
    中国农业科学院1 11525 66323.0四川农业大学4326 74215.6
    国际农业研究磋商组织97029 08030.0英联邦科学与工业研究组织42817 86141.7
    西北农林科技大学86117 80320.7法国国家农业食品与环境研究院38818 63948.0
    国际玉米小麦改良中心81826 10431.9埃及知识库3837 60819.9
    印度农业研究理事会73212 92617.7华盛顿州立大学3819 63925.3
    中国科学院70221 79431.0中国农业大学3779 91026.3
    中国农业与农村部60511 80619.5河南农业大学3717 50520.2
    英国研究与创新署50424 99549.6加拿大农业与农业食品部34810 43530.0
    生物技术与生物科学研究理事会50324 98049.7南京农业大学3286 90021.0
    下载: 导出CSV 
    | 显示表格

    为了探索小麦生物育种的研究热点和趋势,利用VOSviewer对小麦生物育种领域发表文献的关键词进行共现和演化分析,生成关键词共现标签视图(图3A)。可以看出:在频次大于30的关键词中,产量(yield)这一关键词的节点最大,说明产量是小麦生物育种的重点,其次是数量性状位点 (QTL)、硬粒小麦(durum wheat)、全基因组关联分析(GWAS)、干旱(drought)、 基因表达(gene expression)、育种(breeding)、单核苷酸多态性(SNP)和分子标记(molecular markers)。

    图 3  小麦生物育种研究关键词共现图谱(A)和新兴关键词年度分布(B)
    Figure 3  Co-occurrence overlay visualization of author keyword (A) and yearly trends of newly emerging keywords (B) in the research field of wheat bio-breeding

    图3A可见小麦生物育种领域研究热点的演变。代表性的蓝色节点有简单序列重复 (SSR)、小麦叶锈菌Puccinia triticina、RNA干扰(RNAi)等。这些技术或领域在较早的时期就被大量研究,而近年来的研究进展缓慢或有下降趋势,说明小麦生物育种中的相关研究已经相当成熟或有新的技术方法得到应用。代表性的绿色节点,如yield、breeding、QTL、durum wheat、drought等关键词增长平缓。黄色节点的关键词在近几年的研究中较为活跃,可能代表新兴的研究方向,代表性的关键词包括GWAS、竞争性等位基因特异性PCR (KASP)、候选基因 (candidate genes)、基因组编辑 (genome editing)、转录组 (transcriptome)、 机器学习(machine learning)等,说明这些技术或领域是近年来的研究热点,科研产出上升较快。

    为了清楚地了解这些词的变化趋势,选取了平均出版年数值大于2020(即关键词所在文献的平均出版年在2020年之后),并且出现频次较高的前30个关键词,对其年度分布进行了分析(图3B)。可以看出:GWAS相关的年度产出要明显高于其他关键词。GWAS在2017前发文还较少(出现频次低于10次),2017年后迅速增长,2022年已成为小麦生物育种研究中最大的热点(出现频次高于同年其他关键词)。有些关键词在2017年以前没有或只有少量相关研究,2017年后逐渐兴起,如KASP、CRISPR、 高通量表型分析(high-throughput phenotyping)、基因组编辑、无人机 (UAV)、机器学习等。这与近年来组学、生物技术、高通量表型和人工智能等现代生物育种技术的发展和广泛应用相关。

    本研究提取了16 151篇文献的摘要,进行LDA分析,建立语言模型,识别研究主题,最终将所有文献归为50个研究主题。进一步根据Luovian聚类将50个主题分为了5个主题网络集群,以5种不同的颜色显示(图4A)。

    图 4  小麦生物育种研究LDA主题网络聚类分析(A)和年度发文量分析(B)
    Figure 4  Topic cluster network by LDA (A) and yearly trends of different research topics (B) in the research field of wheat bio-breeding

    在以遗传定位为代表的主题网络集群(绿色区域)中,研究较多的主题是QTL、GWAS、遗传多样性(genetic diversity)、基因标记(gene marker)、表型分析(phenotyping)、模型预测(model prediction)等。其中GWAS、基因标记、基因组测序和QTL之间联系紧密,而表型分析、模型预测和遗传选择(genetic selection)之间联系紧密,表明现代小麦遗传育种涉及了表型、基因组、基因定位和育种模型的联合分析以及重要基因的遗传定位。在以基因组和育种研究为代表的主题网络集群(紫色区域)中,包括小麦基因组(wheat genomes)、染色体易位(chromosome translocation)、硬粒小麦、地方品种(landraces)、突变体(mutants)、淀粉(starch)、开花(flowering)、株高(height)等研究主题。在以生物逆境为代表的主题集群(红色区域)中,包括锈病抗性(rust resistance)、赤霉病(fusarium head blight, FHB)、病原菌(pathogens)、叶片光合作用(leaf photosynthesis)等研究主题,其中锈病抗性相关研究发表文章最多。在以非生物逆境为代表的主题集群(蓝色区域)中,研究较多的主题是盐胁迫(salt stress)、高温胁迫(heat stress)、干旱胁迫(drought stress)、氮效率(nitrogen efficiency)、根系生长(root growth)等。在以产量形成为代表的主题网络集群(橙色区域)中,主要包括产量、产量稳定性(yield stability)、灌浆(grain filling)、基因型与环境互作(genotype-environment interaction)等研究主题。对每个主题的年度发文量进行分析,发现锈病抗性相关的研究近年来发文量持续增多,在2022年达到了207篇,是小麦生物育种的热点研究主题,其次是QTL、面粉品质(flour quality)、干旱胁迫(drought stress)、病原菌、脱落酸、GWAS等相关主题(图4B)。2022年GWAS相关文章发表124篇,与2013年相比增长了接近10倍,是论文数量增长最快的主题,该结果与关键词共现和演化分析结果一致。

    本研究利用文献计量学和机器学习的方法对小麦生物育种的现状、前沿热点和发展趋势进行分析总结。过去10 a是小麦生物育种迅速发展时期。然而,对于国内外小麦生育物育种研究论文的文献计量学分析还停留在2018年以前[79],无法反映小麦生物育种研究的现状和趋势。本研究从Web of Science (WoS)核心合集数据库中检索2013—2024年发表的小麦生物育种相关文献,共计16 151篇。结果显示:2013年以来,全球小麦生物育种研究的科研产出大幅增加,全球123个国家参与小麦生物育种研究,全球小麦生物育种研究正处于快速发展阶段,是近年来的热门研究领域。中国是发表小麦生物育种相关论文最多的国家,还拥有最多的一流大学和研究院所,对小麦研究的重视程度高。

    对2018年前发表的小麦研究相关文献分析显示:小麦遗传育种关键词主要集中在产量、品质、品种、遗传多样性、数量性状位点和分子标记等传统育种和分子育种相关词汇[79]。本研究的关键词共现分析表明:产量、数量性状位点、全基因组关联分析、干旱、基因表达、单核苷酸多态性等关键词出现的频率最高。随着测序技术的发展,数量性状位点和全基因组关联分析相关研究迅速增多。目前在小麦中已鉴定超过27 500个数量性状位点,其中大部分的数量性状位点是近10 a间鉴定的[15]。近年来还出现了高通量表型分析、无人机、机器学习、深度学习、基因组编辑、规律间隔成簇短回文重复序列等现代生物技术相关的关键词。多篇文章整合表型组、基因组、代谢组、机器学习和基因编辑等技术对小麦重要性状进行遗传解析[1620]。该结果说明,现代生物育种和信息技术已经开始应用到小麦育种[2122]。也需要注意的是,这些新兴关键词出现的频率还不高,说明小麦生物育种研究未来需要进一步加强现代生物技术的应用。另外,LDA主题词汇分析表明:锈病、数量性状位点、面粉品质、干旱、全基因组关联分析等相关研究的发文量增长较快。这些主题成为近年来的热点研究领域,可能是由于小麦基因组序列的发布和小麦遗传转化技术的突破。比较而言,分子标记、育种选择等主题增长缓慢或停滞。叶锈病是研究最多的主题,有超过80个叶锈病抗性基因应用于小麦抗病育种[23]。随着全球气候变化加剧,干旱和盐胁迫越来越受到重视,多基因聚合和转基因技术被用来改良综合抗性,实现多性状协同的目标[2425]。这些结果说明小麦生物育种研究更加关注抗性与产量的协同提升。

    在过去10 a间,小麦基因组测序的完成和现代生物技术的应用极大地推动了小麦生物育种的发展。然而还存在几点不足:高影响力和高水平基础研究占比小;关于基因编辑技术开发、基因组选择算法、转基因技术的基本机制的研究很少;对代谢物营养品质、抗病和抗逆机理研究不足;关键基因在育种中的应用研究很少。未来还需要充分利用包括组学、自动表型、人工智能、基因编辑、基因组育种等现代生物技术,发掘和利用重要基因,开展多基因聚合育种,大幅提高小麦产量的同时,改良综合抗性和适应性,实现多性状协同提升。

  • [1] 刘世好, 胡稳, 杨旸谷, 阳胜男, 徐云, 张家阳.  基于随机森林模型的地表细小死可燃物载量估算 . 浙江农林大学学报, 2025, 42(2): 312-320. doi: 10.11833/j.issn.2095-0756.20240386
    [2] 吴立周, 王晓慧, 王志辉, 方馨, 朱婷瑜, 丁丽霞.  基于随机森林法的农作物高光谱遥感识别 . 浙江农林大学学报, 2020, 37(1): 136-142. doi: 10.11833/j.issn.2095-0756.2020.01.018
    [3] 辜忠春, 李光荣, 李军章, 杜业云, 王宵.  正交试验优化分光光度法测定森林土壤有机质 . 浙江农林大学学报, 2017, 34(2): 239-243. doi: 10.11833/j.issn.2095-0756.2017.02.006
    [4] 郑剑, 周竹, 仲山民, 曾松伟.  基于近红外光谱与随机青蛙算法的褐变板栗识别 . 浙江农林大学学报, 2016, 33(2): 322-329. doi: 10.11833/j.issn.2095-0756.2016.02.019
    [5] 孙达, 张妙仙, 韩瑾, 黄芳.  野外人工模拟降水条件下荒草坡产流产沙试验 . 浙江农林大学学报, 2008, 25(5): 635-638.
    [6] 黄有军, 王正加, 郑炳松, 黄坚钦.  山核桃根插试验 . 浙江农林大学学报, 2006, 23(2): 228-231.
    [7] 官凤英, 冯仲科, 王小昆, 周彬.  RTD GPS 量测林地面积的模拟试验 . 浙江农林大学学报, 2004, 21(2): 150-153.
    [8] 钟泰林, 石柏林, 钱奇霞, 揭任娟.  几种草本花卉繁育试验 . 浙江农林大学学报, 2003, 20(1): 108-110.
    [9] 管宇, 徐群芳.  利用人字映射产生均匀随机数法 . 浙江农林大学学报, 2002, 19(3): 306-311.
    [10] 张斌, 许莉勇.  樟树籽提取樟油的试验 . 浙江农林大学学报, 2001, 18(1): 57-59.
    [11] 来振良, 徐一忠, 王自力, 童爱珍.  星天牛幼虫药剂防治试验 . 浙江农林大学学报, 2000, 17(3): 341-343.
    [12] 吴道圣, 王于荣, 陈秋芳, 杨建村, 蒋明田.  木荷造林试验初报 . 浙江农林大学学报, 1999, 16(2): 207-210.
    [13] 吴关尧, 宋晓钢, 阮冠华.  双氧威防治白蚁试验 . 浙江农林大学学报, 1999, 16(2): 216-218.
    [14] 钱银才, 姚建祥, 蒋小凡, 沈湘林, 王白坡.  板栗早果丰产栽培试验 . 浙江农林大学学报, 1997, 14(4): 324-326.
    [15] 江刘其, 王国强, 王春法, 董耀卿, 张建中.  晚松球果烘干取种试验 . 浙江农林大学学报, 1997, 14(4): 415-418.
    [16] 钱银才, 姚建祥, 蒋小凡, 潘文贤, 王白坡.  板栗不同造林方式试验 . 浙江农林大学学报, 1997, 14(3): 247-249.
    [17] 徐树华, 俞慈英.  舟山海岛铅笔柏引种试验 . 浙江农林大学学报, 1996, 13(3): 306-310.
    [18] 钱莲芳, 黎章矩, 钱永涛, 高洪.  4种雀梅繁殖试验 . 浙江农林大学学报, 1995, 12(4): 374-379.
    [19] 俞慈英.  舟山海岛秃杉引种试验 . 浙江农林大学学报, 1994, 11(1): 26-32.
    [20] 林思祖, 黄青峥, 吴旺民.  杉木马尾松几个模型的预报有效性的计算机模拟试验 . 浙江农林大学学报, 1993, 10(2): 184-188.
  • 加载中
  • 链接本文:

    https://zlxb.zafu.edu.cn/article/id/1900

    https://zlxb.zafu.edu.cn/article/zjnldxxb/2003/4/413

计量
  • 文章访问数:  1991
  • HTML全文浏览量:  371
  • PDF下载量:  186
  • 被引次数: 0
出版历程
  • 收稿日期:  2003-02-27
  • 修回日期:  2003-10-13
  • 刊出日期:  2003-12-20

关于正交试验设计的重复试验问题

    作者简介:

    管宇(1964-), 男, 浙江台州人, 讲师, 从事统计计算与数值分析。E-mail: guanyu@zjfc.edu.cn

    通信作者: 管宇(1964-), 男, 浙江台州人, 讲师, 从事统计计算与数值分析。
  • 中图分类号: S11 ;S711

摘要: 利用计算机进行大量随机模拟试验, 揭示了在正交试验设计时因素水平差异显著与否, 主要取决于试验效应的平方和与随机标准差, 并推导出随机误差临界值近似计算公式: 其正确性经随机模拟得以验证。建议做正交试验时尽可能设置2 次重复试验。图3 表3 参10

English Abstract

郑倩. 基于文献计量学和机器学习的小麦生物育种文献分析[J]. 浙江农林大学学报, 2025, 42(1): 210−217 doi:  10.11833/j.issn.2095-0756.20240485
引用本文: 管宇, 黄必恒, 吴志松, 等. 关于正交试验设计的重复试验问题[J]. 浙江农林大学学报, 2003, 20(4): 413-418.
ZHENG Qian. Literature analysis of Triticum aestivum bio-breeding based on bibliometrics and machine learning[J]. Journal of Zhejiang A&F University, 2025, 42(1): 210−217 doi:  10.11833/j.issn.2095-0756.20240485
Citation: GUAN Yu, HUANG Bi-heng, WU Zhi-song, et al. On duplicate test of orthogonal experiment design[J]. Journal of Zhejiang A&F University, 2003, 20(4): 413-418.

目录

/

返回文章
返回