留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于连续投影算法-遗传算法-BP神经网络的可见/近红外光谱木材识别

栾景然 冯国红 朱玉杰

黄锦春, 万思琦, 陈扬, 等. 利用ISSR与SRAP分子标记分析金线莲种质资源遗传多样性[J]. 浙江农林大学学报, 2023, 40(1): 22-29. DOI: 10.11833/j.issn.2095-0756.20220473
引用本文: 栾景然, 冯国红, 朱玉杰. 基于连续投影算法-遗传算法-BP神经网络的可见/近红外光谱木材识别[J]. 浙江农林大学学报, 2022, 39(3): 671-678. DOI: 10.11833/j.issn.2095-0756.20210377
HUANG Jinchun, WAN Siqi, CHEN Yang, et al. Genetic diversity of Anoectochilus roxburghii based on ISSR and SRAP molecular markers[J]. Journal of Zhejiang A&F University, 2023, 40(1): 22-29. DOI: 10.11833/j.issn.2095-0756.20220473
Citation: LUAN Jingran, FENG Guohong, ZHU Yujie. Visible/near infrared spectrum wood identification based on SPA-GA-BP neural network[J]. Journal of Zhejiang A&F University, 2022, 39(3): 671-678. DOI: 10.11833/j.issn.2095-0756.20210377

基于连续投影算法-遗传算法-BP神经网络的可见/近红外光谱木材识别

DOI: 10.11833/j.issn.2095-0756.20210377
基金项目: 中央高校基本科研业务费专项资金项目(2572020BL01);黑龙江省自然科学基金资助项目(LH2020C050)
详细信息
    作者简介: 栾景然(ORCID: 0000-0002-7931-7670),从事木材种类识别研究。E-mail: luanjr@163.com
    通信作者: 冯国红(ORCID: 0000-0001-8756-7154),副教授,博士,从事木材种类识别研究。E-mail: fgh_1980@126.com
  • 中图分类号: S781.1

Visible/near infrared spectrum wood identification based on SPA-GA-BP neural network

  • 摘要:   目的  基于可见/近红外光谱技术,以10种木材为研究对象,探索不同预处理和特征提取方法下BP神经网络识别木材的效果。  方法  利用美国ASD公司生产的LabSpec 5000光谱仪采集10种木材的光谱图,分别进行移动平均法处理、移动平均法+多元散射校正(MSC)、移动平均法+标准正态变量变换(SNV)、Savitzky-Golay卷积平滑算法(S-G滤波器)、S-G滤波器+MSC和S-G滤波器+SNV的预处理,运用主成分分析法(PCA)、连续投影算法(SPA)、SPA和遗传算法(GA)联合分别进行特征提取,将提取的特征结合BP神经网络进行木材识别试验。  结果  以SPA和GA联合提取光谱特征时,移动平均法+SNV的预处理效果最佳,以吸收峰为起始波段(Winitial=1 445 nm)、吸收峰个数为特征个数(Ntot=9)时,识别率较高,特征个数大部分减少为SPA提取特征值个数的一半左右。BP神经网络的平均识别速度提升明显。10种木材的平均识别率为98.0%,其中7种木材的识别率达到了100.0%。  结论  在移动平均法+SNV的预处理下,SPA和GA联合提取光谱图的特征,既可提高BP神经网络识别木材的正确率,又可提升识别速度。图3表6参23
  • 金线莲Anoectochilus roxburghii为兰科Orchidaceae开唇兰属Anoectochilus多年生草本植物,别名金线草、金线兰等,主要分布在中国福建、浙江、云南和台湾等地区。金线莲因含有黄酮类、多糖类、生物碱类等成分[1],其药用价值日益被重视。由于金线莲对生长环境要求严格,且野生资源被过度采摘,导致金线莲已濒临灭绝[2],因此有必要开展金线莲资源的保护。种质资源收集和遗传多样性评估是金线莲资源保护的基础研究工作。分子标记可以在DNA水平上揭示植物的遗传变异,是一种稳定可靠的遗传分析方法[3]。简单重复序列间扩增多态性(inter-simple sequence repeat,ISSR)和序列相关扩增多态性(sequence-related amplified polymorphism,SRAP)主要针对非特异性序列进行扩增,对于基因组序列信息匮乏的物种较为有效[4]。目前,分别利用ISSR、SRAP等单一分子标记对金线莲遗传多样性的评价[5-11]已取得了一定的进展,但单一的分子标记技术经常受到扩增区域限制、引物扩增能力差异、模糊显性标记主观计入等因素影响,不能完全评价生物遗传多样性[12-13],而综合运用多种分子标记,能最大程度优化聚类分析结果[14-15]。目前,结合ISSR与SRAP分子标记技术已经应用于薄荷Mentha haplocalyx[12]、烟草 Nicotiana tabacum[16-17]、韭菜Allium tuberosum [18]、栀子Gardenia jasminoides [19]等研究。本研究采用ISSR与SRAP相结合的方法对浙江与福建等地引种、杂交与野生的金线莲样品进行研究,揭示金线莲个体间与种源间的遗传分化,为金线莲资源的保护和利用提供参考。

    48份金线莲新鲜叶片样品详见表1

    表 1  金线莲供试样品信息
    Table 1  Tested samples of A. roxburghii
    编号样品来源地编号样品来源地编号样品来源地
    1 健君1号 浙江温州 17 尖叶自交辐射选育种 福建福州 33 福建网纹种 福建厦门
    2 健君2号 浙江温州 18 红霞变异种 福建厦门 34 福建无网纹种 福建厦门
    3 金康1号 浙江金华 19 小叶金线莲 福建福州 35 大福星 福建厦门
    4 大圆叶 福建厦门 20 温州文成野生种 浙江温州 36 大圆宝 福建厦门
    5 健君1号原种 浙江温州 21 尖叶金线莲 福建泉州 37 红霞 福建厦门
    6 戴云山野生种 福建泉州 22 大叶金线莲 福建三明 38 健君1号 浙江温州
    7 福建永春黄带种 福建泉州 23 云南金线莲 云南昆明 39 尖叶金线莲 福建三明
    8 台湾金线莲 台湾高雄 24 野生无纹 福建厦门 40 庆元无网纹 浙江庆元
    9 台湾金线莲 台湾高雄 25 尖叶红杆种 福建福州 41 福建金草繁育种 福建厦门
    10 无纹(G) 福建三明 26 尖叶变异筛选种 福建福州 42 小圆叶 福建三明
    11 福建金线莲 福建福州 27 尖叶变异筛选种 福建福州 43 银圆宝 台湾高雄
    12 大叶(H) 福建三明 28 大叶金线莲 福建三明 44 尖叶自交选育种 福建福州
    13 野生种子繁育种 福建三明 29 野生种子繁育种 福建三明 45 尖叶杂交种 福建福州
    14 林下尖叶(台州) 浙江台州 30 福建本地银线莲 福建厦门 46 大叶红霞 福建三明
    15 林下沙畈本地无纹 浙江金华 31 福建小圆叶 福建厦门 47 尖叶变异筛选种 福建福州
    16 野生金线莲 江西萍乡 32 金华本地种 浙江金华 48 无纹金线莲 福建三明
    下载: 导出CSV 
    | 显示表格
    1.2.1   基因组DNA的提取与检测

    参照DNA提取试剂盒说明书提取金线莲的DNA,得到的DNA用50 μL双蒸水(ddH2O)溶解。以ddH2O为对照,使用超微量分光光度计检测DNA溶解液的浓度以及纯度。

    1.2.2   金线莲ISSR引物筛选及检测

    采用哥伦比亚大学公布的第9套100个ISSR通用引物序列,由北京擎科生物科技有限公司合成。使用3个已提取的DNA对100个ISSR引物进行筛选,反应体系总体积为20 μL,其中2×Taq Plus MasterMix 10 μL、ddH2O 8 μL、ISSR引物 1 μL、DNA溶解液1 μL,PCR扩增程序为98 ℃预变性30 s;94 ℃变性10 s,退火(不同引物退火温度不同) 15 s,72 ℃延伸15 s,循环35次;最后72 ℃延伸1 min,4 ℃保存。对产物进行琼脂糖凝胶电泳检测,挑选出多态性好、扩增条带清晰的引物对48个DNA样品进行扩增。

    1.2.3   金线莲SRAP引物筛选及检测

    参照FERRIOL等[20]的设计原理建立SRAP标记分析体系,由北京擎科生物科技有限公司合成,包含14条上游引物(Me1~Me14)和17条下游引物(Em1~Em17),上下游引物可随机组成238对SRAP引物组合。使用2个已提取的DNA对238对SRAP引物组合进行筛选,PCR体系及扩增程序同上。将挑选出的多态性好、扩增条带清晰的引物对48个DNA样品进行扩增。

    1.2.4   数据统计及分析

    对PCR扩增产物电泳胶图进行人工读带,对扩增条带按有(1)或无(0)进行统计,形成“0, 1”数据矩阵,分别得到ISSR、SRAP及两者综合的数据。利用Excel统计每个(对)引物的总扩增条带数、多态性条带数和多态位点百分率(PPB)。使用POPGENE 32.0软件计算等位基因数(Na)、有效等位基因数(Ne)、Nei’s基因多样性指数(H)、Shannon’s多态性信息指数(I)、居群总基因多样性(Ht)、居群内基因多样性(Hs)、基因分化系数(Gst=1−Hs/Ht)和基因流(Nm)等遗传多样性相关参数,并计算不同种源间的遗传距离和遗传一致度,使用OmicStudio工具对遗传距离进行主坐标分析(PCoA),使用NTSYS-PC 2.1软件对所采集的金线莲样品进行聚类分析并绘制非加权组平均法(UPGMA)树状图。

    2.1.1   ISSR引物的筛选及其扩增多态性

    经过2次筛选,共获得11条条带较为清楚的引物(表2)。11条引物共扩增出86条条带,其中多态性条带有84条,PPB平均值为97.67%,平均扩增条带数是7.82个,平均多态性条带数为7.64个。扩增条带数最多的引物是UBC880 (13条),其次是UBC861 (12条),扩增条带最少的是UBC810 (4条)。PPB为83.33%~100%,其中,UBC807、UBC810、UBC826、UBC834、UBC841、UBC842、UBC865、UBC68和UBC861的PPB为100%,均表现出极高的多态性,占总引物的81.82%;UBC856的PPB最低,为83.33%。

    表 2  ISSR引物信息及扩增结果
    Table 2  ISSR primer information and amplification results
    编号ISSR引物序列
    (5′→3′)
    扩增条
    带数
    多态性
    条带数
    PPB/%
    1UBC807(AG)8T66100
    2UBC810(GA)8T44100
    3UBC826(AC)8C66100
    4UBC834(AG)8YT88100
    5UBC841(GA)8YC1010100
    6UBC842(GA)8YG88100
    7UBC856(AC)8YA6583.33
    8UBC865(CCG)666100
    9UBC868(GAA)677100
    10UBC880(GGAGA)3131292.30
    11UBC861(ACC)61212100
    平均7.827.6497.67
    合计8684
      说明:Y=(C, T);PPB为多态位点百分率
    下载: 导出CSV 
    | 显示表格
    2.1.2   SRAP引物的筛选及其扩增多态性

    经过2次筛选,共获得11对条带较为清楚的引物组合(表3)。11对引物共扩增出88条条带,其中多态性条带有86条,PPB平均值为97.73%,平均扩增条带数是8个,平均多态性条带数为7.82个。扩增条带数最多的引物组合是Me11-Em4 (12条);其次是组合Me4-Em13、Me2-Em14和Me13-Em10,扩增出9条条带;扩增条带最少的是Me13-Em16组合,只扩增出6条条带。PPB为88.89%~100%,其中,Me11-Em4、Me8-Em7、Me13-Em7、Me13-Em16、Me4-Em14、Me5-Em11、Me13-Em10、Me14-Em14和Me3-Em2组合的PPB为100%,均表现出极高的多态性,占总引物的81.82%;Me4-Em13和Me2-Em14组合的PPB最低,为88.89%。

    表 3  SRAP引物信息及扩增结果
    Table 3  SRAP primer information and amplification results
    编号SRAP引物正向引物
    (5′→3′)
    反向引物
    (5′→3′)
    扩增条
    带数
    多态性
    条带数
    PPB/%
    1 Me11-Em4 BACG DTGA 12 12 100
    2 Me8-Em7 BTGC DCAA 7 7 100
    3 Me13-Em7 BAAC DCAA 8 8 100
    4 Me4-Em13 BACC DCTA 9 8 88.89
    5 Me13-Em16 BAAC DGAT 6 6 100
    6 Me2-Em14 BAGC DCTC 9 8 88.89
    7 Me4-Em14 BACC DCTC 7 7 100
    8 Me5-Em11 BAAG DCAC 7 7 100
    9 Me13-Em10 BAAC DCAG 9 9 100
    10 Me14-Em14 BTCC DCTC 7 7 100
    11 Me3-Em2 BAAT DTGC 7 7 100
    平均 8 7.82 97.73
    合计 88 86
      说明:B=TGAGTCCAAACCGG;D=GACTGCGTACGAATT;PPB为多态位点百分率
    下载: 导出CSV 
    | 显示表格

    ISSR研究中遗传一致度为0.4767~0.9070,遗传距离为0.0976~0.7408。其中,遗传一致度最高的1号与2号、3号与17号、14号与17号,均为0.9070,它们的遗传距离最小,均为0.0976,说明其亲缘关系较近;遗传一致度最低的是7号与22号,为0.4767,其遗传距离最大,为0.7408,说明其亲缘关系较远。在SRAP研究中遗传一致度为0.4659~0.9545,遗传距离为0.0465~0.7638。其中,遗传距离最小的是36号与37号,遗传距离最大的是10号与39号。综合ISSR和SRAP的数据后,遗传一致度为0.5115~0.8793,遗传距离为0.1286~0.6704。其中,遗传距离最小的是34号与37号,遗传距离最大的是10号与39号。

    将48份样品按照产地来源分为5个群体(浙江、福建、台湾、江西和云南),利用POPGENE 32软件对其遗传距离和遗传一致度进行计算,结果如表4所示。使用OmicStudio工具将ISSR+SRAP的标记结果进行PCoA分析,结果如图1所示:由于来自台湾(3个)、江西(1个)和云南(1个)的样品数目较少,故不作分析。结合表4图1可知:浙江省与福建省金线莲种质混杂。

    表 4  金线莲群体间的遗传一致度与遗传距离
    Table 4  Genetic agreement and genetic distance among A. roxburghii populations
    分子标记产地浙江福建台湾江西云南
    ISSR 浙江 0.9577 0.8842 0.8416 0.7285
    福建 0.0433 0.8916 0.7792 0.7336
    台湾 0.1231 0.1148 0.7310 0.6552
    江西 0.1724 0.2495 0.3133 0.5814
    云南 0.3168 0.3098 0.4228 0.5423
    SRAP 浙江 0.9853 0.9480 0.7960 0.8351
    福建 0.0148 0.9531 0.7880 0.8233
    台湾 0.0534 0.0480 0.7796 0.7978
    江西 0.2282 0.2383 0.2490 0.6250
    云南 0.1802 0.1945 0.2259 0.4700
    ISSR+SRAP 浙江 0.9712 0.9160 0.8187 0.7818
    福建 0.0292 0.9229 0.7835 0.7798
    台湾 0.0878 0.0802 0.7555 0.7270
    江西 0.2000 0.2439 0.2804 0.6034
    云南 0.2462 0.2487 0.3188 0.5051
      说明:对角线下方为Nei’s遗传距离,对角线上方为Nei’s遗传一致度
    下载: 导出CSV 
    | 显示表格
    图 1  综合ISSR和SRAP标记数据的PCoA分析
    Figure 1  PCoA analysis of ISSR and SRAP markers data

    分析浙江与福建种源的样品,结果如表5所示:ISSR分析显示,43个种源在物种水平上,Na为1.9651,Ne为1.4403,H为0.2727,I为0.4247,PPB为96.51%;在群体水平上,Na为1.7093~1.9302,Ne为1.3409~1.4325,H为0.2075~0.2668,I为0.3207~0.4147,PPB为70.93%~93.02%,相对于物种水平而言,群体间的遗传多样性水平较低。SRAP结果与ISSR结果相似。结合ISSR与SRAP的数据分析:43个种源在物种水平上,Na为1.9713,Ne为1.3797,H为0.2429,I为0.3873,PPB为97.13%;在群体水平上,Na为1.7816~1.9425,平均值为1.8621;Ne为1.3578~1.3607,平均值为1.3593;H为0.2239~0.2288,平均值为0.2264;I为0.3488~0.3664,平均值为0.3576;PPB为78.16%~94.25%,平均值为86.21%,也是群体间的遗传多样性水平更低。其中,从ISSR、SRAP及综合研究结果来看,NaNeHIPPB中基本上是福建省大于浙江省,说明福建省的金线莲种群遗传多样性更高。

    表 5  金线莲遗传多样性参数
    Table 5  Genetic diversity parameters of A. roxburghii
    分子标记产地等位基
    因数 (Na)
    有效等位
    基因数 (Ne)
    Nei’s基因多样
    性指数 (H)
    Shannon’s多态性
    信息指数 (I)
    多态位点百
    分率 (PPB)/%
    ISSR 浙江   1.709 3 1.340 9 0.207 5 0.320 7 70.93
    福建   1.930 2 1.432 5 0.266 8 0.414 7 93.02
    群体水平 1.819 8 1.386 7 0.237 2 0.367 7 81.98
    物种水平 1.965 1 1.440 3 0.272 7 0.424 7 96.51
    SRAP 浙江   1.852 3 1.380 0 0.239 9 0.376 3 85.23
    福建   1.954 5 1.284 8 0.191 6 0.319 1 95.45
    群体水平 1.903 4 1.332 4 0.215 8 0.347 7 90.34
    物种水平 1.977 3 1.320 6 0.213 8 0.350 8 97.73
    ISSR+SRAP 浙江   1.781 6 1.360 7 0.223 9 0.348 8 78.16
    福建   1.942 5 1.357 8 0.228 8 0.366 4 94.25
    群体水平 1.862 1 1.359 3 0.226 4 0.357 6 86.21
    物种水平 1.971 3 1.379 7 0.242 9 0.387 3 97.13
    下载: 导出CSV 
    | 显示表格
    2.4.1   基于ISSR标记的聚类

    图2可见:48份金线莲样品的遗传相似性系数为0.62~0.91,变幅为0.29。在遗传相似系数为0.67处,48份金线莲样品被划分为3类:在Ⅰ类中地理位置相同的主要有浙江温州的1、2、5、38号以及福建福州的17、25、26、27、44、45号,两地间亲缘关系相对较近;而Ⅱ类与Ⅲ类中样品的来源组成均较为分散,无明显特征。

    图 2  ISSR标记的UPGMA树状图
    Figure 2  ISSR cluster map
    2.4.2   基于SRAP标记的聚类

    图3显示:48份金线莲样品的遗传相似性系数为0.62~0.95,变幅为0.33。在遗传相似系数为0.65处,48份金线莲样品被划分为2类,Ⅰ类中1、5、38号均来自浙江温州,且品种相似,故聚为一类;而在Ⅱ类中,各个品种难以明显划分出小类,这也是各地种质较为混乱所带来的结果。与ISSR标记相比,SRAP标记更难划分类别。

    图 3  SRAP标记的UPGMA树状图
    Figure 3  SRAP cluster map
    2.4.3   基于ISSR+SRAP标记聚类

    图4显示:48份金线莲样品的遗传相似性系数为0.64~0.88,变幅为0.24。在遗传相似系数为0.68处,48份金线莲样品被划分为4类,Ⅰ类中地理位置相同的主要有浙江温州的1、2、5、38号以及台湾高雄的8、9号,两地间可能品种相互引种;Ⅱ类中主要为来自福建福州的样品,包括17、25、26、27、44、45号;Ⅲ类中地理位置相同的主要有福建厦门的4、18、24、31、33、34、36、37号以及福建三明的12、13、22、28、29、48号,两地间品种互引的可能性较大。2种分子标记结合的方法更易体现样品间亲缘关系、划分类别,更清楚地体现地理位置对亲缘关系的影响。

    图 4  ISSR+SRAP标记的UPGMA树状图
    Figure 4  ISSR+SRAP cluster map

    本研究利用ISSR与SRAP对48份不同来源金线莲样品进行遗传特性分析,共筛选获得11条ISSR引物,扩增86条条带,其中多态性条带84条,PPB为97.67%;筛选出的11对SRAP引物共扩增出了88条条带,多态性条带86条,PPB为97.73%。说明供试金线莲样本具有丰富的遗传多样性,且相较于王剑锴等[10]筛选出的用于检测金线莲资源遗传特性的RAPD分子标记,ISSR与SRAP的标记多态性明显增多,进一步验证了ISSR与SRAP在金线莲种源多态性检测方面的高效率。

    基于ISSR与SRAP分子标记对金线莲样品的遗传距离与遗传一致度分析发现:遗传距离最小的是34号(福建厦门福建无网纹种)与37号(福建厦门红霞),其亲缘关系较近;遗传距离最大的是10号(福建三明的无纹G)与39号(福建三明的尖叶),其亲缘关系较远。从遗传多样性分析结果来看,来自福建的金线莲遗传多样性更高,同时结合金线莲群体间的遗传一致度与遗传距离结果以及PCoA分析,可以看出各地间金线莲种质资源十分混杂,其中包含了大量的野生种、半野生种和人工驯化的栽培种及杂交种,这种复杂性导致不同种源间的差异性明显,金线莲种质的遗传多样性增加。浙江省市场内流通的栽培种多为省外引入种[21-22],各种质遗传交流频繁,这有利于培育出较优的金线莲品种。

    本研究单独使用ISSR或SRAP的UPGMA聚类结果中,均出现各地间种源相互混杂的状况,并未严格按照地理距离的差异进行归类,而2种分子标记结合的聚类结果中,金线莲种质资源的聚类与不同地理位置分布的情况有比较高的一致度,表现出了一定地域性分布规律,说明2种分子标记方法结合相较于单一的分子标记方法能更准确地体现不同地区金线莲的差异性。由于2种分子标记所检测的基因座位以及所用的引物等因素存在差异,故两者得到的遗传距离不同,其聚类图也存在差异[23],且每种分子标记方法均有其优势与不足,结合多种标记技术则能更全面、准确地揭示种质遗传特性。因此,本研究结合ISSR与SRAP能更准确地揭示金线莲资源的遗传多样性和亲缘关系,为金线莲良种培育以及野生金线莲资源保护等方面提供了帮助。此外物种的遗传特性容易受到生态环境、繁殖方式以及各种人为活动的影响,野生金线莲经过长期的自然选择,其遗传背景较为复杂;人工栽培种种源多来自于野生金线莲,品种混杂。同时金线莲在野外萌发所需的自然条件苛刻,加之生境的易碎性对其生存产生很大压力[24],因此金线莲的遗传多样性受到生态环境极大的影响,所以有必要保护当地的生态环境以维护金线莲物种多样性。

  • 图  1  SPA-GA-BP设计步骤

    Figure  1  SPA-GA-BP design steps

    图  2  红檀的原始光谱图

    Figure  2  Original spectra of red sandalwood

    图  3  10种木材的光谱图

    Figure  3  Spectral diagrams of 10 species of wood

    表  1  不同预处理的PCA-BP神经网络识别率

    Table  1.   PCA-BP neural network recognition with different preprocessing      

    检测方式预处理方法累计贡
    献率/%
    主成分
    个数/个
    平均识
    别率/%
    可见/近红外光谱 对照组 95 12 80.2
    移动平均法 95 14 81.4
    移动平均法+MSC 95 10 82.1
    移动平均法+SNV 95 11 83.5
    S-G滤波器 95 12 81.3
    S-G滤波器+MSC 95 13 82.9
    S-G滤波器+SNV 95 15 84.7
    下载: 导出CSV

    表  2  不同预处理的SPA-BP神经网络平均识别率      

    Table  2.   Average recognition rate of SPA-BP neural network with different pretreatments

    预处理方法平均识
    别率/%
    预处理方法平均识
    别率/%
    对照组 86.1 S-G滤波器 86.4
    移动平均法 87.2 S-G滤波器+MSC 86.8
    移动平均法+MSC 86.5 S-G滤波器+SNV 87.3
    移动平均法+SNV 88.2
    下载: 导出CSV

    表  3  10种木材吸收峰个数和集中波段

    Table  3.   Number of absorption peaks and concentrated bands of 10 species of wood

    木材种类吸收峰个数/个集中分布波段/nm
    红檀 7 920~970、1 010~1 060、1 210~1 260、1 570~1 620、1 779~1 829、1 921~1 971、2 122~2 172
    大果紫檀 7 930~980、1 020~1 070、1 220~1 270、1 580~1 630、1 780~1 830、1 920~1 970、2 120~2 170
    檀香紫檀 7 932~982、1 023~1 073、1 221~1 271、1 568~1 618、1 777~1 827、1 921~1 971、2 123~2 173
    刺猬紫檀 9 763~813、1 222~1 272、1 308~1 358、1 461~1 511、1 548~1 598、1 760~1 810、1 931~1 981、
    2 092~2 142、2 211~2 261
    巴里黄檀 9 765~815、1 221~1 271、1 307~1 357、1 466~1 516、1 545~1 595、1 769~1 819、1 930~1 980、
    2 087~2 137、2 219~2 269
    红檀香 9 753~803、1 223~1 273、1 309~1 359、1 463~1 513、1 558~1 608、1 771~1 821、1 932~1 982、
    2 092~2 142、2 212~2 262
    破布木 9 763~813、1 222~1 272、1 317~1 367、1 463~1 513、1 551~1 601、1 772~1 822、1 933~1 983、
    2097~2147、2214~2264
    豆瓣香 9 766~816、1230~1280、1317~1367、1468~1518、1554~1604、1775~1825、1940~1990、
    2095~2145、2 216~2 266
    中美洲黄檀 9 753~803、1 218~1 268、1 305~1 355、1 457~1 507、1 544~1 594、1 769~1 819、1 928~1 978、
    2 084~2 134、2 209~2 259
    黑檀 9 881~931、1 218~1 268、1 305~1 355、1 452~1 502、1 557~1 607、1 772~1 822、1 923~1 973、
    2 092~2 142、2 218~2 268
    下载: 导出CSV

    表  4  不同起始波段的SPA-BP神经网络平均识别率

    Table  4.   Average recognition rate of SPA-BP neural network with different starting bands

    特征值数/起始波段/nm10种木材提取特征波长分布/nm平均识别率/%
    10 895 364~368、2 141~2 144;402~410;418~426;324、2 135~2 142;375~383;432~440;400~408;476~484;420~428;1 452~1 460 89.7
    10 1 445 478~586;410~418;423~431;500~508;405~413;436~444;418~426;693~701;891~899;888~896 90.4
    10 1 605 133~135、2 137~2 142;891~899;891~899;2 135~2 142、2 132;419~427;819~827;420~428;446~454;892~990;893~901 90.1
    10 15 2133~135、2 137~2 142;2 133~2 135、2 137~2 142;408~416;292、22 135~2 142;375~383;430~438;414~422;461~469;420~428;890~898 88.3
    10 795 61~64、2 139~2 143;405~413;420~428;326、2 135~2 142;378~386;527~535;403~411;478~486;420~422、1 453~1 458;1 350~1 358 89.5
    10 995 203~209、2 141~2 142;399~407;418~426;349~352、2 138~2 142;3381~389;434~442;421~429;485~493;527~535;1 452、1 454~ 1458、1 461~1 463 89.2
    10 1 350 82~90;891~899;434~442;519~527;416~424;886~894;420~428;694~702;891~899;888~896 88.9
    10 1 950 13、2 135~2 142;379~387;407~415;281、2 135~2 142;293~301;428~436;
    1 058~1 066;450~458;413、1 452~1 459;1 452~1 460
    88.6
      说明:木材依次为红檀、大果紫檀、檀香紫檀、刺猬紫檀、巴里黄檀、红檀香、破布木、豆瓣香、中美洲黄檀、黑檀
    下载: 导出CSV

    表  5  同一起始波段不同特征波段的SPA-BP神经网络平均识别率

    Table  5.   Average recognition rate of SPA-BP neural network with the same starting band and different characteristic bands

    起始波
    段/nm
    特征值
    数/个
    平均识
    别率/%
    起始波
    段/nm
    特征值
    数/个
    平均识
    别率/%
    1 445592.31 4451090.6
    1 445793.01 4452092.7
    1 445993.21 4452591.2
    1 445891.6
    下载: 导出CSV

    表  6  同一预处理方式10种木材的SPA-BP神经网络平均识别率

    Table  6.   Average recognition rate of SPA-BP neural network for 10 species of wood with the same pretreatment method

    木材种类平均识
    别率/%
    木材种类平均识
    别率/%
    木材种类平均识
    别率/%
    红檀  90.9巴里黄檀94.2中美洲黄檀100.0
    大果紫檀100.0红檀香 100.0黑檀   100.0
    檀香紫檀90.7破布木 94.6平均   95.7
    刺猬紫檀95.1豆瓣香 91.0
      说明:预处理方式为移动平均法+SNV,起始波段为1 445 nm,     特征值数为9个
    下载: 导出CSV
  • [1] LEE H T, SOON L L, KEVIN K N, et al. DNA extraction from dry wood of Neobalanocarpus heimii (Diperocarpaceae)for forensic DNA profiling and timeber tracking [J]. Wood Sci Technol, 2012, 46(5): 813 − 815.
    [2] 陈利顶, 李秀珍, 傅伯杰, 等. 中国景观生态学发展历程与未来研究重点[J]. 生态学报, 2014, 34(12): 3129 − 3141.

    CHEN Liding, LI Xiuzhen, FU Bojie, et al. Development history and future research priorities of landscape ecology in China [J]. J Ecol, 2014, 34(12): 3129 − 3141.
    [3] JIAO Lichao, YIN Yafang, XIAO Fuming, et al. Comparative analysis of two DNA extraction protocols from fresh and dried wood of Cunninghamia lanceolata(Taxodiaceae) [J]. J Iawa, 2012, 4(33): 441 − 456.
    [4] 王宪, 沈华杰, 于清琳, 等. 基于IAWA的3种简易木材识别方法探究[J]. 西南林业大学学报, 2019, 39(6): 167 − 172.

    WANG Xian, SHEN Huajie, YU Qinglin, et al. Research on 3 simple timber identification methods based on IAWA [J]. J Southwest For Univ, 2019, 39(6): 167 − 172.
    [5] MUECHER S, KLIJN J A, WASCHER D, et al. A new European landscape clasification(LANMAP): a transparent, flexible and user-oriented methodology to distinguish landscapes [J]. Ecol Indic, 2010, 10(1): 87 − 103.
    [6] 王学顺, 黄安民, 孙一丹, 等. 基于BP神经网络的木材近红外光谱树种识别[J]. 东北林业大学学报, 2015, 43(12): 82 − 85, 89.

    WANG Xueshun, HUANG Anmin, SUN Yidan, et al. Back propagation artificial neural network combine with near infrared spectroscopy for timber recognition [J]. J Northeast For Univ, 2015, 43(12): 82 − 85, 89.
    [7] 谭念, 孙一丹, 王学顺, 等. 基于主成分分析和支持向量机的木材近红外光谱树种识别研究[J]. 光谱学与光谱分析, 2017, 37(11): 3370 − 3374.

    TAN Nian, SUN Yidan, WANG Xueshun, et al. Research on near infrared spectrum with principal component analysis and support vector machine for timber identification [J]. Spectrosc Spectral Anal, 2017, 37(11): 3370 − 3374.
    [8] 陈远哲, 王巧华, 高升, 等. 基于近红外光谱的淡水鱼贮藏期质构品质的无损检测模型[J]. 激光与光电子学进展, 2021, 58(12): 491 − 499.

    CHEN Yuanzhe, WANG Qiaohua, GAO Sheng, et al. Nondestructive testing model for textural quality of freshwater fish instorage usingnear-infrared spectroscopy [J]. Laser Optoelectron Prog, 2021, 58(12): 491 − 499.
    [9] 郭文川, 朱德宽, 张乾, 等. 基于近红外光谱的掺伪油茶籽油检测[J]. 农业机械学报, 2020, 51(9): 350 − 357.

    GUO Wenchuan, ZHU Dekuan, ZHANG Qian, et al. Detection on adulterated oil-tea camellia seed oil based on near-infrared spectroscopy [J]. J Agric Mach, 2020, 51(9): 350 − 357.
    [10] 潘拓, 马鑫, 谢安, 等. 利用主成分分析法优化BP神经网络模型在砂砾岩岩性识别中的应用[J]. 新疆地质, 2020, 38(3): 417 − 420.

    PAN Tuo, MA Xin, XIE An, et al. Application of the optimized BP neural network model based on principal component analysis in lithology identification of glutenite reservoirs [J]. Xinjiang Geol, 2020, 38(3): 417 − 420.
    [11] ZHU Hongyan, CHU Bingquan, FAN Yangyang, et al. Hyperspectral imaging for predicting the internal quality of kiwifruits based on variable selection algorithms and chemometric models [J]. Sci Rep, 2017, 7(1): 1 − 13.
    [12] ARAÚJO M C U, SALDANHA T C B, GALVÃO R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis [J]. Chemometrics Intell Lab Syst, 2001, 57(2): 65 − 73.
    [13] 董蒙, 栾希亭, 吴宝元, 等. 基于自适应遗传算法的电液伺服系统控制[J]. 机床与液压, 2019, 47(14): 78 − 83.

    DONG Meng, LUAN Xiting, WU Baoyuan, et al. Control of electro-hydraulic servo system control based on adaptive genetic algorithm [J]. Mach Tools Hydraul, 2019, 47(14): 78 − 83.
    [14] 冯国红, 朱玉杰, 徐华东, 等. 应用遗传算法-主成分分析-反向传播神经网络的近红外光谱识别树种效果[J]. 东北林业大学学报, 2020, 48(6): 56 − 60.

    FENG Guohong, ZHU Yujie, XU Huadong, et al. Using near infrared spectrum to identify tree species by GA-PCA-BP neural network [J]. J Northeast For Univ, 2020, 48(6): 56 − 60.
    [15] 许锋, 付丹丹, 王彬, 等. 基于MCCV-CARS-RF建立红提糖度和酸度的可见-近红外光谱无损检测方法[J]. 食品科学, 2018, 39(8): 149 − 154.

    XU Feng, FU Dandan, WANG Bin, et al. Nondestructive detection of sugar content and acidity in red globe table grapes using visible near infrared spectroscopy based on Monte-Carlo Cross Validation-Competitive Adaptive Reweighted Sampling-Random Forest (MCCV-CARS-RF) [J]. Food Sci, 2018, 39(8): 149 − 154.
    [16] ROMERO-TORRES S, PÉREZ-RAMOS J D, MORRIS K R. Raman spectroscopic measurement of tablet-to-tablet coating variability [J]. J Pharm Biomed Anal, 2005, 38(2): 270 − 274.
    [17] 于慧伶, 门洪生, 梁浩, 等. SA-PBT-SVM的实木表面缺陷近红外光谱识别[J]. 光谱学与光谱分析, 2018, 38(6): 1724 − 1728.

    YU Huiling, MEN Hongsheng, LIANG Hao, et al. Near, infrared spectroscopy identification method of wood surface defects based on SA-PBT-SVM [J]. Spectrosc Spectral Anal, 2018, 38(6): 1724 − 1728.
    [18] 殷勇, 王光辉. 连续投影算法融合信息熵选择霉变玉米高光谱特征波长[J]. 核农学报, 2020, 34(2): 356 − 362.

    YIN Yong, WANG Guanghui. Hyperspectral characteristic wavelength selection method for moldy maize based on continuous projection algorithm fusion information entropy [J]. J Nucl Agric Sci, 2020, 34(2): 356 − 362.
    [19] 朱淑鑫, 顾兴健, 杨宸, 等. K均值算法结合连续投影算法应用于土壤速效钾含量的高光谱分析[J]. 江苏农业学报, 2020, 36(2): 358 − 365.

    ZHU Shuxin, GU Xingjian, YANG Chen, et al. K-means algorithm combined with successive projection algorithm for hyperspectral analysis of soil available potassium content [J]. J Jiangsu Agric Sci, 2020, 36(2): 358 − 365.
    [20] 陈伟, 李创, 唐荣年. 应用间隔随机蛙结合连续投影算法检测橡胶树叶片氮含量[J]. 河南科技大学学报, 2019, 40(5): 51 − 56.

    CHEN Wei, LI Chuang, TANG Rongnian. Application of interval randomfrog combined with successive projections algorithm to detecting nitrogen content in rubber tree leaves [J]. J Henan Univ Sci Technol Nat Sci, 2019, 40(5): 51 − 56.
    [21] 熊智新, 房桂干, 梁龙, 等. 近红外光谱结合连续投影算法检测综纤维素含量[J]. 中国造纸学报, 2019, 34(4): 46 − 51.

    XIONG Zhixin, FANG Guigan, LIANG Long, et al. Full cellulose content in composite optical fibrous in combination with continuous projection algorithm [J]. Transac China Pulp Paper, 2019, 34(4): 46 − 51.
    [22] 明曼曼, 陈芳, 孙恺琦, 等. 基于集群算法优化BP神经网络的NIRS树种识别研究[J]. 西部林业科学, 2020, 49(5): 124 − 128.

    MING Manman, CHEN Fang, SUN Kaiqi, et al. NIRS tree species identification based on cluster algorithm optimized BP neural network [J]. J West China For Sci, 2020, 49(5): 124 − 128.
    [23] 汪紫阳, 尹世逵, 李耀翔, 等. 基于可见/近红外光谱识别东北地区常见木材[J]. 浙江农林大学学报, 2019, 36(1): 162 − 169.

    WANG Ziyang, YIN Shikui, LI Yaoxiang, et al. Identification of common wood species in northeast China using Vis/NIR spectroscopy [J]. J Zhejiang A&F Univ, 2019, 36(1): 162 − 169.
  • [1] 李雅琳, 李素艳, 孙向阳, 郝丹, 蔡琳琳, 常晓彤.  基于人工神经网络算法的2株木质素降解菌固体菌剂的制备 . 浙江农林大学学报, 2022, 39(2): 364-371. doi: 10.11833/j.issn.2095-0756.20210311
    [2] 王琰, 余韵, 刘勇, 王开勇, 周晓杰, 王洋.  北京市核心区洋白蜡行道树健康评价及影响因素 . 浙江农林大学学报, 2022, 39(6): 1340-1349. doi: 10.11833/j.issn.2095-0756.20220109
    [3] 刘光武, 陈晨, 王柯力.  基于神经网络的马尾松人工林密度指数模型 . 浙江农林大学学报, 2020, 37(1): 100-104. doi: 10.11833/j.issn.2095-0756.2020.01.013
    [4] 黄鹏桂, 赵璠, 李晓平, 吴章康, 汤正捷, 张严风.  卷积神经网络在红木树种识别中的应用 . 浙江农林大学学报, 2020, 37(6): 1200-1206. doi: 10.11833/j.issn.2095-0756.20190672
    [5] 卯光宪, 谭伟, 柴宗政, 赵杨, 杨深钧.  基于BP神经网络的马尾松人工林胸径-树高模型预测 . 浙江农林大学学报, 2020, 37(4): 752-760. doi: 10.11833/j.issn.2095-0756.20190486
    [6] 郑泽宇, 冯海林, 杜晓晨, 方益明.  木材径切面内部缺陷的应力波成像算法 . 浙江农林大学学报, 2019, 36(2): 211-218. doi: 10.11833/j.issn.2095-0756.2019.02.001
    [7] 谢福明, 字李, 舒清态.  基于优化k-NN模型的高山松地上生物量遥感估测 . 浙江农林大学学报, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
    [8] 汪紫阳, 尹世逵, 李颖, 李耀翔.  基于可见/近红外光谱识别东北地区常见木材 . 浙江农林大学学报, 2019, 36(1): 162-169. doi: 10.11833/j.issn.2095-0756.2019.01.020
    [9] 胡梦霄, 杭芸, 黄华宏, 张胜龙, 童再康, 楼雄珍.  杉木木材结晶度的近红外预测模型建立及变异分析 . 浙江农林大学学报, 2017, 34(2): 361-368. doi: 10.11833/j.issn.2095-0756.2017.02.022
    [10] 周竹, 尹建新, 周素茵, 周厚奎.  基于近红外光谱技术的针叶材板材表面节子缺陷检测 . 浙江农林大学学报, 2017, 34(3): 520-527. doi: 10.11833/j.issn.2095-0756.2017.03.018
    [11] 王晓丽, 张晓丽, 周国民.  基于近红外光谱技术的果树花期树种识别方法 . 浙江农林大学学报, 2017, 34(6): 1008-1015. doi: 10.11833/j.issn.2095-0756.2017.06.006
    [12] 倪茜茜, 祁亨年, 周竹, 汪杭军.  基于高光谱成像技术的红酸枝木材种类识别 . 浙江农林大学学报, 2016, 33(3): 489-494. doi: 10.11833/j.issn.2095-0756.2016.03.017
    [13] 郑剑, 周竹, 仲山民, 曾松伟.  基于近红外光谱与随机青蛙算法的褐变板栗识别 . 浙江农林大学学报, 2016, 33(2): 322-329. doi: 10.11833/j.issn.2095-0756.2016.02.019
    [14] 周竹, 郑剑, 王允祥, 曾松伟.  雷竹笋硬度的近红外光谱检测模型优化 . 浙江农林大学学报, 2015, 32(6): 875-882. doi: 10.11833/j.issn.2095-0756.2015.06.008
    [15] 张高品, 李光辉, 李剑, 冯海林.  木材无损检测技术中的应力波传播时延估计算法 . 浙江农林大学学报, 2014, 31(3): 394-398. doi: 10.11833/j.issn.2095-0756.2014.03.010
    [16] 方益明, 郑红平, 冯海林.  基于傅里叶变换和独立成分分析的木材显微图像特征提取与识别 . 浙江农林大学学报, 2010, 27(6): 826-830. doi: 10.11833/j.issn.2095-0756.2010.06.004
    [17] 汪杭军, 张广群, 祁亨年, 李文珠.  木材识别方法研究综述 . 浙江农林大学学报, 2009, 26(6): 896-902.
    [18] 施拥军, 徐小军, 杜华强, 周国模, 金伟, 周宇峰.  基于BP神经网络的竹林遥感监测研究 . 浙江农林大学学报, 2008, 25(4): 417-421.
    [19] 田有圳, 黄金桃, 林照授, 涂育合, 叶功富.  凹叶厚朴一元立木材积方程的研究 . 浙江农林大学学报, 2002, 19(3): 255-258.
    [20] 何东进, 洪伟, 吴承祯.  人工神经网络用于杉木壮苗定向培育规律的研究 . 浙江农林大学学报, 1997, 14(4): 339-343.
  • 加载中
  • 链接本文:

    https://zlxb.zafu.edu.cn/article/doi/10.11833/j.issn.2095-0756.20210377

    https://zlxb.zafu.edu.cn/article/zjnldxxb/2022/3/671

图(3) / 表(6)
计量
  • 文章访问数:  1190
  • HTML全文浏览量:  197
  • PDF下载量:  50
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-14
  • 修回日期:  2021-12-02
  • 录用日期:  2021-12-02
  • 网络出版日期:  2022-05-23
  • 刊出日期:  2022-05-23

基于连续投影算法-遗传算法-BP神经网络的可见/近红外光谱木材识别

doi: 10.11833/j.issn.2095-0756.20210377
    基金项目:  中央高校基本科研业务费专项资金项目(2572020BL01);黑龙江省自然科学基金资助项目(LH2020C050)
    作者简介:

    栾景然(ORCID: 0000-0002-7931-7670),从事木材种类识别研究。E-mail: luanjr@163.com

    通信作者: 冯国红(ORCID: 0000-0001-8756-7154),副教授,博士,从事木材种类识别研究。E-mail: fgh_1980@126.com
  • 中图分类号: S781.1

摘要:   目的  基于可见/近红外光谱技术,以10种木材为研究对象,探索不同预处理和特征提取方法下BP神经网络识别木材的效果。  方法  利用美国ASD公司生产的LabSpec 5000光谱仪采集10种木材的光谱图,分别进行移动平均法处理、移动平均法+多元散射校正(MSC)、移动平均法+标准正态变量变换(SNV)、Savitzky-Golay卷积平滑算法(S-G滤波器)、S-G滤波器+MSC和S-G滤波器+SNV的预处理,运用主成分分析法(PCA)、连续投影算法(SPA)、SPA和遗传算法(GA)联合分别进行特征提取,将提取的特征结合BP神经网络进行木材识别试验。  结果  以SPA和GA联合提取光谱特征时,移动平均法+SNV的预处理效果最佳,以吸收峰为起始波段(Winitial=1 445 nm)、吸收峰个数为特征个数(Ntot=9)时,识别率较高,特征个数大部分减少为SPA提取特征值个数的一半左右。BP神经网络的平均识别速度提升明显。10种木材的平均识别率为98.0%,其中7种木材的识别率达到了100.0%。  结论  在移动平均法+SNV的预处理下,SPA和GA联合提取光谱图的特征,既可提高BP神经网络识别木材的正确率,又可提升识别速度。图3表6参23

English Abstract

黄锦春, 万思琦, 陈扬, 等. 利用ISSR与SRAP分子标记分析金线莲种质资源遗传多样性[J]. 浙江农林大学学报, 2023, 40(1): 22-29. DOI: 10.11833/j.issn.2095-0756.20220473
引用本文: 栾景然, 冯国红, 朱玉杰. 基于连续投影算法-遗传算法-BP神经网络的可见/近红外光谱木材识别[J]. 浙江农林大学学报, 2022, 39(3): 671-678. DOI: 10.11833/j.issn.2095-0756.20210377
HUANG Jinchun, WAN Siqi, CHEN Yang, et al. Genetic diversity of Anoectochilus roxburghii based on ISSR and SRAP molecular markers[J]. Journal of Zhejiang A&F University, 2023, 40(1): 22-29. DOI: 10.11833/j.issn.2095-0756.20220473
Citation: LUAN Jingran, FENG Guohong, ZHU Yujie. Visible/near infrared spectrum wood identification based on SPA-GA-BP neural network[J]. Journal of Zhejiang A&F University, 2022, 39(3): 671-678. DOI: 10.11833/j.issn.2095-0756.20210377
  • 木材在中国可再生资源中占有很大的比例。随着国民经济逐步增长,木材市场不断扩大。目前,由于优质木材频频出现供需不平衡、木材造假等问题,因此采用多种识别技术来甄别木材种类已成为必然。木材种类识别除了依照形态学处理外,还可以使用计算机图像识别、DNA识别等方法[1-3],但是这些方法和传统的取样方法一样[4],都需要对树木进行剖析和制样,对于一些珍贵的木材会造成不必要的浪费,甚至会降低本身的价值。近红外光谱分析技术是20世纪70年代兴起的一种新的木材识别分析技术。它作为一种常用的测量工具,具有快速、无损、在线分析等优势。近几年,学者们应用近红外光谱技术对木材种类进行了识别研究[5],如王学顺等[6]利用近红外光谱技术,结合主成分分析(PCA)和BP神经网络对不同木材种类进行了识别研究,效果良好。谭念等[7]基于近红外光谱技术,联合PCA和支持向量机实现了木材种类的有效鉴别。

    目前,近红外光谱分析技术用于木材种类识别大多采用PCA进行特征提取,实现数据降维,但这种方法的特征值筛选有一定的局限性,仅凭累计贡献率决定特征值的个数,无法通过参数化等方法对处理过程进行干预,效率和物理实用性不高。连续投影算法(SPA)是一种常用的特征波长筛选算法。它能够利用向量的投影分析,寻找含有最低限度冗长信息的变量组,通过参数调整可实现较强物理实用性的数据压缩。陈远哲等[8]基于SPA构建了最小偏二乘法回归模型,适用于淡水鱼储藏期质构品质的快速无损检测。郭文川等[9]通过比较不同特征提取方式,得出采用SPA和随机森林识别准确率最高。遗传算法(GA)用于寻优,广泛应用于机器学习等领域。

    本研究将SPA和GA联用,在运用SPA获得特征值后,应用GA进一步寻找最佳特征参数,以提升木材识别的效率和准确率。本研究以红檀Swartizia spp.、刺猬紫檀Pterocarpus erinaceus、巴里黄檀Dalbergia bariensis、大果紫檀Pterocarpus macrocarpus、红檀香Myroxylon balsamu、破布木Cordia dichotoma、豆瓣香Osmanthus delavayi、檀香紫檀Pterocarpus santalinus、中美洲黄檀Dalbergia granadillo和黑檀Dalbergia nigra为研究对象,应用可见/近红外光谱仪采集10种木材的光谱图,运用不同的预处理方式叠加进行降噪分析,以BP神经网络为木材种类的分类识别算法,探讨经GA优化的SPA较之常规特征提取算法的优越性,为更精确高效的木材识别提供参考。

    • 数据采集:参与试验的木材共10种,试样为6 cm×5 cm×2 cm的木块。每种木材制备5块样本,共计50块。每块木材分10个点采集光谱,以木块横向等分2份,纵向等分5份,取每份的中心点作为标记进行采样,每个点采集10组数据,取平均值作为此样点的实验数据,即1块试样采集10组实验数据,10种木材共计采集500组实验数据。样点采集遵循以下原则:①采谱过程中每15 min进行1次空白校正,以保证光谱的稳定性。②每块木材样本大小、薄厚和形状均保持一致,确保样点在每块样本木块上的属性相同,最大程度缩小误差。

      主要仪器:LabSpec 5000光谱仪(ASD公司,美国),波长为350~2 500 nm。用光谱仪配套的软件Indico Pro Version 3.1采集光谱数据。

    • PCA是一种常用的波段降维手段。主成分通常表示为原始变量的某种线性组合,它们不仅能够代表原始变量绝大多数的信息,还可以一定程度上去除噪声,压缩数据,对高维数据进行降维,减少预测变量的个数[10]

    • SPA是一种使矢量空间共线性最小化的前向变量选择算法,在降低共线信息的研究和有效信息获取的研究中取得较好的成效[11-12]。本研究应用SPA在光谱全波段中筛选出少量几个特征波段,不仅能够减少参与识别的光谱波段个数,并且可以保证特征波段之间的共线性最小,进而提高识别正确率和速度。

    • 当SPA筛选后的输入自变量较多且不是相互独立时,利用BP神经网络容易出现过拟合的现象,从而导致所建立的模型精度低、建模时间长等问题,因此,在构建模型前,有必要对输入自变量进行优化,选择最能反映输入与输出关系的自变量参与建模。GA优化能较好解决上述问题。利用GA进行优化计算,需要将解空间映射到编码空间,每个编码对应问题的1个解。本研究将编码长度设计为10,木材光谱特征的每位对应1个输入自变量,每一位的基因取值只能是“1”和“0”,如果一位值为“1”,表示该位对应的输入自变量参与最终的建模;反之,则表示“0”对应的输入自变量不作为最终的建模自变量。选取测试集数据均方误差的倒数作为GA的适应度函数,这样,经过不断的迭代进化,最终筛选出最具代表性的输入自变量参与建模[13-14]。GA优化的设计步骤主要为:首先产生初始种群,对适应度函数进行计算,其次进行选择、交叉和变异的基础操作,最后优化结果输出,构建其模型。设计步骤如图1所示。

      图  1  SPA-GA-BP设计步骤

      Figure 1.  SPA-GA-BP design steps

    • 应用LabSpec 5000光谱仪采集10种木材的原始光谱图,其中选取红檀的50个样本进行对比分析(图2)。

      图  2  红檀的原始光谱图

      Figure 2.  Original spectra of red sandalwood

      为了更直观地对比10种木材光谱图的差异,分别取10种木材中第1组数据进行绘图分析(图3)。由图3可见:大果紫檀、红檀和檀香紫檀的强度数值过小,几乎与x轴重叠。

      图  3  10种木材的光谱图

      Figure 3.  Spectral diagrams of 10 species of wood

      图2图3可以看出:同一种木材光谱图的波形基本一致,但强度值略有差异;刺猬紫檀、巴里黄檀、红檀香、破布木、豆瓣香、中美洲黄檀这6种木材的光谱图从波峰、形状上相似性均较高,黑檀与这6种木材的光谱图也较相似,仅在第1个波谷处形状上略有差异。

    • 原始光谱图往往带有一定的噪声,影响BP神经网络识别的正确率,因此有必要对光谱数据进行预处理[15-17]。数据的预处理方法较多,本研究分别采用了移动平均法、移动平均法+多元散射校正(MSC)、移动平均法+标准正态变量变换(SNV)、Savitzky-Golay卷积平滑算法(S-G滤波器)、S-G滤波器+MSC和S-G滤波器+SNV对10种木材的原始光谱进行了预处理,通过对比分析以确定最佳的预处理方法。

      针对上述的几种预处理方法,分别进行主成分特征提取。以累计贡献率达95%及以上为主成分个数的选取标准。以选取的主成分为输入向量,40个样本作为训练,10个样本作为测试(后文测试数据均与此相同,不再赘述)。应用BP神经网络进行木材种类识别测试,经过20次的随机试验,获得各种预处理下BP神经网络的平均识别结果(表1)。由表1可以看出:采用S-G滤波器+SNV预处理时,BP 神经网络获得的平均识别率最高,达到了84.7%。

      表 1  不同预处理的PCA-BP神经网络识别率

      Table 1.  PCA-BP neural network recognition with different preprocessing      

      检测方式预处理方法累计贡
      献率/%
      主成分
      个数/个
      平均识
      别率/%
      可见/近红外光谱 对照组 95 12 80.2
      移动平均法 95 14 81.4
      移动平均法+MSC 95 10 82.1
      移动平均法+SNV 95 11 83.5
      S-G滤波器 95 12 81.3
      S-G滤波器+MSC 95 13 82.9
      S-G滤波器+SNV 95 15 84.7

      为了方便对比10种木材各自的识别效果,整理了S-G滤波器+SNV预处理时10种木材的BP神经网络识别结果:10种木材的识别效果相差不大,最低为豆瓣香(83.1%),最高为刺猬紫檀(85.8%)。

    • 针对2.2节中的几种预处理方法进行SPA的BP神经网络识别探讨,以确定最佳的预处理方法。为了对比预处理的效果,针对SPA方法中的起始波段和特征值个数进行了随机设置。令SPA方法中的起始波段(Winitial)为15 nm,特征值个数(Ntot)为10,对各种预处理后的数据进行SPA特征提取,应用BP神经网络进行20次的随机识别,得出10种木材的平均识别率(表2)。由表2可以看出:对于不同的预处理方式,SPA-BP的正确识别率有所不同,移动平均法+SNV的预处理方法最佳,正确率可达88.2%,因此,后续在分析SPA-BP神经网络识别木材时,本研究仅针对移动平均法和SNV叠加的预处理方法进行分析。

      表 2  不同预处理的SPA-BP神经网络平均识别率      

      Table 2.  Average recognition rate of SPA-BP neural network with different pretreatments

      预处理方法平均识
      别率/%
      预处理方法平均识
      别率/%
      对照组 86.1 S-G滤波器 86.4
      移动平均法 87.2 S-G滤波器+MSC 86.8
      移动平均法+MSC 86.5 S-G滤波器+SNV 87.3
      移动平均法+SNV 88.2
    • 影响SPA特征提取的因素通常有2个,分别是WinitialNtot。随着WinitialNtot的改变,提取的特征波长分布会有所不同,从而影响最终BP神经网络的正确识别率,此处探讨最佳Winitial的选取方法。光谱图中的特征吸收峰对被分析物质是很关键的特征,因此首先考虑分别以木材的吸收峰和非吸收峰作为起始波段,通过对比分析,确定最佳起始波段。①吸收峰作为起始波段的选取。光谱图中分布了大小不一的波峰,选取波峰特征较明显的吸收峰进行分析,以波峰点为中心点,取宽度相等的波段区间(每个波段均取51个数据)作为吸收峰的集中分布波段,10种木材的吸收峰集中波段如表3所示。由表3可以看出:10种木材的吸收峰重叠的波段有1 230~1 260、1 780~1 810、1 940~1 970 nm。分别取3个波段的中位数作为起始波段值,即1 245、1 795和1 955 nm。因为Winitial的数值表示为序列号,所以在此基础上减去初始波段350 nm,Winitial最终取值分别为895、1 445、1 605 nm。②非吸收峰作为起始波段的选取。将全波段350~2 500 nm等分成5份,分别在每个等分波段中随机选取1个非吸收峰作为起始波段。本研究随机选取的5个波段的波长分别为365、1 145、1 345、1 700、2 300 nm。在此基础上减去初始波段350 nm,Winitial最终取值分别为15、795、995、1350、1 950。分别以上述的吸收峰和非吸收峰为起始波段值,即以15、795、895、995、1 350、1 445、1 605、1 950 nm作为SPA的起始波段。SPA的特征值个数统一取10,进行BP神经网络识别,经过20次的随机试验,10种木材提取的特征波长分布和平均识别率如表4所示。由表4可以看出:以吸收峰作为起始波段时,特征波长分布大多追溯在吸收峰附近。对比表4的识别率可见,起始波段为1 445 nm时最高,达90.4%,其余按照1605、895、795、995、1 350、1 950和15 nm的顺序依次递减。不难看出,吸收峰作为起始波段的识别率普遍优于非吸收峰。

      表 3  10种木材吸收峰个数和集中波段

      Table 3.  Number of absorption peaks and concentrated bands of 10 species of wood

      木材种类吸收峰个数/个集中分布波段/nm
      红檀 7 920~970、1 010~1 060、1 210~1 260、1 570~1 620、1 779~1 829、1 921~1 971、2 122~2 172
      大果紫檀 7 930~980、1 020~1 070、1 220~1 270、1 580~1 630、1 780~1 830、1 920~1 970、2 120~2 170
      檀香紫檀 7 932~982、1 023~1 073、1 221~1 271、1 568~1 618、1 777~1 827、1 921~1 971、2 123~2 173
      刺猬紫檀 9 763~813、1 222~1 272、1 308~1 358、1 461~1 511、1 548~1 598、1 760~1 810、1 931~1 981、
      2 092~2 142、2 211~2 261
      巴里黄檀 9 765~815、1 221~1 271、1 307~1 357、1 466~1 516、1 545~1 595、1 769~1 819、1 930~1 980、
      2 087~2 137、2 219~2 269
      红檀香 9 753~803、1 223~1 273、1 309~1 359、1 463~1 513、1 558~1 608、1 771~1 821、1 932~1 982、
      2 092~2 142、2 212~2 262
      破布木 9 763~813、1 222~1 272、1 317~1 367、1 463~1 513、1 551~1 601、1 772~1 822、1 933~1 983、
      2097~2147、2214~2264
      豆瓣香 9 766~816、1230~1280、1317~1367、1468~1518、1554~1604、1775~1825、1940~1990、
      2095~2145、2 216~2 266
      中美洲黄檀 9 753~803、1 218~1 268、1 305~1 355、1 457~1 507、1 544~1 594、1 769~1 819、1 928~1 978、
      2 084~2 134、2 209~2 259
      黑檀 9 881~931、1 218~1 268、1 305~1 355、1 452~1 502、1 557~1 607、1 772~1 822、1 923~1 973、
      2 092~2 142、2 218~2 268

      表 4  不同起始波段的SPA-BP神经网络平均识别率

      Table 4.  Average recognition rate of SPA-BP neural network with different starting bands

      特征值数/起始波段/nm10种木材提取特征波长分布/nm平均识别率/%
      10 895 364~368、2 141~2 144;402~410;418~426;324、2 135~2 142;375~383;432~440;400~408;476~484;420~428;1 452~1 460 89.7
      10 1 445 478~586;410~418;423~431;500~508;405~413;436~444;418~426;693~701;891~899;888~896 90.4
      10 1 605 133~135、2 137~2 142;891~899;891~899;2 135~2 142、2 132;419~427;819~827;420~428;446~454;892~990;893~901 90.1
      10 15 2133~135、2 137~2 142;2 133~2 135、2 137~2 142;408~416;292、22 135~2 142;375~383;430~438;414~422;461~469;420~428;890~898 88.3
      10 795 61~64、2 139~2 143;405~413;420~428;326、2 135~2 142;378~386;527~535;403~411;478~486;420~422、1 453~1 458;1 350~1 358 89.5
      10 995 203~209、2 141~2 142;399~407;418~426;349~352、2 138~2 142;3381~389;434~442;421~429;485~493;527~535;1 452、1 454~ 1458、1 461~1 463 89.2
      10 1 350 82~90;891~899;434~442;519~527;416~424;886~894;420~428;694~702;891~899;888~896 88.9
      10 1 950 13、2 135~2 142;379~387;407~415;281、2 135~2 142;293~301;428~436;
      1 058~1 066;450~458;413、1 452~1 459;1 452~1 460
      88.6
        说明:木材依次为红檀、大果紫檀、檀香紫檀、刺猬紫檀、巴里黄檀、红檀香、破布木、豆瓣香、中美洲黄檀、黑檀
    • 将起始波段固定为最佳,即Winitial=1 445 nm,探讨Ntot取不同数值时,对BP神经网络识别木材的影响。从图3的光谱图可以看出:红檀、大果紫檀、檀香紫檀3种木材样本的吸收峰有7个,刺猬紫檀、巴里黄檀、红檀香、破布木、豆瓣香、中美洲黄檀和黑檀有9个。考虑吸收峰能更好地反映木材光谱图的特征,Ntot分别取了7和9,同时参考SPA的相关文献[18-21],且基于BP神经网络输入向量过多也会影响识别精度,又分别取了5、8、10、20、25进行了对比分析。基于以上特征数,分别应用BP神经网络进行木材识别,每个状态仍随机运行20次,获得的结果如表5所示。分析表5可知:整体上,当特征值个数取7和9时正确率偏高,说明特征值个数的取值和吸收峰值有关;当特征值个数取9时识别率最高,达93.2%,说明特征值个数和单个木材的吸收峰无关,应由整体的吸收峰来确定。

      表 5  同一起始波段不同特征波段的SPA-BP神经网络平均识别率

      Table 5.  Average recognition rate of SPA-BP neural network with the same starting band and different characteristic bands

      起始波
      段/nm
      特征值
      数/个
      平均识
      别率/%
      起始波
      段/nm
      特征值
      数/个
      平均识
      别率/%
      1 445592.31 4451090.6
      1 445793.01 4452092.7
      1 445993.21 4452591.2
      1 445891.6
    • 基于最佳预处理方式(移动平均法+SNV)、最佳起始波段(Winitial=1 445 nm)和最佳特征值个数(Ntot=9),整理出SPA-BP神经网络识别10种木材各自的识别结果(表6)。由表6可以看出:在最佳参数设置下,SPA-BP神经网络的识别率较高,大果紫檀、红檀香、中美洲黄檀和黑檀的平均识别率均为100.0%,其他木材的平均识别率最低达90.7%,最高达95.1%。

      表 6  同一预处理方式10种木材的SPA-BP神经网络平均识别率

      Table 6.  Average recognition rate of SPA-BP neural network for 10 species of wood with the same pretreatment method

      木材种类平均识
      别率/%
      木材种类平均识
      别率/%
      木材种类平均识
      别率/%
      红檀  90.9巴里黄檀94.2中美洲黄檀100.0
      大果紫檀100.0红檀香 100.0黑檀   100.0
      檀香紫檀90.7破布木 94.6平均   95.7
      刺猬紫檀95.1豆瓣香 91.0
        说明:预处理方式为移动平均法+SNV,起始波段为1 445 nm,     特征值数为9个
    • 针对SPA的最佳预处理方式(移动平均法+SNV)、最佳起始波段(Winitial=1 445 nm)和最佳特征值个数(Ntot=9),基于SPA-GA的BP神经网络识别方法随机运行20次,采用GA优化前后建模时间明显缩短;大果紫檀、红檀香、中美洲黄檀和黑檀在采用GA优化前后正确识别率均为100.0%,说明这4种木材在采用SPA特征提取时,识别率较高,采用GA优化后对正确识别率影响不大;其他6种木材采用SPA特征提取时均有一定的误判,运用GA优化后识别率有一定的提高。其中破布木的识别率由90.0%提升到了100.0%,巴里黄檀由88.9%提升到了100.0%,刺猬紫檀由90.9%提升到了100.0%。虽然每次仅提升1种木材,但通过多次运行,可达到整体提升的效果。

      针对上述20次运行结果,获得10种木材各自的识别结果:大果紫檀、中美洲黄檀、刺猬紫檀、巴里黄檀、红檀香、破布木和黑檀平均识别正确率高达100.0%,其他3种木材的平均识别率最低达91.5%,最高达95.7%,10种木材的平均识别率达98.0%。

      已有的木材识别研究的特征提取方法主要集中于主成分分析[22]、导数处理[23]等,主成分分析的平均识别率为70.0%~95.3%,导数处理识别率达98.6%。虽然这些研究识别率较高,但这些研究参与识别的木材种类大多仅为4~5个,对于同时识别10种木材未见尝试。经研究,参与识别的木材种类越多,识别率越难保证。本研究的主成分分析法识别10种木材,平均识别率仅为84.7%。本研究采取SPA-GA联合的特征提取方法,识别对象为10种木材,通过调整吸收峰、特征值等参数,最终7种木材的平均识别率达100.0%,且识别速度提高为原来的2~3倍。为了进一步验证识别率的鲁棒性,本研究还采用多种预处理的方式,使得原始数据表现出良好的稳定性和容错性。最后实验数据均为随机20次运行的结果,说明训练好的模型可以随时间和频次迁移应用,识别性能不会降低。

    • 研究结果表明:①SPA-GA法识别木材时,选择移动平均法+SNV的预处理方式效果最佳。②对于参数的选择,起始波段选取吸收峰比选取非吸收峰识别率更高,特征值个数结合光谱图的峰值个数选取更恰当。本研究分别选取起始波段为1 445 nm,特征值个数为9个。③SPA-GA提取光谱图特征时识别性能最佳。SPA特征值经GA寻优后,特征个数大多减少为原来的一半左右,优化后BP神经网络的平均识别速度显著提升,大果紫檀、中美洲黄檀、刺猬紫檀、巴里黄檀、红檀香、破布木和黑檀等7种木材的平均识别正确率均高达100.0%,总体识别率较SPA显著提高。

      本研究仅选择了红檀、刺猬紫檀、巴里黄檀、大果紫檀、红檀香、破布木、豆瓣香、檀香紫檀、中美洲黄檀和黑檀这10种木材样本进行了探讨,对于其他木材的识别有待进一步研究验证。

参考文献 (23)

目录

/

返回文章
返回