-
水果产业是中国种植业中仅次于粮食、蔬菜的第三大产业,在国民经济中占有重要地位。中国是世界上最大的水果生产国[1],如苹果Malus pumila,梨Pyrus spp.,甜樱桃Prunus avium等,但国产水果的质量不容乐观,培育和检测高质果树是当前迫切需要解决的现实问题。遥感技术(RS)和地理信息系统(GIS)的集成可以提供强大的空间决策支持系统,为检测果树的生长状况、健康状况和果树分类等[2-4]提供了技术基础;随着遥感技术的发展,植物物种信息提取已有大量研究[5-6],也为果树的遥感信息带来了可能。近红外光谱技术由于其高分辨率特性被广泛应用,如邢东兴等[7]利用冠层和叶片的实测高光谱数据对果树的病虫害、冻害、营养元素与微量元素含量等进行了研究;朱西存等[8-9]基于高光谱数据,建立了苹果花磷素和氮素含量的预测模型,效果较好;雷彤等[10]基于多光谱和数码照相技术发现蓝光、红光和近红外波段为苹果花期的敏感波段,花期光谱特征变化与花叶比和花树比呈现较好的相关性;李子艺等[11]采用BP神经网络对南疆盆地主栽果树进行基于冠层光谱的分类,而且分类精度较高。国内外基于光谱技术对果树的研究基本局限于病虫害预警、施药、叶面积指数估计和冠层生物量检测、产量预测和果品品质评估等方面[12-13],对于果树花期分类的研究涉及极少。本研究采集并分析了常见4种果树花期的光谱数据,并选取了相关特征波长以及归一化植被指数(INDV)和比值植被指数(IRV)分类建模,以期探寻利用地面全波段光谱测试数据对果树树种进行科学识别的有效方法与途径,并为今后高空遥感技术进行果树树种识别提供理论基础。
HTML
-
近红外光谱通常包含数以千计的波长变量,且远大于样本量,利用全波段数据进行建模时,并非每个波长都能提供有用信息,大量的冗余数据会增加建模工作量。本研究采用连续投影算法(SPA)[19],寻找含有最少冗余信息的变量组合,使变量间的共线性最小。迭代结果如图 2所示,按筛选出的顺序排序特征波长分别为541,395,370,682,1 839,2 481,1 268 nm。
对4类树种花的光谱数据求平均值(图 3),发现在430 ~ 1 000 nm波段下光谱反射率由高到低的顺序为:苹果>梨>杏>桃;在1 100~1 400 nm波段下,光谱反射率由高到低的顺序为:苹果>梨>桃>杏;在1 500 ~ 1 800 nm光谱反射率由高到低的顺序为:苹果>梨>桃>杏。对光谱数据求导数可以反映光谱反射率的上升速度,从图 4可知:桃在562 ~ 675 nm波段时反射率上升最快,其次是杏,苹果,梨;在695 ~ 750 nm波段时,反射率上升速度有所变化,速度由高到低为苹果>梨>桃>杏。由此可知:在562 ~ 675 nm和695 ~ 750 nm波段下果树花期光谱波形有差异,不能被全部采用,因此连续投影算法(SPA)将此2个波段大部数据排除,只选择了此波段的峰值590 nm,720 nm作为建模数据;植被指数是能反映植物生长状况的指数,常用的植被指数有IRV和INDV,为了提高模型的精度本研究又增加这2个植被指数用于建模。综上分析,最终选取的特征波长为370,395,541,590,682,720,1 839,2 481,1 268 nm以及IRV和INDV。
-
从图 5和表 1可知:残差方差和误差随着模型输入主成分数量的增加先减小而后稳定,决定系数R2值则先增加而后稳定。当主成分数值显示为6时,得到均方误差最小值为0.05,决定系数最大值为0.79(表 1);因此,在随即建立的PLS-DA模型中选择了6个主成分,由此得到的得分图如图 6所示,显示效果较好。
主成分参数 模型决定
系数R2预测集决
定系数Q2误差 测试集误差 PC1 0.22 0.22 0.20 0.20 PC2 0.44 0.44 0.08 0.08 PC3 0.53 0.52 0.08 0.09 PC4 0.59 0.58 0.04 0.05 PC5 0.66 0.65 0.08 0.08 PC6 0.79 0.78 0.05 0.05 PC7 0.78 0.77 0.06 0.06 PC8 0.79 0.78 0.05 0.06 Table 1. Changes of errors and R2 for every principal parameters
通过使用所选择的最佳波长和植被指数建立的PLS-DA模型如下:y=-3.30R369+6.20R394-7.99R540+5.51R681-1.79R590-4.25R720+3.29R1267-0.98R1838+3.44R2480-12.50INDV+0.45IRV+8.22。表 2显示了不同果树树种在PLS-DA模型下的预测精度。结果表明:对于苹果、桃和杏的预测精度较高,梨的准确度略低。不同果树物种的检测精度差异很大。预测集样本总体识别率为76.36%。
种类 识别次数/次 识别率/% 梨 苹果 桃 杏 梨 3 12 0 0 20.00 苹果 0 20 0 0 100 桃 0 0 9 1 90.00 杏 0 0 0 10 100 识别率/% 100 62.50 100 90.91 76.36 Table 2. Classification results of PLS-DA model for four fruit tree species
-
从图 7和表 3可知:残差方差和误差随着模型输入主成分数量的增加先减小而后趋于稳定,相关系数R2则先增加而后趋于稳定增加。当主成分数值显示为7时,得到均方误差最小值为0.04,决定系数R2最大值为0.85(表 3);因此,在建立O-PLS-DA模型中选择了7个主成分作为指标,得到得分图如图 8所示。此模型下分类效果比PLS-DA更明显。
主成分参数 模型决定
系数R2预测集决
定系数Q2误差 测试集误差 PC1 0.05 0.04 0.34 0.34 PC2 0.30 0.29 0.18 0.18 PC3 0.53 0.51 0.07 0.08 PC4 0.67 0.64 0.06 0.06 PC5 0.79 0.76 0.05 0.05 PC6 0.82 0.81 0.04 0.04 PC7 0.84 0.82 0.04 0.05 PC8 0.85 0.84 0.04 0.04 Table 3. Changes of errors and R2 for every principal parameters
建立的O-PLS-DA模型如下:y=0.01R369-0.06R394-1.08R540-0.52R681-0.89R590-0.99R720-0.96R1267-0.51R1838+0.10R2480-0.28INDV-2.58IRV+2.16。表 4显示了不同果树树种的O-PLS-DA模型的预测精度。结果表明,对于苹果、桃和杏的预测精度较高,梨的准确度略低,但比PLS-DA略有提高。不同果树品种的检测精度差异很大。预测集样本总体识别率为81.82%,比PLS-DA模型精度有所提高。
种类 识别次数/次 识别率/% 梨 苹果 桃 杏 梨 6 8 1 0 40.00 苹果 0 20 0 0 100 桃 0 1 9 0 90.00 杏 0 0 0 10 100 识别率/% 100 68.97 81.82 100 81.82 Table 4. Classification results of O-PLS-DA model for detecting fruit tree species
-
图 9表明:在训练34次后交叉熵趋向于平稳,即BP神经网络算法在迭代34次时得到最稳定模型,误差最优为0.04~0.05(图 10),在预测集中有部分杏被误认为桃,总体识别率达到93.90%(表 5),与前面2种识别方法相比,BP神经网络算法具有自动划分样本集的功能,方法有效,识别率高。由于BP神经网络是有输入层、隐含层、输出层的非线性模型,因此没有具体的模型表达式。
种类 识别次数/次 识别率/% 梨 苹果 桃 杏 梨 8 0 0 0 100 苹果 0 20 0 0 100 桃 0 0 23 1 95.80 杏 0 0 3 11 78.60 识别率/% 100 100 88.50 91.70 93.90 Table 5. Classification results of BP model for detecting fruit tree species