留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于优化k-NN模型的高山松地上生物量遥感估测

谢福明 字李 舒清态

谢福明, 字李, 舒清态. 基于优化k-NN模型的高山松地上生物量遥感估测[J]. 浙江农林大学学报, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
引用本文: 谢福明, 字李, 舒清态. 基于优化k-NN模型的高山松地上生物量遥感估测[J]. 浙江农林大学学报, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
XIE Fuming, ZI Li, SHU Qingtai. Optimizing the k-nearest neighbors technique for estimating Pinus densata aboveground biomass based on remote sensing[J]. Journal of Zhejiang A&F University, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
Citation: XIE Fuming, ZI Li, SHU Qingtai. Optimizing the k-nearest neighbors technique for estimating Pinus densata aboveground biomass based on remote sensing[J]. Journal of Zhejiang A&F University, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012

基于优化k-NN模型的高山松地上生物量遥感估测

doi: 10.11833/j.issn.2095-0756.2019.03.012
基金项目: 

国家林业公益性行业科研专项 201404309

国家自然科学基金资助项目 31460194

国家自然科学基金资助项目 31060114

详细信息
    作者简介: 谢福明, 从事地理信息系统与遥感应用研究。E-mail:geoxfming@qq.com
    通信作者: 舒清态, 副教授, 博士, 从事"3S"技术及森林景观经营研究。E-mail:shuqt@163.com
  • 中图分类号: S758.5

Optimizing the k-nearest neighbors technique for estimating Pinus densata aboveground biomass based on remote sensing

  • 摘要: 针对传统k-最近邻法(k-nearest neighbor,k-NN)在搜索最近邻单元时赋予特征变量相等的权重,缺少对特征变量加权优化等不足问题,在云南省香格里拉市,以高山松Pinus densata为研究对象,基于49块实测标准地,116株高山松样木和Landsat 8/OLI影像,在前期进行基于遗传算法(genetic algorithm,GA)优化的k-NN模型实现的基础上,对k-NN的3个参数(k,td)进行反复测试优化组合,在像元尺度上对研究区高山松地上生物量进行遥感估算。结果表明:基于遗传算法优化的k-NN模型精度优于传统的k-NN模型,优化前均方根误差为30.0 t·hm-2,偏差为-0.418 t·hm-2,相对标准误差百分比(RMSE)为54.8%;优化后均方根误差为24.0 t·hm-2,偏差为-0.123 t·hm-2RMSE为43.7%。基于优化k-NN模型的研究区高山松地上生物量总储量估测结果为0.89×107 t。
  • 图  1  研究区地理位置示意图

    Figure  1  Location of the study area

    图  2  高山松单木地上生物量模型验证

    Figure  2  Validation of Pinus densata aboveground biomass model

    图  3  k-NN模型精度随kt的变化曲线

    Figure  3  Change curve of model accuracy with the value of k and t

    图  4  遗传算法优化中适应度值随遗传代数的降低曲线

    Figure  4  Reduction of fitness value curve with the number of generations in optimization of genetic algorithm

    图  5  模型优化前后生物量的估测精度对比

    Figure  5  Comparison of estimation accuracy of aboveground biomass of Pinus densata between k-NN and ik-NN model

    图  6  像元尺度下的k-NN/ik-NN模型局部反演对比

    Figure  6  Comparison of local inversion of k-NN/ik-NN model on pixel scale

    图  7  像元尺度下香格里拉市高山松地上生物量反演结果示意图

    Figure  7  Spatial distribution of Pinus densata aboveground biomass in Shangri-la at the pixel scale

    表  1  遥感因子一览表

    Table  1.   A list of factors derived from remote sensing

    变量 数量 公式及说明
    $\rho_{{{{\rm{B}}i}}}$ 6 Landsat 8/OLI数据第i波段原始发生率拖$\rho_{{\rm{B}} i}(i=2, 3, 4, 5, 6, 7)$
    $V_{{\rm{IS}} 234}$ 1 ${V_{{\rm{IS}}234}} = \sum\limits_{i = 2}^4 {{\rho _{{\rm{B}}i}}} $
    $A_{\text { lledo }}$ 1 ${A_{{\rm{lhedo}}}} = \sum\limits_{i = 2}^7 {{\rho _i}} $
    ${P_{{\rm{CA}}j}}, {I_{{\rm{CA}}j}}, {M_{{\rm{NF}}j}}$ 9 分别为主成分分析、独立主成分分析、MNF变换的第j成分(j=1, 2, 3)
    $T_{{\rm{CB}}}, T_{{\rm{CG}}}, T_{{\rm{CW}}}$ 3 分别为缨穗变换的亮度、绿度、湿度分量
    $D_{{\rm{VI}}}$ 1 差值植被指数${D_{{\rm{VI}}}} = {\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}, \;{\rho _{{\rm{NIR}}}}, \;{\rho _{\rm{R}}}$分别为近红外波段、红波段的反射率
    ${N_{{\rm{DVI}}}}$ 1 归一化植被指数:${N_{{\rm{DVI}}}} = \left( {{\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}} \right)/\left( {{\rho _{{\rm{NIR}}}} + {\rho _{\rm{R}}}} \right)$
    ${E_{{\rm{VI}}}}$ 1 增强植被指数:${E_{{\rm{VI}}}} = 2.5\left[ {\frac{{\left( {{\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}} \right)}}{{\left( {{\rho _{{\rm{NIR}}}} + 6.0{\rho _{\rm{R}}} - 7.5{\rho _{{\rm{BLUE}}}} + 1} \right)}}} \right]$,$\rho_{{\rm{BLUE}}}$为蓝波段的反射率
    $R_{{\rm{VI}}}$ 1 比值植被指数:${R_{{\rm{VI}}}} = \left( {{\rho _{{\rm{NIR}}}}/{\rho _{\rm{R}}}} \right)$
    $S_{{\rm{AVI}}}$ 1 土壤调节植被指数:${S_{{\rm{AVI}}}} = \frac{{(1 + L)\left( {{\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}} \right)}}{{\left( {{\rho _{{\rm{NIR}}}} + {\rho _{\rm{R}}} + L} \right)}}$,L为土壤调节系数,因研究区植被覆盖率大,本研究取0.25
    Bi_N_T 96 纹理特征,即第i波段N×N窗口下的纹理滤波Ti=2, 3, 4, 5; N=3, 5, 9;T为纹理滤波,依次分为:均值ME,方差VA,协同性HO, 对比度CO, 相异性DI,信息熵EN,二阶矩SM,相关性CR
    $E_{\text { levation }}$ 1 海拔
    $S_{\rm{lope}}$ 1 DEM派生的坡度因子
    下载: 导出CSV

    表  2  生物量实测数据基本信息表

    Table  2.   Basic information of biomass measured data

    变量 样木数据(N=116) 标准数据(N=49)
    树高/m 胸径/cm 单株地上生物量/kg 标准树高/m 标准胸径/cm
    均值 15.061 24.094 276.381 9.275 15.295
    最大值 33.00 76.00 2 058.50 14.77 23.10
    最小值 4.20 5.60 4.03 5.61 8.62
    标准差 6.480 14.082 370.847 2.092 3.373
    下载: 导出CSV

    表  3  不同特征变量等级下的模型精度对比

    Table  3.   Comparison of model accuracy under different level feature variables

    特征变量等级 数量 $\widehat \sigma $/(t·hm-2) $\hat{\overline{e}}$/(t·hm-2) RMSE/%
    原始 123 33.96 0.03 61.6
    显著相关 35 33.34 -2.7 63.6
    极显著相关 16 29.95 -0.42 54.8
    显著或极显著相关 51 34.52 0.01 62.6
    下载: 导出CSV

    表  4  遗传算法有效参数值与主要算子汇总

    Table  4.   Parameters and main functions of genetic algorithm

    自定义有效参数值 主要算子(算法调用于Sheffield遗传算法工具箱)
    初始化染色体群体个数npop: 50 crtbp.m,创建任意离散随机种群
    遗传迭代次数ngen:30~80 bs2rv.m,二进制串到实值的转换
    染色体选择操作概率ps: 0.95 ranking.m,基于排序的适应度分配
    染色体基因交叉操作概率Pc:0.7 sus.m,随机遍历采样选择方式
    染色体变异操作概率Pm: 0.01 xovsp.m,单点交叉;mut.m,离散变异
    优化权重上限值: 0.5 reins.m,一致随机和基于适应度的重插入
    下载: 导出CSV

    表  5  第50代优化的特征变量权重值(遗传代数为50,上限值为0.5)

    Table  5.   Values of the elements of the weight vector for feature variables for the 50th optimization (with upper bounds 0.5 and 50 generations)

    项目 B2 B2_3_ME B2_3_HO B2_3_DI B3_3_HO B3_3_DI B3_3_EN B3_3_SM B4_3_ME B2_5_ME B3_5_ME B3_5_EN B3_5_SM B4_5_ME B2_9_ME B3_9_ME
    权重 2.10×l0-3 2.50×10-2 7.53×10-2 1.41×10-1 1.14×10-1 1.24×10-1 1.16×10-1 6.12×10-2 2.42×10-2 2.88×10-2 2.29×10-2 2.75×10-2 9.52×10-2 2.59×10-2 4.04×10-2 7.50×10-2
    说明:Bi_N_T为纹理特征,即第i波段N×N窗口下的纹理滤波T。纹理滤波依次分为:均值ME,方差VA,协同性HO,对比度CO,相异性DI,信息熵EN,二阶矩SM,相关性CR。如B2_3_ME,即第2波段3×3窗口下的均值(ME)纹理滤波,依次类推
    下载: 导出CSV

    表  6  高山松地上生物量实测值与模型预测值统计结果

    Table  6.   Statistics of observations and model predictions of aboveground biomass of Pinus densata

    变量 生物量/(t·hm-2)
    最小值 最大值 均值 标准差
    样地实测 10.2 141.2 55.1 34.9
    k-NN预测 16.2 92.6 54.7 18.9
    ik-NN预测 23.3 95.2 55.0 20.1
    下载: 导出CSV
  • [1] 王效科, 冯宗炜.中国森林生态系统中植物固定大气碳的潜力[J].生态学杂志, 2000, 19(4):72-74.

    WANG Xiaoke, FENG Zongwei. The potential to sequester atmospheric carbon through forest ecosystems in China[J]. Chin J Ecol, 2000, 19(4):72-74.
    [2] 胡会峰, 刘国华.中国天然林保护工程的固碳能力估算[J].生态学报, 2006, 26(1):291-296.

    HU Huifeng, LIU Guohua. Carbon sequestration of China's National Natural Forest Protection Project[J]. Acta Ecol Sin, 26(1):291-296.
    [3] 胡会峰, 刘国华.森林管理在全球CO2减排中的作用[J].应用生态学报, 2006, 17(4):709-714.

    HU Huifeng, LIU Guohua. Roles of forest management in global carbon dioxide mitigation[J]. Chin J Appl Ecol, 2006, 17(4):709-714.
    [4] 汤旭光, 刘殿伟, 王宗明, 等.森林地上生物量遥感估算研究进展[J].生态学杂志, 2012, 31(5):1311-1318.

    TANG Xuguang, LIU Dianwei, WANG Zongming, et al. Estimation of forest aboveground biomass based on remote sensing data:a review[J]. Chin J Ecol, 2012, 31(5):1311-1318.
    [5] TOMPPO E. Satellite imagery-based national inventory of Finland[J]. Int Arch Photogramm Remote Sensing, 1991, 28(7/1):419-424.
    [6] MCROBERTS R E. Estimating forest attribute parameters for small areas using nearest neighbors techniques[J]. For Ecol Manage, 2012, 272(3):3-12.
    [7] MCROBERTS R E, NÆSSET E, GOBAKKEN T. Optimizing the k-Nearest Neighbors technique for estimating forest aboveground biomass using airborne laser scanning data[J]. Remote Sensing Environ, 2015, 163:13-22.
    [8] MURA M, MCROBERTS R E, CHIRICI G, et al. Statistical inference for forest structural diversity indices using airborne laser scanning data and the k-Nearest Neighbors technique[J]. Remote Sensing Environ, 2016, 186:678-686.
    [9] MCROBERTS R E, DOMKE G M, CHEN Q, et al. Using genetic algorithms to optimize k-Nearest Neighbors configurations for use with airborne laser scanning data[J]. Remote Sensing Environ, 2016, 184:387-395.
    [10] MCROBERTS R E, CHEN Q, WALTERS B F. Multivariate inference for forest inventories using auxiliary airborne laser scanning data[J]. For Ecol Manage, 2017, 401:295-303.
    [11] KATILA M, TOMPPO E. Stratification by ancillary data in multisource forest inventories employing k-nearest neighbor estimation[J]. Can J For Res, 2002, 32(9):1548-1561.
    [12] TOMPPO E, HALME M. Using coarse scale forest variables as ancillary information and weighting of variables in k-NN estimation:a genetic algorithm approach[J]. Remote Sensing Environ, 2004, 92(1):1-20.
    [13] TOMPPO E, GAGLIANO C, NATALE F D, et al. Predicting categorical forest variables using an improved k-Nearest Neighbour estimator and Landsat imagery[J]. Remote Sensing Environ, 2009, 113(3):500-517.
    [14] 陈尔学, 李增元, 武红敢, 等.基于k-NN和Landsat数据的小面积统计单元森林蓄积量估测方法[J].林业科学研究, 2008, 21(6):745-750.

    CHEN Erxue, LI Zengyuan, WU Honggan, et al. Forest volume estimation method for small areas based on k-NN and Landsat data[J]. For Res, 2008, 21(6):745-750.
    [15] 郭颖.森林地上生物量的非参数遥感估测方法优化[D].北京: 中国林业科学研究院, 2011.

    GUO Ying. Optimum Non-Parametric Method for Forest Aboveground Biomass Estimation based on Remote Sensing Data[D]. Beijing: Chinese Academy of Forestry, 2011.
    [16] 胥辉, 张会儒.林木生物量模型研究[M].昆明:云南科技出版社, 2002.
    [17] CHIRICI G, MURA M, MCINEMEY D, et al. A meta-analysis and review of the literature on the k-Nearest Neighbors technique for forestry applications that use remotely sensed data[J]. Remote Sensing Environ, 2016, 176(2):282-294.
    [18] 谢福明, 舒清态, 字李, 等.基于k-NN非参数模型的高山松生物量遥感估测研究[J].江西农业大学学报, 2018, 40(4):743-750.

    XIE Fuming, SHU Qingtai, ZI Li, et al. Remote sensing estimation of Pinus densata aboveground biomass based on k-NN nonparametric model[J]. Acta Agric Univ Jiangxi, 2018, 40(4):743-750.
    [19] BEAUDOIN A, BERNIER P Y, GUINDON L, et al. Mapping attributes of Canada's forests at moderate resolution through k-NN and MODIS imagery[J]. Can J For Res, 2014, 44(5):521-532.
    [20] MCROBERTS R E. Estimating forest attribute parameters for small areas using nearest neighbors techniques[J]. For Ecol Manage, 2012, 272(3):3-12.
  • [1] 卢佶, 张国威, 吴昊.  基于多时相光学和雷达遥感的太平湖生态保护区森林地上生物量反演 . 浙江农林大学学报, 2023, 40(5): 1082-1092. doi: 10.11833/j.issn.2095-0756.20220682
    [2] 杨绍钦, 王翔, 许澄, 商天其.  基于MODIS时间序列数据的竹林地上生物量估算 . 浙江农林大学学报, 2022, 39(4): 734-741. doi: 10.11833/j.issn.2095-0756.20210431
    [3] 栾景然, 冯国红, 朱玉杰.  基于连续投影算法-遗传算法-BP神经网络的可见/近红外光谱木材识别 . 浙江农林大学学报, 2022, 39(3): 671-678. doi: 10.11833/j.issn.2095-0756.20210377
    [4] 黄屹杰, 张加龙, 胡耀鹏, 程滔.  高山松地上生物量遥感估算的不确定性分析 . 浙江农林大学学报, 2022, 39(3): 531-539. doi: 10.11833/j.issn.2095-0756.20210473
    [5] 杜雨菲, 吴保国, 陈玉玲.  基于机器学习算法的广西桉树适宜性研究 . 浙江农林大学学报, 2020, 37(1): 122-128. doi: 10.11833/j.issn.2095-0756.2020.01.016
    [6] 兰洁, 肖中琪, 李吉玫, 张毓涛.  天山雪岭云杉生物量分配格局及异速生长模型 . 浙江农林大学学报, 2020, 37(3): 416-423. doi: 10.11833/j.issn.2095-0756.20190384
    [7] 黄剑峰, 谭伟, 柴宗政, 蔡照军.  黔中马尾松近熟林空间结构特征及其调控 . 浙江农林大学学报, 2019, 36(4): 749-756. doi: 10.11833/j.issn.2095-0756.2019.04.015
    [8] 王科, 谭伟, 戚玉娇.  近自然经营间伐对黔中马尾松天然次生纯林生长的初期效应 . 浙江农林大学学报, 2019, 36(5): 886-893. doi: 10.11833/j.issn.2095-0756.2019.05.006
    [9] 申家朋, 陈东升, 孙晓梅, 张守攻.  基于似乎不相关回归和哑变量的日本落叶松单木生物量模型构建 . 浙江农林大学学报, 2019, 36(5): 877-885. doi: 10.11833/j.issn.2095-0756.2019.05.005
    [10] 罗恒春, 张超, 魏安超, 张一, 黄田, 余哲修.  云南松林分平均胸径生长模型及模型参数环境解释 . 浙江农林大学学报, 2018, 35(6): 1079-1087. doi: 10.11833/j.issn.2095-0756.2018.06.011
    [11] 王海宾, 彭道黎, 高秀会, 李文芳.  基于GF-1 PMS影像和k-NN方法的延庆区森林蓄积量估测 . 浙江农林大学学报, 2018, 35(6): 1070-1078. doi: 10.11833/j.issn.2095-0756.2018.06.010
    [12] 冉啟香, 邓华锋, 黄国胜, 王雪军, 陈振雄.  云南松地上生物量模型研究 . 浙江农林大学学报, 2016, 33(4): 605-611. doi: 10.11833/j.issn.2095-0756.2016.04.008
    [13] 吕常笑, 邓华锋, 王少杰, 陈振雄, 王雪军.  马尾松不同区域相容性立木材积和地上生物量模型 . 浙江农林大学学报, 2016, 33(5): 790-797. doi: 10.11833/j.issn.2095-0756.2016.05.010
    [14] 王月婷, 张晓丽, 杨慧乔, 王书涵, 白金婷.  基于Landsat 8卫星光谱与纹理信息的森林蓄积量估算 . 浙江农林大学学报, 2015, 32(3): 384-391. doi: 10.11833/j.issn.2095-0756.2015.03.008
    [15] 邓静, 陈宇拓.  利用增长量分配模型的杉木林分生长预测建模 . 浙江农林大学学报, 2014, 31(6): 898-904. doi: 10.11833/j.issn.2095-0756.2014.06.011
    [16] 商珍珍, 周国模, 杜华强.  毛竹林地上生物量与胸径的分形关系 . 浙江农林大学学报, 2013, 30(3): 319-324. doi: 10.11833/j.issn.2095-0756.2013.03.002
    [17] 魏晓慧, 孙玉军, 马炜.  基于Richards方程的杉木树高生长模型 . 浙江农林大学学报, 2012, 29(5): 661-666. doi: 10.11833/j.issn.2095-0756.2012.05.004
    [18] 季碧勇, 陶吉兴, 张国江, 杜群, 姚鸿文, 徐军.  高精度保证下的浙江省森林植被生物量评估 . 浙江农林大学学报, 2012, 29(3): 328-334. doi: 10.11833/j.issn.2095-0756.2012.03.002
    [19] 王晓宁, 徐天蜀, 李毅.  利用ALOS PALSAR双极化数据估测山区森林蓄积量模型 . 浙江农林大学学报, 2012, 29(5): 667-670. doi: 10.11833/j.issn.2095-0756.2012.05.005
    [20] 田有圳, 黄金桃, 林照授, 涂育合, 叶功富.  凹叶厚朴一元立木材积方程的研究 . 浙江农林大学学报, 2002, 19(3): 255-258.
  • 加载中
  • 链接本文:

    https://zlxb.zafu.edu.cn/article/doi/10.11833/j.issn.2095-0756.2019.03.012

    https://zlxb.zafu.edu.cn/article/zjnldxxb/2019/3/515

图(7) / 表(6)
计量
  • 文章访问数:  2774
  • HTML全文浏览量:  604
  • PDF下载量:  62
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-05-23
  • 修回日期:  2018-09-10
  • 刊出日期:  2019-06-20

基于优化k-NN模型的高山松地上生物量遥感估测

doi: 10.11833/j.issn.2095-0756.2019.03.012
    基金项目:

    国家林业公益性行业科研专项 201404309

    国家自然科学基金资助项目 31460194

    国家自然科学基金资助项目 31060114

    作者简介:

    谢福明, 从事地理信息系统与遥感应用研究。E-mail:geoxfming@qq.com

    通信作者: 舒清态, 副教授, 博士, 从事"3S"技术及森林景观经营研究。E-mail:shuqt@163.com
  • 中图分类号: S758.5

摘要: 针对传统k-最近邻法(k-nearest neighbor,k-NN)在搜索最近邻单元时赋予特征变量相等的权重,缺少对特征变量加权优化等不足问题,在云南省香格里拉市,以高山松Pinus densata为研究对象,基于49块实测标准地,116株高山松样木和Landsat 8/OLI影像,在前期进行基于遗传算法(genetic algorithm,GA)优化的k-NN模型实现的基础上,对k-NN的3个参数(k,td)进行反复测试优化组合,在像元尺度上对研究区高山松地上生物量进行遥感估算。结果表明:基于遗传算法优化的k-NN模型精度优于传统的k-NN模型,优化前均方根误差为30.0 t·hm-2,偏差为-0.418 t·hm-2,相对标准误差百分比(RMSE)为54.8%;优化后均方根误差为24.0 t·hm-2,偏差为-0.123 t·hm-2RMSE为43.7%。基于优化k-NN模型的研究区高山松地上生物量总储量估测结果为0.89×107 t。

English Abstract

谢福明, 字李, 舒清态. 基于优化k-NN模型的高山松地上生物量遥感估测[J]. 浙江农林大学学报, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
引用本文: 谢福明, 字李, 舒清态. 基于优化k-NN模型的高山松地上生物量遥感估测[J]. 浙江农林大学学报, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
XIE Fuming, ZI Li, SHU Qingtai. Optimizing the k-nearest neighbors technique for estimating Pinus densata aboveground biomass based on remote sensing[J]. Journal of Zhejiang A&F University, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
Citation: XIE Fuming, ZI Li, SHU Qingtai. Optimizing the k-nearest neighbors technique for estimating Pinus densata aboveground biomass based on remote sensing[J]. Journal of Zhejiang A&F University, 2019, 36(3): 515-523. doi: 10.11833/j.issn.2095-0756.2019.03.012
  • 大气中温室气体浓度上升引起的全球气候变化,导致极端气候事件频发,严重威胁着人类生存与社会经济的可持续发展,成为各国政府和科学家关注的重大环境问题。在应对全球气候变化背景下,森林碳汇的相关研究成为科学界关注的热点[1-3]。生物量是森林生态系统碳汇潜力评估的重要基础,如何快速、准确地获取森林生物量信息,在20世纪90年代就成了森林生态系统与全球气候变化研究的关键[4]。准确评估森林碳储量的时空变化,不仅可以为森林资源的经营管理和林业可持续发展提供的科学依据,而且对碳循环及碳汇研究具有重要的意义。随着遥感技术的不断发展,利用数学模型结合实测样地数据进行生物量的大尺度快速估测变得有效可行。k-最近邻法(k-nearest neighbor, k-NN)作为一种非参数方法,已被广泛用于多源林业调查和森林参数估计的反演。1990年,TOMPPO[5]首次将k-NN技术应用于芬兰森林资源监测中并取得了较好的效果。MCROBERTS[6]记录了该技术在国际范围内被广泛用于林业应用领域,包括森林调查空间插值预测、数据库监测、反演制图、小区域估测和统计推理。从数据层面上来讲,k-NN与Landsat影像,机载激光扫面数据和MODIS数据联合使用估测评价森林属性的研究较多,并且将机载激光扫描指标等主动遥感变量与光学遥感、大尺度森林变量等参数结合使用有助于提高k-NN模型的预测精度[7]。国外研究者在遗传算法的优化下,利用k-NN和机载激光扫描数据对森林资源调查、森林参数估测与评价等方面取得了较好的研究成果[8-10]。KATILA等[11]和TOMPPO等[12]运用数字地图进行数据分层和使用遗传算法对特征变量进行加权来作为一种提高预测精度的手段后,该方法得到了加强。利用遗传算法对卫星影像数据特征变量加权优化将会提高估测精度,并且将优化好的模型应用于单一森林属性变量(如某个树种)比同时应用于多变量的精度会提高许多[13]。然而,国内的研究学者缺少对k-NN模型算法进行优化改良的研究,仅局限于将传统的k-NN运用于不同的森林参数估计。如陈尔学等[14]运用Landsat数据和传统的k-NN法对小面积统计单元森林蓄积量估测,其结果表明采用k-NN法对县市级统计单元森林参数的估测效果明显优于只利用固定样地数据的传统参数估测方法。郭颖[15]利用k-NN非参数回归模型对甘肃省西水林场的森林地上生物量进行估测,并用随机森林算法(RF)进行特征选择后估测精度得以提升,优化后的算法在处理错误样本时具有良好的容错能力。本研究使用遗传算法对k-NN模型进行优化,使模型预测结果的偏差、均方根误差等最小化,以期提高模型的估测精度,实现对研究区高山松Pinus densata地上生物量储量估计与空间反演制图。

    • 研究区位于滇西北迪庆藏族自治州香格里拉市境内(26°52′11.44″~28°50′59.57″N,99°23′6.08″~100°18′29.15″E)(图 1)。研究区地势高耸,热量不足,气温偏低,海拔为1 503~5 545 m,多年平均气温为5.5 ℃,历年平均降水量为618.4 mm,平均降雪日为35.7 d,年日照率为40%~50%,属山地寒温带季风气候。境内密集的金沙江水系支流、冰雪融水和高原湖泊等水资源以及以棕壤、红壤为主的森林土壤类型孕育了丰富的植物资源。森林植被面积大,覆盖率高,南北差异分布明显,主要分布有10种植被类型,常见的树种有云杉Picea asperata,冷杉Abies fabri,高山松,云南松Pinus yunnanensis和高山栎Quercus semicarpifolia等。其中,高山松适应性广,更新能力强,是喜光、耐旱、耐瘠薄的优势树种。一般分布于云杉、冷杉林下限,海拔为2 800~3 500 m,林分外貌整齐,成片分布,以同龄单层林常见,占全市乔木林面积的22.7%。

      图  1  研究区地理位置示意图

      Figure 1.  Location of the study area

      表 1  遥感因子一览表

      Table 1.  A list of factors derived from remote sensing

      变量 数量 公式及说明
      $\rho_{{{{\rm{B}}i}}}$ 6 Landsat 8/OLI数据第i波段原始发生率拖$\rho_{{\rm{B}} i}(i=2, 3, 4, 5, 6, 7)$
      $V_{{\rm{IS}} 234}$ 1 ${V_{{\rm{IS}}234}} = \sum\limits_{i = 2}^4 {{\rho _{{\rm{B}}i}}} $
      $A_{\text { lledo }}$ 1 ${A_{{\rm{lhedo}}}} = \sum\limits_{i = 2}^7 {{\rho _i}} $
      ${P_{{\rm{CA}}j}}, {I_{{\rm{CA}}j}}, {M_{{\rm{NF}}j}}$ 9 分别为主成分分析、独立主成分分析、MNF变换的第j成分(j=1, 2, 3)
      $T_{{\rm{CB}}}, T_{{\rm{CG}}}, T_{{\rm{CW}}}$ 3 分别为缨穗变换的亮度、绿度、湿度分量
      $D_{{\rm{VI}}}$ 1 差值植被指数${D_{{\rm{VI}}}} = {\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}, \;{\rho _{{\rm{NIR}}}}, \;{\rho _{\rm{R}}}$分别为近红外波段、红波段的反射率
      ${N_{{\rm{DVI}}}}$ 1 归一化植被指数:${N_{{\rm{DVI}}}} = \left( {{\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}} \right)/\left( {{\rho _{{\rm{NIR}}}} + {\rho _{\rm{R}}}} \right)$
      ${E_{{\rm{VI}}}}$ 1 增强植被指数:${E_{{\rm{VI}}}} = 2.5\left[ {\frac{{\left( {{\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}} \right)}}{{\left( {{\rho _{{\rm{NIR}}}} + 6.0{\rho _{\rm{R}}} - 7.5{\rho _{{\rm{BLUE}}}} + 1} \right)}}} \right]$,$\rho_{{\rm{BLUE}}}$为蓝波段的反射率
      $R_{{\rm{VI}}}$ 1 比值植被指数:${R_{{\rm{VI}}}} = \left( {{\rho _{{\rm{NIR}}}}/{\rho _{\rm{R}}}} \right)$
      $S_{{\rm{AVI}}}$ 1 土壤调节植被指数:${S_{{\rm{AVI}}}} = \frac{{(1 + L)\left( {{\rho _{{\rm{NIR}}}} - {\rho _{\rm{R}}}} \right)}}{{\left( {{\rho _{{\rm{NIR}}}} + {\rho _{\rm{R}}} + L} \right)}}$,L为土壤调节系数,因研究区植被覆盖率大,本研究取0.25
      Bi_N_T 96 纹理特征,即第i波段N×N窗口下的纹理滤波Ti=2, 3, 4, 5; N=3, 5, 9;T为纹理滤波,依次分为:均值ME,方差VA,协同性HO, 对比度CO, 相异性DI,信息熵EN,二阶矩SM,相关性CR
      $E_{\text { levation }}$ 1 海拔
      $S_{\rm{lope}}$ 1 DEM派生的坡度因子
    • 从地理空间数据云(http://www.gscloud.cn/)获取Landsat 8/OLI影像3景覆盖整个研究区:2015年11月9日(2景),轨道号分别为132/040和132/041;2015年12月20日(1景),轨道号为131/041(图 1)。并采用软件ENVI 5.3对卫星影像进行辐射定标、大气校正(FLAASH)和几何精校正等预处理后提取单波段、多波段组合、主成分变换、缨帽变换、植被指数、纹理和地形特征(由DEM提取)等共计123个因子,作为建模因子备选参数(表 1)。

    • 地面实测数据49块标准地和116株高山松样木数据(表 2):实测标准地数据于2014年10-11月,在云南省香格里拉市境内的高山松分布范围内采集,在高山松分布范围布设了49个大小为30 m × 30 m的样地,记录了树高、胸径、样地差分GPS定位坐标和海拔等。其中:林分地上生物量依据式(1)进行计算。

      表 2  生物量实测数据基本信息表

      Table 2.  Basic information of biomass measured data

      变量 样木数据(N=116) 标准数据(N=49)
      树高/m 胸径/cm 单株地上生物量/kg 标准树高/m 标准胸径/cm
      均值 15.061 24.094 276.381 9.275 15.295
      最大值 33.00 76.00 2 058.50 14.77 23.10
      最小值 4.20 5.60 4.03 5.61 8.62
      标准差 6.480 14.082 370.847 2.092 3.373
      $$ W = 0.0955{\left( {D_{{\rm{BH}}}^2H} \right)^{0.8229}}。 $$ (1)

      高山松样木数据记录了不同龄组下(包括幼龄林、中龄林、近熟林、成熟林、过熟林)116株高山松胸径(DBH)和树高(H),并测定了树干、树皮、树叶、树枝、树冠生物量,用于拟合高山松地上生物量计算模型。本研究中的地上生物量由树干、树枝和树叶3个部分的生物量构成,生物量调查参照胥辉等[16]生物量测定方法。

      首先,采用随机抽样法将116株样木数据分成2个部分:2/3样本作为建模样本建立生物量估算模型,1/3作为检验样本对模型进行检验。其次,采用相对生长模型(非线性模型),运用最小二乘法对高山松单木地上生物量(W)模型进行拟合,结果见式(1),拟合决定系数R2为0.980 7,均方根误差RMSE等于46.73 kg,模型的验证结果如图 2所示,检验决定系数R2等于0.995 7。

      图  2  高山松单木地上生物量模型验证

      Figure 2.  Validation of Pinus densata aboveground biomass model

    • k-NN的专业术语中,将待测变量及其特征变量的观测值样本指定为参考集,将待测变量的预测集指定为目标集,特征变量定义的空间成为特征空间。对于诸如生物量或蓄积量等连续性变量M在像元p上的预测值mp的计算方法如下:

      $$ {m_p} = \sum\limits_{i = 1}^k {{w_{ip}}} {m_{i}}。 $$ (2)

      式(2)中:mi为变量M参考样地点i上的实测值;k为计算预测值mp时考虑的近邻个数;wip为像元权重值,其计算如下:

      $$ {{w_{ i p} = }}\left\{ \begin{array}{l} d_{{\rm{pvp}}}^{ - t}/\sum\limits_{j = {i_1}\left( p \right)}^{{i_k}\left( p \right)} {d_{{p_{i, p}}}^{ - t}} , 当且仅当i \in \left\{ {{{ i}_1}(p), \cdots , {i_k}(p)} \right\}。\\ 0, 其他情况 \end{array} \right. $$ (3)

      式(3)中:i是参考集样本;p是目标集像元;pj是与参考集样本j对应的样本;$d_{{\rm{pvp}}}^{ - t}$为距离分解因子;k, t为常量,一般通过实验反复测试选取最佳值;$\left\{ {{i_1}(p), \cdots , {i_k}(p)} \right\}$是与待测像元p在特征空间上最相似的k个参考集样本。特征变量空间相似度由度量dpi, p,其计算方法如下:

      $$ {d_{{p_i}, p}} = \sqrt {\sum\limits_{l = 1}^{{n_f}} {{\omega _{l,f}}} \left( {{f_{l, p}} - {f_{{l_p}}}} \right)}。 $$ (4)

      式(4)中:${f_{l, {p_j}}}$和fl, p分别为参考集和目标集样本对应的遥感影像光谱波段及其派生因子等特征变量;nf为特征变量个数;p为目标集像元;pi为参考集样本i对应的像元;ωl, f为赋予特征空间中第l个特征变量的权值。

    • ik-NN与k-NN在方法原理上是一样的,改进之处在于前者使用遗传算法赋予了特征空间里的所有变量一个评价其重要性指标的权重向量,即式(4)中的ωl, f;而后者则赋予所有变量相同的权值。优化的非单位矩阵ωl, f降低了不相关因子对因变量的影响,间接的起到了因子筛选的作用。

      遗传算法优化ωl, f过程:(1)初始化。便于描述,将初始化权重向量群体比作染色体群体,权重向量的元素个体比作基因。随机生成大小为[npopnf]的数组作为初始化群体,运用二进制(0/1)对基因进行编码,并计算每一个染色体的适应度γ,其计算公式见式(5),用于对初始染色体及子代染色体选择的评价指标。(2)选择。采用随机遍历采样,根据自定义选择概率ps将已有的优良染色体复制后添入新染色体群体中,删除劣质染色体;染色体是否被选择的依据是其适应度的大小,适应度大者被复制,小者被淘汰,确保新群体中的基因总数和初始群体相同。(3)交叉。利用交叉算子对染色体的基因编码进行重组,发生的概率为pc,通过交叉操作可以得到新一代染色体,子代的染色体组合了父辈的特性。交叉是遗传算法中最主要的操作,体现了信息交换的思想。(4)变异。变异首先在染色体群体中随机选择1个个体,对于选中的个体以突变概率pm随机地改变其基因的编码。同生物界一样,遗传算法中变异发生的概率很低,通常取值很小。

    • 留一法交叉验证,即对于N个样本,每次从N个样本中抽出1个样本作为测试集,利用剩余的N-1个样本作为参考集,重复N次循环,直至结束。本研究将N个样本的模型预测值${\hat y_i} = (i = 1, \cdots , N)$与对应样本的实测值(yi)进行统计分析,利用均方根误差$\hat{\sigma}$[式(6)]和偏差$\hat{\overline{e}}$[式(7)]及相对标准误差百分比RMSE[式(8)]来检验模型的精度。

      $$ \gamma (\omega , \hat \sigma , \hat{\overline{e}}) = \sum\limits_{j = 1}^{{n_f}} {{{\hat \sigma }_j}} (\omega ) + \left| {\sum\limits_{j = 1}^{{n_f}} {{\hat{\overline{e}}_j}} (\omega )} \right|; $$ (5)
      $$ \hat \sigma = \sqrt {\frac{{\sum\limits_{i = 1}^N {{{\left( {{{\hat y}_i} - {y_i}} \right)}^2}} }}{N}} ; $$ (6)
      $$ \hat{\overline{e}} = \frac{{\sum\limits_{i = 1}^N {\left( {{{\hat y}_i} - {y_i}} \right)} }}{N}; $$ (7)
      $$ {R_{{\rm{MSE}}}} = \frac{{\hat \sigma }}{{\bar y}} \times 100\% 。 $$ (8)

      式(5)~(8)中:γ为遗传算法适应度;ω为赋予特征变量的权值;nf为特征变量个数;yi和$\hat{y}_{i}$分别为第i个样本的实测值与模型预测值;$\overline {\hat y} $为模型预测值的平均值。

    • 筛选特征变量的目的在于:①降低特征空间的维数提高算法的运行速率,保证研究的可行性;②排除不相干变量、选择相关性显著的特征变量来提高模型的精度。在SPSS软件中分析特征变量与生物量之间的相关性显著水平,综合考虑特征空间的维度和模型精度后,从123个特征变量中选取16个与生物量极显著相关的特征变量作为建模变量。表 3是将特征变量分为原始、显著相关和极显著相关3个等级后逐一评价的结果,客观地反映了不同特征变量等级下的模型精度。

      表 3  不同特征变量等级下的模型精度对比

      Table 3.  Comparison of model accuracy under different level feature variables

      特征变量等级 数量 $\widehat \sigma $/(t·hm-2) $\hat{\overline{e}}$/(t·hm-2) RMSE/%
      原始 123 33.96 0.03 61.6
      显著相关 35 33.34 -2.7 63.6
      极显著相关 16 29.95 -0.42 54.8
      显著或极显著相关 51 34.52 0.01 62.6
    • k-NN模型需要确定3个重要的参数:评估特征变量空间相似度的距离参数$d_{p_{i}, p}$;计算待测像元p的预测值时考虑的在特征空间上最相似的参考集样本个数k及其加权方案wip。依据CHIRICI等[17]和谢福明等[18]的研究,在k-NN模型距离参数指标度量方式中,最常用的是欧氏距离(70%),其次是马氏距离(3.5%),以及典型相关分析度量(1.9%),故本研究选取欧氏距离作为特征变量空间相似度的评价标准。k的选择通常介于1~10,本研究结合相应的实验数据选取的k=5,如图 3Ak≤5时,模型精度随k的增大而提高,并在k=5时达最佳精度;k>5时,模型的精度逐渐降低。t即距离分解因子,在模型中的应用见式(3),t通常取0~2内的值,其对模型精度的影响较小(图 3B),本研究t取2。

      图  3  k-NN模型精度随kt的变化曲线

      Figure 3.  Change curve of model accuracy with the value of k and t

    • 遗传算法最终的目的是为每一个特征变量计算出权重,并将其运用于k-NN模型来提高生物量的预测精度。算法中的主要函数调用于Sheffield遗传算法工具箱,其中的参数值在实验中反复测试、调试后确定。其中,图 4表明了适应度$\gamma (\omega , \hat \sigma , \hat{\overline{e}})$随着遗传迭代次数(10,30或50)的增加呈缓慢下降,当迭代次数大于50时,适应度随迭代次数的变化比较平稳,并趋向于稳定。表 4记录了算法的最佳初始参数值和调用的主要算子。

      图  4  遗传算法优化中适应度值随遗传代数的降低曲线

      Figure 4.  Reduction of fitness value curve with the number of generations in optimization of genetic algorithm

      表 4  遗传算法有效参数值与主要算子汇总

      Table 4.  Parameters and main functions of genetic algorithm

      自定义有效参数值 主要算子(算法调用于Sheffield遗传算法工具箱)
      初始化染色体群体个数npop: 50 crtbp.m,创建任意离散随机种群
      遗传迭代次数ngen:30~80 bs2rv.m,二进制串到实值的转换
      染色体选择操作概率ps: 0.95 ranking.m,基于排序的适应度分配
      染色体基因交叉操作概率Pc:0.7 sus.m,随机遍历采样选择方式
      染色体变异操作概率Pm: 0.01 xovsp.m,单点交叉;mut.m,离散变异
      优化权重上限值: 0.5 reins.m,一致随机和基于适应度的重插入
    • k-NN模型及其优化算法在MATLAB环境下调试、运行,算法给予每个特征变量初始化的权重值均相等(第0代),表 5为第50代优化的特征变量权重值(算法的参数设置同2.2所述),表 5数据为标准化后的数值,其和为1。

      表 5  第50代优化的特征变量权重值(遗传代数为50,上限值为0.5)

      Table 5.  Values of the elements of the weight vector for feature variables for the 50th optimization (with upper bounds 0.5 and 50 generations)

      项目 B2 B2_3_ME B2_3_HO B2_3_DI B3_3_HO B3_3_DI B3_3_EN B3_3_SM B4_3_ME B2_5_ME B3_5_ME B3_5_EN B3_5_SM B4_5_ME B2_9_ME B3_9_ME
      权重 2.10×l0-3 2.50×10-2 7.53×10-2 1.41×10-1 1.14×10-1 1.24×10-1 1.16×10-1 6.12×10-2 2.42×10-2 2.88×10-2 2.29×10-2 2.75×10-2 9.52×10-2 2.59×10-2 4.04×10-2 7.50×10-2
      说明:Bi_N_T为纹理特征,即第i波段N×N窗口下的纹理滤波T。纹理滤波依次分为:均值ME,方差VA,协同性HO,对比度CO,相异性DI,信息熵EN,二阶矩SM,相关性CR。如B2_3_ME,即第2波段3×3窗口下的均值(ME)纹理滤波,依次类推

      本研究的主要目标是通过优化方法降低像元尺度下模型的估测误差,提高对高山松地上生物量的估测精准度。表 6图 5表明:(1)基于传统k-NN模型的样本生物量预测结果为16.2~92.6 t·hm-2,平均值为54.7 t·hm-2,模型均方根误差为30.0 t·hm-2, 偏差为-0.418 t·hm-2RMSE为54.8%(图 5A);(2)遗传算法优化后的ik-NN模型精度得到了提升,均方根误差为24.0 t·hm-2,偏差为-0.123 t·hm-2RMSE为43.7%(图 5B)。与传统k-NN模型相比,ik-NN模型的精度均方根误差值降低了约6.0 t·hm-2,偏差下降比例达75.6%,模型精度RMSE提高了11.1%;(3)ik-NN模型的样本估计值为23.3~95.2 t·hm-2,在均值上与实测值比较相近,约55.0 t·hm-2。但对于高生物量或低生物量区域的估测残差仍较大,均出现高值低估,低值高估的现象。

      表 6  高山松地上生物量实测值与模型预测值统计结果

      Table 6.  Statistics of observations and model predictions of aboveground biomass of Pinus densata

      变量 生物量/(t·hm-2)
      最小值 最大值 均值 标准差
      样地实测 10.2 141.2 55.1 34.9
      k-NN预测 16.2 92.6 54.7 18.9
      ik-NN预测 23.3 95.2 55.0 20.1

      图  5  模型优化前后生物量的估测精度对比

      Figure 5.  Comparison of estimation accuracy of aboveground biomass of Pinus densata between k-NN and ik-NN model

    • 像元尺度下的定量反演是一项极其密集的任务,需要逐一计算研究区内的每一个像元,对计算机内存需求大,故本研究把研究区分成多块区域后再逐一估测反演。图 6k-NN和ik-NN 2个模型局部反演结果:k-NN模型的预测为20.0~97.5 t·hm-2,平均值为49.5 t·hm-2,标准差为13.1 t·hm-2图 6A);ik-NN模型的预测值则为18.4~113.7 t·hm-2,平均值为49.3 t·hm-2,标准差为13.5 t·hm-2图 6B)。模型的反演结果中离散分布的像元较少,近邻相关性好,更好地体现了变量的区域相关性。依据森林资源二类调查统计数据,研究区高山松分布区面积为1.74×105 hm2,其地上总生物量估测结果为0.89×107 t。图 7ik-NN模型的高山松地上生物量空间分布等级图,生物量等级在16.8~108.9 t·hm-2之内,主要分布在45~75 t·hm-2

      图  6  像元尺度下的k-NN/ik-NN模型局部反演对比

      Figure 6.  Comparison of local inversion of k-NN/ik-NN model on pixel scale

      图  7  像元尺度下香格里拉市高山松地上生物量反演结果示意图

      Figure 7.  Spatial distribution of Pinus densata aboveground biomass in Shangri-la at the pixel scale

    • 本研究使用遗传算法实现对k-NN模型中的特征变量赋予相应的权重值后,构建加权欧氏距离,结合卫星数据和地面实测样地数据建立了优化的k-NN估测回归模型,估算出香格里拉高山松地上生物量储量,反演出地上生物量分布等级图。结果显示:k-NN算法参数kt分别取值为5和2时,模型的预测效果最佳;基于遗传算法优化的ik-NN模型预测精度优于传统的k-NN模型,均方根误差为24.0 t·hm-2,偏差为-0.123 t·hm-2RMSE为43.7%。研究区像素级水平下高山松地上生物量的预测值为16.8~108.9 t·hm-2,总估计值为0.89×107 t。

      CHIRICI等[17]研究显示:使用卫星光谱数据作为特征变量时,需要大量的样本来获取较小的相对标准误差百分比,这与本研究结果相符合。本研究k-NN模型的参考样本偏少,且参考样本在空间分布上相对集中(图 1),所以生物量的预测结果残差较大,出现高值低估,低值高估的现象;造成这一现象的另一个原因是k-NN法本身存在的缺陷,即只能局限于实测值范围内对未知单元进行估测,预测值不会超出实测值的范围,模型算法中k个参考样本间的加权求和降低了估计值的方差,从而产生了更大的估测误差。但k-NN在大尺度区域上的森林资源监测中有很大的潜力,不仅适用于森林参数的估测反演,还适用于森林调查空间插值预测、数据库监测、小区域估测和统计推理等研究[19-20],并且从以下方面做出突破可以有效提升其预测能力,为生活生产实践提供更好的技术借鉴:①k-NN在搜索最近邻个体时应限制搜寻的范围,如限制一个搜寻半径或在指定的图斑区域,而不是全局搜索,充分利用区域化变量的特性来提高模型的估测精度。②利用地物光谱的差异性,结合星载、机载高光谱数据和地面实测高光谱数据或者其他能够区分地物的单波段,利用最近邻法或其他机器学习算法实现对地物的精细识别,提高区域尺度上的地物分类精度,进而提高对其生理生化参数定量估测的准确性。

参考文献 (20)

目录

    /

    返回文章
    返回