留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

C5.0决策树Hyperion影像森林类型精细分类方法

王怀警 谭炳香 房秀凤 李世明 李太兴

王怀警, 谭炳香, 房秀凤, 李世明, 李太兴. C5.0决策树Hyperion影像森林类型精细分类方法[J]. 浙江农林大学学报, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018
引用本文: 王怀警, 谭炳香, 房秀凤, 李世明, 李太兴. C5.0决策树Hyperion影像森林类型精细分类方法[J]. 浙江农林大学学报, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018
WANG Huaijing, TAN Bingxiang, FANG Xiufeng, LI Shiming, LI Taixing. Precise classification of forest types use Hyperion image based on the C5.0 decision tree algorithm[J]. Journal of Zhejiang A&F University, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018
Citation: WANG Huaijing, TAN Bingxiang, FANG Xiufeng, LI Shiming, LI Taixing. Precise classification of forest types use Hyperion image based on the C5.0 decision tree algorithm[J]. Journal of Zhejiang A&F University, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018

C5.0决策树Hyperion影像森林类型精细分类方法

doi: 10.11833/j.issn.2095-0756.2018.04.018
基金项目: 

国防科工委高分辨率对地观测系统重大专项 30-Y20A37-9003-15/17-3

浙江省省院合作林业科技项目 2017SY04

国家自然科学基金资助项目 31370635

详细信息
    作者简介: 王怀警, 从事高光谱遥感林业应用研究。E-mail:wanghuaijing271413@163.com
    通信作者: 谭炳香, 研究员, 博士, 从事遥感技术在林业中的应用研究。E-mail:tan@ifrit.ac.cn
  • 中图分类号: S757.4

Precise classification of forest types use Hyperion image based on the C5.0 decision tree algorithm

  • 摘要: 以吉林省白河林业局为中心研究区,利用星载高光谱Hyperion数据并结合其他辅助数据,综合利用影像光谱特征、纹理特征、地形特征、典型地类和主要森林类型外业调查样本数据,探究针对C5.0决策树算法的高光谱影像土地覆盖类型多层次信息提取与森林类型识别的有效方法。在分析典型地物光谱特征的基础上,优选8种纹理特征,引入主成分分量及与主要森林类型空间分布相关的敏感地形因子,采用分层分类的策略,根据光谱特征将地类划分层次,在层次间建立基于C5.0决策树算法的决策树模型,对研究区的地类进行细分。为便于对比,以相同的策略采用支持向量机(SVM)分类器进行分类。最后,结合野外采集样本并参考高分辨率影像,采用分层随机抽样的独立检验样本对森林类型精细识别结果进行精度验证。结果表明:C5.0决策树算法可综合利用高光谱影像的光谱、纹理及其他辅助数据,自动寻找出区分各类别的最佳特征变量及分割阈值,运算速度快,占用内存较小且无需人为参与,其分类精度达到优势树种级别,总体分类精度达81.9%,Kappa系数0.709 8。
  • 图  1  研究区部分森林类型分布图

    Figure  1  Distribution of some forest types in the study area

    图  2  研究区Hyperion影像及样地分布图

    Figure  2  Hyperion image and plot distribution map of the study area

    图  3  典型地物光谱曲线

    Figure  3  Spectral curves of typical objects

    图  4  地物分层分级方案及阈值

    Figure  4  Hierarchical classification scheme and threshold

    图  5  C5.0决策树分类法(A)与SVM法(B)森林类型分类图

    Figure  5  Classification Result of C5.0 Decision tree Classifier(A) and SVM Classifier(B)

    图  6  第4层(A)和第7层(B)地物分类决策树模型

    Figure  6  Classification decision tree model of the fourth layer(A) and the seventh layer(B) terrain

    图  7  第4层(A)和第7层(B)森林类型分类所选特征波段均值的离散直方图

    Figure  7  Discrete histograms of selected characteristic bands for fourth (A) and seventh (B) forest types

    表  1  保留的Hyperion影像波段

    Table  1.   Reserved bands of Hyperion image

    编号 保留波段/nm
    1 8~57
    (426.82~925.41)
    2 79-119
    (932.64-1 336.15)
    3 135~164
    (1 497.63-1 790.19)
    4 192~218
    (2 072.65~2 335.01)
    说明:括号内数值为对应的波长区间
    下载: 导出CSV

    表  2  实测样地类型及样地数

    Table  2.   Measured sample types and number

    地物类型 样地数/个
    美人松林 10
    落叶松林 12
    樟子松林 3
    白桦林 6
    杨树林 3
    柞树林 5
    阔叶混交林 4
    针叶混交林 8
    针阔混交林 5
    灌木林地 2
    无立木林地 2
    湿地 6
    耕地 4
    园地 4
    水体 2
    未利用地 3
    建设用地 2
    下载: 导出CSV

    表  3  分类系统

    Table  3.   Classification system

    1级类型 2级类型 3级类型 4级类型 5级类型
    林地 有林地 乔木林 纯林 美人松林
    落叶松林
    樟子松林
    白桦林
    杨树林
    柞树林
    混交林 阔叶混交林
    针叶混交林
    灌木林地 针阔混交林
    无立木林地
    湿地
    非林地 耕地
    园地
    水域
    未利用地
    建设用地
    下载: 导出CSV

    表  4  地类列表及样本数量

    Table  4.   List of land types and sample number

    地类编号 地物类型 样本数(像元)/个
    1 美人松林 475
    2 落叶松林 66
    3 樟子松林 63
    4 白桦林 255
    5 杨树林 63
    6 柞树林 70
    7 阔叶混交林 1 033
    8 针叶混交林 700
    9 针阔混交林 829
    10 灌木林地 49
    11 无立木林地 69
    12 湿地 103
    13 耕地 2 453
    14 园地 195
    15 水体 1 828
    16 未利用地 121
    17 建设用地 1 102
    下载: 导出CSV

    表  5  灰度共生矩阵计算的纹理因子

    Table  5.   The texture factor of gray level co-occurrence matrix

    编号 纹理因子
    1 均值
    2 方差
    3 一致性
    4 对比
    5 相异性
    6 信息熵
    7 二阶矩
    8 相关性
    下载: 导出CSV

    表  6  C5.0决策树算法与SVM法森林类型分类精度评价

    Table  6.   Forest land type classification accuracy evaluation result of C5.0 decision tree algorithm and SVM

    地类 美人松林 落叶松林 樟子松林 白桦林 杨树林 柞木林 针叶混交林 针阔混交林 阔叶混交林 灌木林 其他 用户精度/%
    美人松林 139 9 0 0 0 0 6 0 12 0 15 76.8
    落叶松林 1 69 0 8 0 0 4 0 7 0 33 56.6
    樟子松林 0 5 10 0 0 0 0 0 9 0 3 34.5
    白桦林 0 0 0 39 0 0 0 0 0 0 31 55.7
    杨树林 0 0 0 0 9 0 0 0 0 0 2 81.8
    柞木林 0 1 0 0 0 98 54 32 17 2 8 46.2
    针叶混交林 17 27 1 10 0 0 268 14 71 0 10 63.8
    针阔混交林 3 3 0 0 4 9 1 256 31 0 13 79.5
    阔叶混交林 1 1 0 1 0 0 43 94 181 0 5 55.5
    灌木林 0 0 0 1 0 3 5 3 16 9 72 8.2
    其他 2 16 5 4 2 3 2 0 10 2 2 392
    生产者精度/% 85.2 52.7 62.5 61.9 60.0 86.7 70.0 64.2 51.1 69.2 92.6
    C5.0决策树算法总体分类精度为81.9%;Kappa系数为0.709 8
    地类 美人松林 落叶松林 樟子松林 白桦林 杨树林 柞木林 针叶混交林 针阔混交林 阔叶混交林 灌木林 其他 用户精度/%
    美人松林 137 0 1 0 0 0 0 0 0 0 0 99.3
    落叶松林 3 61 1 0 0 0 0 0 5 0 1 66.3
    樟子松林 1 8 9 0 0 0 6 2 16 0 3 37.5
    白桦林 0 2 0 37 2 2 1 0 1 0 36 45.7
    杨树林 0 0 0 1 5 0 1 0 0 0 0 71.4
    柞木林 0 1 0 1 0 102 81 36 36 2 28 35.5
    针叶混交林 10 9 0 6 0 3 227 37 19 0 5 71.8
    针阔混交林 7 1 0 4 3 0 16 117 13 0 1 74.5
    阔叶混交林 0 33 2 6 2 0 34 11 190 0 72 53.1
    灌木林 0 0 0 1 0 3 0 0 0 8 47 14.3
    其他 2 6 2 2 2 0 0 0 3 3 2 525
    生产者精度/% 85.6 50.4 60.0 64.9 35.7 91.9 62.0 57.6 67.1 61.5 92.9
    SVM法总体分类精度为84.2%; Kappa系数为0.717 8
    下载: 导出CSV
  • [1] 张志明, 张征凯, 郭银明, 等.高原山区遥感植被制图研究综述[J].云南大学学报(自然科学版), 2013, 35(3):416-427.

    ZHANG Zhiming, ZHANG Zhengkai, GUO Yinming, et al. Mountain vegetation mapping using remote sensing[J]. J Yunnan Univ, 2013, 35(3):416-427.
    [2] VOISIN A, KRYLOV V A, MOSER G, et al. Supervised classification of multisensory and multiresolution remote sensing images with a hierarchical copula-based approach[J]. IEEE Trans Geosci Remote Sens, 2014, 52(6):3346-3358.
    [3] 任冲, 鞠洪波, 张怀清, 等.多源数据林地类型的精细分类方法[J].林业科学, 2016, 52(6):54-65.

    REN Chong, JU Hongbo, ZHANG Huaiqing, et al. Multi-source data for forest land type precise classification[J]. Sci Silv Sin, 2016, 52(6):54-65.
    [4] 竞霞, 王锦地, 王纪华, 等.基于分区和多时相遥感数据的山区植被分类研究[J].遥感技术与应用, 2008, 23(4):394-397.

    JING Xia, WANG Jindi, WANG Jihua, et al. Classifying forest vegetation using sub-region classification based on multi-temporal remote sensing images[J]. Remote Sens Technol Appl, 2008, 23(4):394-397.
    [5] 温一博, 范文义.多时相遥感数据森林类型识别技术研究[J].森林工程, 2013, 29(2):14-20.

    WEN Yibo, FAN Wenyi. Remote sensing image recognition for multi-temporal forest classification[J]. For Eng, 2013, 29(2):14-20.
    [6] BENZ U C, HOFMANN P, WILLHAUCK G, et al. Multi-resolution, object-oriented fuzzy analysis of remote sensing data for GIS-ready information[J]. ISPRS J Photogramm Remote Sens, 2004, 58(3/4):239-258.
    [7] FOODY G M, BOYD D S, SANCHEZ-HERNANDEZ C. Mapping a specific class with an ensemble of classifiers[J]. Int J Remote Sens, 2007, 28(8):1733-1746.
    [8] KITTLER J. Combining classifiers:a theoretical framework[J]. Pattern Anal Appl, 1998, 1(1):18-27.
    [9] FREUND Y, SCHAPIRE R E. Experiments with a new boosting algorithm[C]//ICML96 Proceesings of the Thirteenth International Conference on International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc, 1996: 148-156.
    [10] MELVILLE P, MOONEY R J. Creating diversity in ensembles using artificial data[J]. Inf Fusion, 2005, 6(1):99-111.
    [11] HELMER E H, RUZYCKI T S, BENNER J, et al. Detailed maps of tropical forest types are within reach:forest tree communities for Trinidad and Tobago mapped with multi-season Landsat and multi-season fine-resolution imagery[J]. For Ecol Manage, 2012, 279(6):147-166.
    [12] 董心玉, 范文义, 田甜.基于面向对象的资源3号遥感影像森林分类研究[J].浙江农林大学学报, 2016, 33(5):816-825.

    DONG Xinyu, FAN Wenyi, TIAN Tian. Object-based forest type classification with ZY-3 remote sensing data[J]. J Zhejiang A & F Univ, 2016, 33(5):816-825.
    [13] 李明诗, 彭世揆, 周林, 等.基于ASTER数据的决策树自动构建及分类研究[J].国土资源遥感, 2006, 18(3):33-36, 42.

    LI Mingshi, PENG Shikui, ZHOU Lin, et al. A study of automated construction and classification of decision tree classifiers based on ASTER remotely sensed datasets[J]. Remote Sens Land Resour, 2006, 18(3):33-36, 42.
    [14] 齐红超, 祁元, 徐瑱.基于C5.0决策树算法的西北干旱区土地覆盖分类研究:以甘肃省武威市为例[J].遥感技术与应用, 2009, 24(5):648-653.

    QI Hongchao, QI Yuan, XU Zhen, et al. The study of the northwest arid zone land-cover classification based on C5.0 decision tree algorithm at Wuwei City, Gansu Province[J]. J Remote Sens Technol Appl, 2009, 24(5):648-653.
    [15] 高玉蓉, 许红卫, 丁晓东.基于C5.0的钱塘江流域地区土地利用/覆被信息提取研究[J].生态科学, 2012, 31(5):481-487.

    GAO Yurong, XU Hongwei, DING Xiaodong. Extraction of land use/cover information based on C5.0 algorithm in Qiantang River drainage area[J]. Ecol Sci, 2012, 31(5):481-487.
    [16] 李梦莹, 胡勇, 王征禹.基于C5.0决策树和时序HJ-1A/B CCD数据的神农架林区植被分类[J].长江流域资源与环境, 2016, 25(7):1070-1077.

    LI Menying, HU Yong, WANG Zhengyu. Study on vegetation classification in Shennongjia forest district based on decision tree and HJ-1 A/B data[J]. Resour Environ Yangtze Basin, 2016, 25(7):1070-1077.
    [17] KEMPENEERS P, SEDANO F, SEEBACH L, et al. Data fusion of different spatial resolution remote sensing images applied to forest-type mapping[J]. IEEE Trans Geosci Remote Sens, 2012, 49(12):4977-4986.
    [18] 侯瑞萍, 黄国胜, 李应国, 等, LY/T 2188. 1-2013森林资源数据采集技术规范第1部分: 森林资源连续清查[S]. 北京: 中国标准出版社, 2014.
    [19] 唐小平, 陈雪峰, 翁国庆, 等. GB/T 26424-2010森林资源规划设计调查技术规程[S]. 北京: 中国标准出版社, 2011.
    [20] 王志慧, 李世明, 张艺伟.基于C5.0算法的森林资源变化检测方法研究:以山东省徂徕山林区为例[J].西北林学院学报, 2011, 26(5):185-191.

    WANG Zhihui, LI Shiming, ZHANG Yiwei. Methodological study on the detection of the variations of forest resources based on C5.0 algorithm:a case of Culai Forest in Shandong[J]. J Northwest For Univ, 2011, 26(5):185-191.
    [21] 崔宾阁, 马秀丹, 谢小云.小样本的高光谱图像降噪与分类[J].遥感学报, 2017, 21(5):728-738.

    CUI Binge, MA Xiudan, XIE Xiaoyun. Hyperspectral image de-noising and classification with small training samples[J]. J Remote Sens, 2017, 21(5):728-738.
    [22] 张晓羽, 李凤日, 甄贞, 等.基于随机森林模型的陆地卫星-8遥感影像森林植被分类[J].东北林业大学学报, 2016, 44(6):53-57.

    ZHANG Xiaoyu, LI Fengri, ZHEN Zhen, et al. Forest vegetation classification of Landsat-8 remote sensing images based on random forests model[J]. J Northeast For Univ, 2016, 44(6):53-57.
    [23] 董连英, 邢立新, 潘军, 等.高光谱图像植被类型的CART决策树分类[J].吉林大学学报(信息科学版), 2013, 31(1):83-89.

    DONG Lianying, XING Lixin, PAN Jun, et al. Vegetation classification in hyperspectral image with CART decision tree[J]. J Jilin Univ Inf Sci Ed, 2013, 31(1):83-89.
    [24] 赵英时.遥感应用分析与方法[M].北京:科学出版社, 2003:156-158.
    [25] HARALICK R M. Statistical and structural approaches to texture[J]. Proc IEEE, 1979, 67(5):786-804.
  • [1] 卯光宪, 谭伟, 柴宗政, 赵杨, 杨深钧.  基于BP神经网络的马尾松人工林胸径-树高模型预测 . 浙江农林大学学报, 2020, 37(4): 752-760. doi: 10.11833/j.issn.2095-0756.20190486
    [2] 郭瑞霞, 李崇贵, 刘思涵, 马婷, 全青青.  利用多时相特征的落叶松人工林分类 . 浙江农林大学学报, 2020, 37(2): 235-242. doi: 10.11833/j.issn.2095-0756.2020.02.006
    [3] 张瑜, 陈存友, 胡希军.  应用投影寻踪分类技术的森林生态功能评价 . 浙江农林大学学报, 2020, 37(2): 243-250. doi: 10.11833/j.issn.2095-0756.2020.02.007
    [4] 吴立周, 王晓慧, 王志辉, 方馨, 朱婷瑜, 丁丽霞.  基于随机森林法的农作物高光谱遥感识别 . 浙江农林大学学报, 2020, 37(1): 136-142. doi: 10.11833/j.issn.2095-0756.2020.01.018
    [5] 郭文婷, 张晓丽.  基于Sentinel-2时序多特征的植被分类 . 浙江农林大学学报, 2019, 36(5): 849-856. doi: 10.11833/j.issn.2095-0756.2019.05.002
    [6] 陶江玥, 刘丽娟, 庞勇, 李登秋, 冯云云, 王雪, 丁友丽, 彭琼, 肖文惠.  基于机载激光雷达和高光谱数据的树种识别方法 . 浙江农林大学学报, 2018, 35(2): 314-323. doi: 10.11833/j.issn.2095-0756.2018.02.016
    [7] 胡曼, 彭道黎.  面向林地分类的GF-2影像融合算法评价 . 浙江农林大学学报, 2017, 34(2): 340-348. doi: 10.11833/j.issn.2095-0756.2017.02.019
    [8] 玉宝.  兴安落叶松过伐林林木分类管理技术 . 浙江农林大学学报, 2017, 34(2): 349-354. doi: 10.11833/j.issn.2095-0756.2017.02.020
    [9] 王建明, 吴保国.  森林小班经营方案编制辅助决策支持技术 . 浙江农林大学学报, 2017, 34(4): 730-736. doi: 10.11833/j.issn.2095-0756.2017.04.020
    [10] 赖超, 方陆明, 李记, 周昌和, .  森林资源信息集成系统的设计与实现 . 浙江农林大学学报, 2015, 32(6): 890-896. doi: 10.11833/j.issn.2095-0756.2015.06.010
    [11] 姚飞, 叶康, 周坚华.  植物叶图像特征分析和分类检索 . 浙江农林大学学报, 2015, 32(3): 426-433. doi: 10.11833/j.issn.2095-0756.2015.03.015
    [12] 张倩倩, 陈健, 江洪, 唐敏忠.  结合纹理信息Hyperion高光谱影像分类 . 浙江农林大学学报, 2013, 30(6): 880-886. doi: 10.11833/j.issn.2095-0756.2013.06.012
    [13] 王妮, 彭世揆, 李明诗.  基于树种分类的高分辨率遥感数据纹理特征分析 . 浙江农林大学学报, 2012, 29(2): 210-217. doi: 10.11833/j.issn.2095-0756.2012.02.010
    [14] 孙孟军, 徐军.  基于县级森林经营的高保护价值森林区划 . 浙江农林大学学报, 2011, 28(6): 878-883. doi: 10.11833/j.issn.2095-0756.2011.06.007
    [15] 丁丽霞, 王志辉, 葛宏立.  基于包络线法的不同树种叶片高光谱特征分析 . 浙江农林大学学报, 2010, 27(6): 809-814. doi: 10.11833/j.issn.2095-0756.2010.06.001
    [16] 张志杰, 伊力塔, 韩海荣, 袁位高.  浙江省森林承载力评价研究 . 浙江农林大学学报, 2009, 26(3): 368-374.
    [17] 罗仙仙, 亢新刚.  森林资源综合监测研究综述 . 浙江农林大学学报, 2008, 25(6): 803-809.
    [18] 黄初冬, 邵芸, 李静, 柳晶辉, 陈洁琼.  基于回归决策树和ASTER卫星影像的城市森林研究 . 浙江农林大学学报, 2008, 25(2): 240-244.
    [19] 白降丽, 彭道黎, 杨馥宁.  森林资源信息分类及编码体系研究 . 浙江农林大学学报, 2007, 24(3): 326-330.
    [20] 刘安兴.  浙江省森林资源动态监测体系方案 . 浙江农林大学学报, 2005, 22(4): 449-453.
  • 加载中
  • 链接本文:

    https://zlxb.zafu.edu.cn/article/doi/10.11833/j.issn.2095-0756.2018.04.018

    https://zlxb.zafu.edu.cn/article/zjnldxxb/2018/4/724

图(7) / 表(6)
计量
  • 文章访问数:  3018
  • HTML全文浏览量:  532
  • PDF下载量:  577
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-08-25
  • 修回日期:  2017-11-01
  • 刊出日期:  2018-08-20

C5.0决策树Hyperion影像森林类型精细分类方法

doi: 10.11833/j.issn.2095-0756.2018.04.018
    基金项目:

    国防科工委高分辨率对地观测系统重大专项 30-Y20A37-9003-15/17-3

    浙江省省院合作林业科技项目 2017SY04

    国家自然科学基金资助项目 31370635

    作者简介:

    王怀警, 从事高光谱遥感林业应用研究。E-mail:wanghuaijing271413@163.com

    通信作者: 谭炳香, 研究员, 博士, 从事遥感技术在林业中的应用研究。E-mail:tan@ifrit.ac.cn
  • 中图分类号: S757.4

摘要: 以吉林省白河林业局为中心研究区,利用星载高光谱Hyperion数据并结合其他辅助数据,综合利用影像光谱特征、纹理特征、地形特征、典型地类和主要森林类型外业调查样本数据,探究针对C5.0决策树算法的高光谱影像土地覆盖类型多层次信息提取与森林类型识别的有效方法。在分析典型地物光谱特征的基础上,优选8种纹理特征,引入主成分分量及与主要森林类型空间分布相关的敏感地形因子,采用分层分类的策略,根据光谱特征将地类划分层次,在层次间建立基于C5.0决策树算法的决策树模型,对研究区的地类进行细分。为便于对比,以相同的策略采用支持向量机(SVM)分类器进行分类。最后,结合野外采集样本并参考高分辨率影像,采用分层随机抽样的独立检验样本对森林类型精细识别结果进行精度验证。结果表明:C5.0决策树算法可综合利用高光谱影像的光谱、纹理及其他辅助数据,自动寻找出区分各类别的最佳特征变量及分割阈值,运算速度快,占用内存较小且无需人为参与,其分类精度达到优势树种级别,总体分类精度达81.9%,Kappa系数0.709 8。

English Abstract

王怀警, 谭炳香, 房秀凤, 李世明, 李太兴. C5.0决策树Hyperion影像森林类型精细分类方法[J]. 浙江农林大学学报, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018
引用本文: 王怀警, 谭炳香, 房秀凤, 李世明, 李太兴. C5.0决策树Hyperion影像森林类型精细分类方法[J]. 浙江农林大学学报, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018
WANG Huaijing, TAN Bingxiang, FANG Xiufeng, LI Shiming, LI Taixing. Precise classification of forest types use Hyperion image based on the C5.0 decision tree algorithm[J]. Journal of Zhejiang A&F University, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018
Citation: WANG Huaijing, TAN Bingxiang, FANG Xiufeng, LI Shiming, LI Taixing. Precise classification of forest types use Hyperion image based on the C5.0 decision tree algorithm[J]. Journal of Zhejiang A&F University, 2018, 35(4): 724-734. doi: 10.11833/j.issn.2095-0756.2018.04.018
  • 遥感技术具有覆盖范围大、重访周期短、应用成本低等优势,能及时准确地掌握森林类型、分布、面积、结构、质量、现状及动态变化情况,在森林区划、森林资源调查、森林类型精细识别、植被制图[1]、动态变化监测等方面具有巨大的应用潜力。利用遥感影像开展土地利用类型分类和森林类型识别已有较多研究,主要集中在非参数化智能化分类、多源遥感数据与辅助信息综合分类[2-3]、知识挖掘和专家系统、多时相复合分类[4]、面向对象[5]、新方法引入与分类策略[6]、多分类器组合[7-9]等方面,并且在植被分类、林地信息提取、森林类型精细识别[10-12]、树种(组)分类、动态变化监测等方面获得广泛的应用。当前,针对高光谱影像的分类方法,如光谱角匹配方法、最大似然法、人工神经网络和支持向量机(SVM)等,多为基于像元光谱信息来赋予像元不同的地物类型,比较成熟和稳定。但此类方法往往忽视空间信息,或者对空间信息利用不充分,在没有辅助数据或者辅助数据较少的情况下,如何利用有限的已知样本点所提供的空间位置信息或其他来源的辅助信息提高分类精度值得深究。C5.0决策树算法是一种以信息熵为核心思想的数据挖掘算法,可以快速寻找现象之间未知的关系和关联。前人对该算法的应用多集中在土地利用信息自动提取[13]、土地覆盖分类[14-15]、植被分类[16]、森林变化检测[17]等方面;另外,还探究不同特征对分类的影响及不同方法的比较。然而,鲜有应用C5.0决策树算法探究高光谱数据森林类型分类。本研究以吉林省白河林业局为中心研究区,充分利用影像多元特征和辅助信息,开展基于C5.0决策树算法的森林类型识别方法研究,探究针对主要森林类型或树种(组)C5.0决策树分类方法的适用性和可行性。

    • 研究区中心区域位于吉林省延边朝鲜族自治州白河林业局境内,地理坐标为41°41′49″~42°51′18″N,127°42′55″~128°16′48″E。研究区覆盖面积约为4.05万hm2,属温带大陆性山地气候,南临长白山保护区,森林覆盖率约85%。森林植被组成和树种成分较为复杂,属阔叶混交、针叶混交和针阔混交林带,基本特点为次生林,萌生起源为主,兼有实生林及实生树木。研究区主要树种及森林类型为美人松Pinus syluestriformis林,落叶松Larix gmelinii林,樟子松Pinus sylvestris var. mongolica林,杨树Populus bonatii林,白桦Betula platyphylla林,柞树Quercus mongolica林以及阔叶混交林、针叶混交林、针阔混交林、灌木林。

    • 研究获取2015年7月9日Hyperion影像一景,覆盖范围为41.93°~42.98°N,127.97°~128.23°E,影像幅宽7.7 km × 185 km,光谱范围355~2 500 nm,共有242个波段,光谱分辨率为10 nm,空间分辨率为30 m。此外,辅助数据包括研究区行政界线矢量数据、先进星载热发射和反射辐射仪全球数字高程模型(advanced spaceborne thermal emission and reflection radiometer global digital elevation model, ASTER GDEM)30 m分辨率数字高程模型(digital elevation model,DEM)数据、研究区部分二类调查数据(图 1),矢量数据用于研究区影像数据裁剪;DEM数据作为特征因子参与分类;二类调查数据作为精度验证的辅助数据。

      图  1  研究区部分森林类型分布图

      Figure 1.  Distribution of some forest types in the study area

      Hyperion影像的预处理包括坏波段剔除、坏线修复、Smile效应校正、辐射校正、大气校正、几何校正、研究区裁剪,利用DEM数据和野外采集的全球定位系统(GPS)坐标点对影像进行正射校正。此外,为消除噪声带来的影响,还对数据进行了光谱平滑处理,为方便起见,反射率数值放大1.0万倍。剔除质量较差的波段,最终保留148个波段用于研究,表 1列出了保留的波段及对应的波长区间(表 1图 2)。

      表 1  保留的Hyperion影像波段

      Table 1.  Reserved bands of Hyperion image

      编号 保留波段/nm
      1 8~57
      (426.82~925.41)
      2 79-119
      (932.64-1 336.15)
      3 135~164
      (1 497.63-1 790.19)
      4 192~218
      (2 072.65~2 335.01)
      说明:括号内数值为对应的波长区间

      图  2  研究区Hyperion影像及样地分布图

      Figure 2.  Hyperion image and plot distribution map of the study area

    • 2016年9月3-9日,以Hyperion影像覆盖范围为主要调查区域进行外业调查。样地为直径45 m的圆形样地,在样地中心采用GPS手持机(Trimble Geo Explorer 6000)记录样地中心位置坐标,同时对样地进行多角度拍摄,记录森林类型、树种组成、优势树种(组)、郁闭度、林龄、林下灌木种类,海拔、坡度、坡向、经营活动等主要调查因子,详实反映样地及其周围林分植被生长状况,使样地的纹理、属性和位置信息一一对应。野外调查共采集Hyperion影像条带覆盖区域实测样地81个。样地在Hyperion影像条带上的空间分布如图 2所示,实测样地类型及样地数见表 2。由于样地可达性限制,部分不能抵达观测的样地在图纸和记录表中分别记录其相对位置和相关属性,可用于辅助精度验证。

      表 2  实测样地类型及样地数

      Table 2.  Measured sample types and number

      地物类型 样地数/个
      美人松林 10
      落叶松林 12
      樟子松林 3
      白桦林 6
      杨树林 3
      柞树林 5
      阔叶混交林 4
      针叶混交林 8
      针阔混交林 5
      灌木林地 2
      无立木林地 2
      湿地 6
      耕地 4
      园地 4
      水体 2
      未利用地 3
      建设用地 2
    • 参考《森林资源数据采集技术规范第1部分:森林资源连续清查》[18]中地类划分标准与《森林资源规划设计调查技术规程》[19]中林地分类系统,根据研究区地表覆盖状况和应用需求,结合遥感影像特点、森林类型及树种(组)精细识别能力,综合考虑类别科学、系统性及层次性,将研究区主要森林类型划分为美人松林、落叶松林、樟子松林、杨树林、白桦林、柞树林、阔叶混交林、针叶混交林、针阔混交林、灌木林地、无立木林地及湿地共12类。而非森林并非研究重点,故只分为耕地、园地、水域、未利用地及建设用地5类,不再进一步细分。构建的5级分类系统见表 3。其中,阔叶混交林主要为慢生阔叶混交林,主要包括水曲柳Fraxinus mandschurica,胡桃楸Juglans mandshurica,椴树Tilia tuan szyszy,榆树Ulmus pumila,色木Acer mono,枫桦Betula costata等硬阔类树种;针叶混交林主要由人工落叶松、云杉Picea asperata,红松Pinus koraiensis和臭松Abies holophylla组成;无立木林地主要指火烧迹地;灌木林地是指附着有灌木树种,或因生境恶化矮化成灌木型的乔木树种;湿地类型主要包括天然或人工的、永久或暂时的沼泽地、泥炭地、水域地带、湿草甸、湖泊、滩涂、水库、池塘等;园地主要有人参Panax ginseng,天麻Gastrodia elata,灵芝Ganoderma lucidum,蓝莓Vaccinium spp.等;未利用地主要指裸地;建设用地主要指建筑物及道路。

      表 3  分类系统

      Table 3.  Classification system

      1级类型 2级类型 3级类型 4级类型 5级类型
      林地 有林地 乔木林 纯林 美人松林
      落叶松林
      樟子松林
      白桦林
      杨树林
      柞树林
      混交林 阔叶混交林
      针叶混交林
      灌木林地 针阔混交林
      无立木林地
      湿地
      非林地 耕地
      园地
      水域
      未利用地
      建设用地
    • 由于样地可达性及工作量等因素限制,野外调查的样地数据比较有限,不足以进行分类,因此需对样本量进行适量扩充。具体做法如下:根据地物在空间分布具有连续性的特点,综合已测样地位置、纹理、影像中光谱曲线及记录表中相关信息,充分利用高光谱影像的精细光谱特征,重点针对森林类型,围绕样地周边像元进行拓展,当拓展样本与已测样地的光谱、纹理及记录表中相关信息相匹配时,即可判定该拓展样本的类别,样本选择结果见表 4

      表 4  地类列表及样本数量

      Table 4.  List of land types and sample number

      地类编号 地物类型 样本数(像元)/个
      1 美人松林 475
      2 落叶松林 66
      3 樟子松林 63
      4 白桦林 255
      5 杨树林 63
      6 柞树林 70
      7 阔叶混交林 1 033
      8 针叶混交林 700
      9 针阔混交林 829
      10 灌木林地 49
      11 无立木林地 69
      12 湿地 103
      13 耕地 2 453
      14 园地 195
      15 水体 1 828
      16 未利用地 121
      17 建设用地 1 102
    • 根据影像中地物光谱反射差异,选择特征波段,先区分出易于区分的地类,将已区分的类别进行掩膜处理,可大大减少其对后期分类工作的干扰,利于提高分类精度。利用不同地物的特征波段提取某一地类或某几类地物,即对地物进行分层, 随后在层次间对地类进一步细分,针对层次间光谱特征较为相似的地类,综合利用纹理信息和地形因子,构建基于C5.0算法的决策树模型并进行分类。最后对分类结果进行决策级融合,得到最终分类结果。

    • 高光谱数据波段多,波段间相关性较高,在进行分类研究时,通常需进行特征提取或特征选择,以达到降维或波段优选的目的。常通过微分变换的导数谱、对数变换、微分对数变换相结合、主成分分析(PCA)[20-21]等进行高维数据的压缩。经试验对比,选用PCA法进行降维,选取PCA的前4个分量(信息量达99%以上)参与分类。

      对于光谱特征相似的地物,往往通过其纹理差异加以区分[22-23]。根据研究区地类特征和影像纹理特征差异,经反复测试,分别计算PCA前3个分量各自对应的8个纹理特征[24]参与分类,选取的纹理特征如表 5所示。

      表 5  灰度共生矩阵计算的纹理因子

      Table 5.  The texture factor of gray level co-occurrence matrix

      编号 纹理因子
      1 均值
      2 方差
      3 一致性
      4 对比
      5 相异性
      6 信息熵
      7 二阶矩
      8 相关性

      研究区主要森林类型及优势树种(组)的生态学特性(如喜光、喜阴),树种群落特征和生态适应范围(如柞树多生长在向阳的山坡上),垂直向分布特征等较为明显,因此将数字高程模型(DEM),坡度(aspect),坡向(slope)作为树种分类的有效特征和辅助信息,以期进一步提高森林类型识别精度。

    • C5.0决策树算法最早的原型是由QUINLAN于1979年提出的ID3算法,后经不断改进形成C4.5算法,C5.0算法是基于C4.5的进一步改进。C5.0增加了Boosting算法以提高分类精度。该算法以信息增益率为标准确定最佳分组变量和最佳分割点,其核心概念是信息熵。信息熵又称为先验熵,是信息发送前信息量的数学期望值[25]。C5.0以信息熵的下降速度作为选取最佳分支变量和分割阈值的依据,信息熵的下降意味着不确定性下降。

      信息uii=1,2,…,r)的发生概率Pui)组成信源数学模型 $\sum\limits_{i = 1}^r {P\left({{u_i}} \right)} = 1$ ,信息量和信息熵的计算公式如下:

      $$ I({u_i}) = - {\rm{lo}}{{\rm{g}}_2}P({u_i}); $$
      $$ H\left( U \right) = - \sum\limits_{i = 1}^r {P\left( {{u_i}} \right){\rm{lo}}{{\rm{g}}_2}P({u_i})} 。 $$

      信息熵HU)为0时表示只存在唯一的可能性,不存在不确定性;如果信源的k个信号有相同的发出概率,即所有的uiPui)=1/kHU)达到最大,不确定性最大,Pui)差别越小,HU)就越大。设S是1个样本集合,目标变量CK个分类,freqCiS)表示属于Ci类的样本数,|S|表示样本集合S的样本数,则集合S的信息熵定义为:

      $$ {I_{{\rm{nfo}}}}\left( S \right) = - \sum\limits_{i = 1}^k {\left\{ {{f_{{\rm{req}}}}({C_i},S)/\left| S \right|{\rm{lo}}{{\rm{g}}_2}[{f_{{\rm{req}}}}({C_i},S)/\left| S \right|]} \right\}} 。 $$

      如果某属性变量T,有m个分类,则属性变量T引入后的条件熵定义为:

      $$ {I_{{\rm{nfo}}}}\left( T \right) = - \sum\limits_{i = 1}^n {(|{T_i}\left| / \right|T|){I_{{\rm{nfo}}}}({T_i})} 。 $$

      属性变量T带来的信息增益为:

      $$ {G_{{\rm{ain}}}}\left( T \right) = {I_{{\rm{nfo}}}}\left( S \right) - {I_{{\rm{nfo}}}}\left( T \right)。 $$

      C5.0算法使用十折交叉验证的方法,分类过程中及时反馈训练样本的质量,及时修改模型,避免出现“过度拟合”现象,保证较高的分类精度。C5.0采用后剪枝(post-pruning)策略自叶节点向上逐层剪枝,使用统计置信区间的误差估计方式,直接在训练数据中估计误差,若待剪子树中叶节点误差大于父节点的误差,则予以剪去。C5.0在选择最佳分组变量时,通常会将带有缺失值的样本当作临时样本剔除,并进行权数调整处理,使得算法对样本具有一定的容错能力。

    • 针对不易区分的几种地类,C5.0决策树算法首先计算输入样本集的熵和不同特征波段加入后的信息增益,根据信息增益最大的字段拆分样本,第1次拆分确定的属性作为树的根节点,随后根据其他属性再次拆分,后建立的决策树重点考虑之前被错分和漏分的数据,直到样本子集不能再被拆分;而属性阈值的分割则是以信息熵下降最快为准。如此建立一株完整的决策树。最后根据样本集对生成的决策树进行剪枝,剪枝的标准是叶子节点的错误率小于父节点。为提升决策树的性能,采用交叉验证技术,对选出的属性进行投票。根据构建的决策树模型进行细分,直至所有类别均被区分。对分类结果进行决策级融合并进行重编码,得到所有地类的分类结果。对分类结果进行分类后处理,合并分类结果中碎小的细部。为了体现本研究方法的优势,在相同的分类策略下,选用性能稳健优异的SVM分类器进行分类,采用网格参数寻优法寻找不同层次分类的最优参数,确保分类结果较好。

    • 根据样本对影像进行分类统计,求取各波段反射率均值,得到各类别的光谱曲线。图 3为获取的各类别反射率曲线,可用于分析各类别的光谱差异及确定地物分层方案。

      图  3  典型地物光谱曲线

      Figure 3.  Spectral curves of typical objects

      由光谱曲线可见,建设用地在蓝光到红光区间反射率呈上升趋势,不同于其他地类;水体在整个光谱区间内反射率较低;植被在447 nm处有明显的吸收谷,绿光区间有绿峰,红光区间有吸收谷,近红外区间有明显的反射峰;柞木林和灌木林在近红外到短波红外区间反射率较其他植被高很多;园地在蓝光到绿光区间内,反射率先快速上升而后趋于平稳,在447 nm处的吸收谷消失,近红外区间的反射峰值低于其他植被;耕地在中红外区间表现出较强的反射特性,在1 659 nm处达到峰值,在大于2 000 nm的波长区间,反射率较其他地类高许多。樟子松林、美人松林、湿地、无立木林地等4类的光谱曲线较为相近,由于部分水体与植被相邻,为综合多种属性提高分类精度,将此4类分为同一层;白桦林、杨树林、落叶松林、阔叶混交林、针叶混交林、针阔混交林、建设用地等7种地类光谱曲线差异不明显,不易区分,需辅以其他信息方能加以区分。

      根据地物光谱曲线差异选择特征波段,对研究区地类进行分层,特征波段选择和分层策略见图 4,分别在第4层和第7层中应用C5.0决策树算法构建决策树模型,对同一层中较难区分的地类进行细分。

      图  4  地物分层分级方案及阈值

      Figure 4.  Hierarchical classification scheme and threshold

    • 为验证方法的适用性和森林类型精细识别的精度,采用分层随机抽样产生独立验证样本。检验样本数与训练样本数比例约为1:3,参考野外采集样本、高分辨率影像(Google Earth)和研究区部分二类调查数据,对森林类型进行精度验证。为验证森林类型分类精度,将非森林类型合并为其他类,选取总体精度、Kappa系数、用户精度和生产精度作为评价指标。C5.0决策树算法森林类型总体分类精度为81.9%,Kappa系数为0.709 8,SVM分类器森林类型总体分类精度为84.2%,Kappa系数为0.717 8,2种方法的分类结果和分类精度评价分别见图 5表 6

      图  5  C5.0决策树分类法(A)与SVM法(B)森林类型分类图

      Figure 5.  Classification Result of C5.0 Decision tree Classifier(A) and SVM Classifier(B)

      表 6  C5.0决策树算法与SVM法森林类型分类精度评价

      Table 6.  Forest land type classification accuracy evaluation result of C5.0 decision tree algorithm and SVM

      地类 美人松林 落叶松林 樟子松林 白桦林 杨树林 柞木林 针叶混交林 针阔混交林 阔叶混交林 灌木林 其他 用户精度/%
      美人松林 139 9 0 0 0 0 6 0 12 0 15 76.8
      落叶松林 1 69 0 8 0 0 4 0 7 0 33 56.6
      樟子松林 0 5 10 0 0 0 0 0 9 0 3 34.5
      白桦林 0 0 0 39 0 0 0 0 0 0 31 55.7
      杨树林 0 0 0 0 9 0 0 0 0 0 2 81.8
      柞木林 0 1 0 0 0 98 54 32 17 2 8 46.2
      针叶混交林 17 27 1 10 0 0 268 14 71 0 10 63.8
      针阔混交林 3 3 0 0 4 9 1 256 31 0 13 79.5
      阔叶混交林 1 1 0 1 0 0 43 94 181 0 5 55.5
      灌木林 0 0 0 1 0 3 5 3 16 9 72 8.2
      其他 2 16 5 4 2 3 2 0 10 2 2 392
      生产者精度/% 85.2 52.7 62.5 61.9 60.0 86.7 70.0 64.2 51.1 69.2 92.6
      C5.0决策树算法总体分类精度为81.9%;Kappa系数为0.709 8
      地类 美人松林 落叶松林 樟子松林 白桦林 杨树林 柞木林 针叶混交林 针阔混交林 阔叶混交林 灌木林 其他 用户精度/%
      美人松林 137 0 1 0 0 0 0 0 0 0 0 99.3
      落叶松林 3 61 1 0 0 0 0 0 5 0 1 66.3
      樟子松林 1 8 9 0 0 0 6 2 16 0 3 37.5
      白桦林 0 2 0 37 2 2 1 0 1 0 36 45.7
      杨树林 0 0 0 1 5 0 1 0 0 0 0 71.4
      柞木林 0 1 0 1 0 102 81 36 36 2 28 35.5
      针叶混交林 10 9 0 6 0 3 227 37 19 0 5 71.8
      针阔混交林 7 1 0 4 3 0 16 117 13 0 1 74.5
      阔叶混交林 0 33 2 6 2 0 34 11 190 0 72 53.1
      灌木林 0 0 0 1 0 3 0 0 0 8 47 14.3
      其他 2 6 2 2 2 0 0 0 3 3 2 525
      生产者精度/% 85.6 50.4 60.0 64.9 35.7 91.9 62.0 57.6 67.1 61.5 92.9
      SVM法总体分类精度为84.2%; Kappa系数为0.717 8

      C5.0算法决策树模型构建过程中特征变量使用的频率可作为衡量各变量对分类贡献大小的依据,该算法区分第4和第7层地物使用的特征变量不同。经优化后的第4层和第7层地物分类决策树模型见图 6

      图  6  第4层(A)和第7层(B)地物分类决策树模型

      Figure 6.  Classification decision tree model of the fourth layer(A) and the seventh layer(B) terrain

      为了进一步印证C5.0选择特征波段的有效性,对各类别相应的特征波段进行统计分析,选取各类型特征波段均值绘制如图 7所示的离散直方图,从图 7可以清晰的看出各类别不同特征间存在明显差异,相比光谱特征具有更好的区分性,从侧面证实了C5.0决策树算法构建的决策树模型的正确性。

      图  7  第4层(A)和第7层(B)森林类型分类所选特征波段均值的离散直方图

      Figure 7.  Discrete histograms of selected characteristic bands for fourth (A) and seventh (B) forest types

      表 6可见:2种分类方法结果较一致,其中落叶松林、樟子松林、白桦林、杨树林、阔叶混交林分类精度相对较低;阔叶混交林、针叶混交林和针阔混交林间混分现象较明显;美人松林、柞木林、针叶混交林、针阔混交林分类精度相对较高。C5.0算法对落叶松林、樟子松林、杨树林、针叶混交林和针阔混交林分类精度优于SVM法,SVM分类器对白桦林、柞木林和阔叶混交林区分较好,其他类别两者分类度相差不大。

      对比C5.0决策树法和SVM法,2种方法总体分类精度均较高,SVM法总体分类精度高于C5.0决策树算法,但SVM法在内存占用、耗时等方面远高于C5.0决策树法,SVM分类器存在最优参数选择的问题,而C5.0决策树算法则参数较少。2种方法对植被的识别能力均弱于其他地物,但相比而言,C5.0决策树算法对绿色植被识别能力优于SVM法;2种方法对不同地物的识别能力不同,存在优势互补的可能。

    • 训练样本选择准确对分类至关重要。野外调查时间与影像成像时间相隔约1 a,研究中忽略了此间变化产生的影响。研究区地物类型丰富,不同地类混杂较严重,导致分类结果较为破碎。研究区森林覆盖度较高,针叶混交林、针阔混交林和阔叶混交林混杂严重,加之三者特征相近,故较难区分。由于不同地类训练样本数量不同,训练样本数较少,可能导致其分类精度较低。可见,纹理信息有助于提高某些地物分类精度,但限于影像空间分辨率,导致纹理信息不足以精细地描述不同森林类型的差异;地物尺寸较大时纹理信息对分类精度提升明显,例如流线状的河流和道路。纹理因子对分类的贡献率与影像分辨率间的关系,有待进一步探究。

      结合以上实验分析,总结如下:①针对土地覆盖类型复杂的区域,采用分层分类的策略可提高总体的分类精度,且分层数不宜过多;②建立的决策树模型深度越深,其精度越小,故决策树的深度不宜过深;③C5.0决策树算法对绿色植被的识别能力弱于其他类别;④分层分类策略结合C5.0决策树算法应用于高光谱森林类型分类,易与其他辅助数据结合,森林类型识别可达到优势树种(组)级别,可行性好,可应用于实际生产;⑤综合遥感影像的光谱、纹理和地形信息的分层信息提取方法,森林类型识别更为精细,能满足复杂地形条件下星载高光谱影像森林类型精细识别的应用需求,对中国GF-5号高光谱遥感数据林业应用具有参考价值。

    • 研究表明:①该算法对绿色植被的识别能力弱于其他类别;②该算法在训练样本数较少时依然表现较好,可充分利用影像的光谱、纹理及其他辅助信息,不会或较少出现局部收敛现象;③地形较复杂区域进行分类时,地形因子对分类贡献度较高;④C5.0决策树算法,计算速度快,占用内存小,自动选择特征变量和分割阈值,且生成的决策树规则易于理解,总体分类精度较高;⑤该算法在利用纹理因子参与分类时,均值、方差、一致性、相异性4个变量对分类贡献较高。

      研究采用的数据空间分辨率较低,混合像元现象严重,以后可考虑从混合像元分解入手改进分类策略和算法。C5.0决策树算法存在与其他分类器(如SVM)优势互补的潜力,今后可考虑多分类器融合或组合策略,以提高森林类型分类精度。

参考文献 (25)

目录

    /

    返回文章
    返回