-
随着计算机技术和统计学方法的不断发展,机器学习方法被越来越多地运用到各个领域当中。在生态学研究中,物种分布模型(species distribution modelling,SDM)被广泛运用于外来入侵物种潜在分布区预测、珍稀物种潜在分布区预测、保护区规划和全球气候变化背景下的物种分布及迁移等方面[1],为植物保护,造林规划,制定物种多样性保护策略等提供理论依据。物种分布模型的基本原理是利用物种分布数据(包括存在点和不存在点)及不同环境因子,运用不同的模型算法计算物种的生态位,并以概率的形式反映物种对生境的偏好程度,所得结果可以解释为物种出现的概率、生境适宜度或物种丰富度等[2]。目前,学者使用较多的物种分布模型包括随机森林[3]、支持向量机[4]、遗传算法[4]、分类回归树[5]和最大熵模型(MaxEnt)[6]等,种类繁多且各有优势,且在前人研究中都得到了较好的效果。但是随着物种分布模型种类的不断增加,选择合适的模型变得愈加困难。ARAÚJO等[7]报道:每种模型各有优势和局限,且随输入数据的变化模型表现也不稳定,对同一物种的预测的精度差异可能会非常大,因此若通过建立一个模型组,将多个模型的结果整合,产生一个组合模型,将能提高预测结果的准确率。周志华[8]曾提出:单一模型之间较低的相关性可以提高模型的误差校正能力,因此模型结果的差异性越高,最终集成模型的效果也会越好。预测效果不好的模型对于问题的某一特定部分可能会有优势。因此,加入预测效果较差的模型往往不会过拟合,且多个效果较差的模型的集成也可以产生一个较好的模型。目前,常见的集成算法有3种,分别是Bagging,Boosting和Stacking。南方红豆杉Taxus chinensis var. mairei自然分布于中国的华东、中南、西南以及陕西、甘肃、台湾等地,是珍贵的资源植物,材质极佳,因其含紫杉醇而备受关注。本研究以南方红豆杉为例,应用Caret和CaretEnsemble程序包比较和集成多个模型研究其在浙江省丽水市莲都区范围内的潜在分布区,以期为该树种造林及资源保护提供科学依据。
HTML
-
根据Kappa值和准确率对比5个模型和集成模型结果(表 1),单一模型中随机森林模型、极端梯度上升模型、支持向量机模型达到了“很好”的类别,分类回归树模型和朴素贝叶斯模型的预测结果处于“好”的类别。其中极端梯度上升模型预测效果最好,Kappa值和准确率分别为0.77和0.88;其次为随机森林模型和支持向量机模型,Kappa平均值大于0.70,准确率大于0.85;分类回归树模型预测效果最差,Kappa值为0.59,准确率为0.79;朴素贝叶斯模型稍好于分类回归树模型,Kappa值和准确率分别为0.60和0.80。对比5个单一模型和集成模型,集成模型模拟效果最好,其结果显示:Kappa值为0.80,准确率为0.90,较模拟效果最好的单一模型有所提升。
模型 Kappa值 准确率 随机森林模型 0.73 0.87 分类回归树模型 0.59 0.79 朴素贝叶斯模型 0.60 0.80 极端梯度上升模型 0.77 0.88 支持向量机模型 0.73 0.86 集成模型 0.80 0.90 Table 1. Kappa values and accuracy of the model
-
Caretensemble程序包中自带varimp函数,可以计算各环境因子重要性(表 2)。随机森林模型模拟结果显示:海拔高度是影响南方红豆杉分布最重要的因子,其次为年平均最少降雨量、归一化差分植被指数和年平均最多降雨量,其重要性分别为22.58,16.21,15.81和10.55。这4个环境因子的累计重要性为65.15。分类回归树模型模拟结果显示:最重要的因子为海拔高度,其次为年平均最少降雨量、归一化差分植被指数和年平均最多降雨量,重要性分别为24.54,20.24,12.14和11.58。这4个环境因子的累计重要性为68.5。朴素贝叶斯模型模拟结果显示:海拔高度最为重要,其次为年平均最少降雨量、年平均气温和归一化差分植被指数,重要性分别为21.35,13.16,13.05和11.55。这4个环境因子的累计重要性为59.11。极端梯度上升模型模拟结果显示:最重要的因子为海拔高度,其次为归一化差分植被指数、年平均最高气温和年平均最少降雨量,重要性分别为25.75,19.34,10.97和10.02。这4个环境因子的累计重要性为66.08。支持向量机模型模拟结果显示:最重要的环境因子为年平均最低气温,重要性为13.15,为5个模型和集成模型中最高,其次为海拔、年平均气温、年平均最少降雨量、归一化差分植被指数和年平均最高气温,重要性分别为13.13,13.05,12.71,11.55和10.82,这5个环境因子的累计重要性为61.26。
环境因子 随机森林模型 分类回归树模型 朴素贝叶斯模型 极端梯度上升模型 支持向量机模型 集成模型 年平均气温日较差 2.92 0.00 1.43 0.00 0.00 0.75 土层厚度 0.00 0.00 0.79 0.86 1.68 1.03 太阳辐射 0.61 0.00 1.55 3.26 2.60 2.09 年平均湿度 5.51 7.01 4.63 2.62 0.19 2.28 距河流距离 2.23 6.94 3.55 6.12 3.55 3.81 坡度 7.86 0.00 2.65 4.75 2.65 4.23 坡向 1.76 0.00 6.64 7.07 6.64 5.17 年平均最低气温 2.72 0.00 1.92 0.00 13.15 7.63 年平均最多降雨量 10.55 11.58 8.29 4.50 8.29 8.36 年平均最高气温 4.11 7.54 9.47 10.97 10.82 8.98 年平均气温 6.83 9.86 13.05 4.74 13.05 9.89 年平均最少降雨量 16.21 20.41 13.16 10.02 12.71 13.49 归一化差分植被指数 15.81 12.14 11.55 19.34 11.55 14.01 海拔高度 22.85 24.54 21.35 25.75 13.13 18.30 Table 2. Importance of environmental factors
通过模型之间的比较可以看出:影响南方红豆杉在莲都区分布的主要环境因子为海拔高度、归一化差分植被指数和年平均最少降雨量,在每个模型中的重要性均大于10。同时5个单一模型由于其本身侧重不同,所选取参与建模的环境因子和各个环境因子的重要性也不相同。集成模型模拟结果显示每个环境因子都对南方红豆杉的潜在分布区有响应,且每个因子重要性都较为平均,没有特别突出某个环境因子。集成模型中最重要的为海拔高度,其次为归一化差分植被指数和年平均最少降雨量,3个因子重要性均大于10,累计重要性为45.8。通过对比各单一模型和集成模型显示的环境因子重要性可知:海拔高度、归一化差分植被指数和年平均最少降雨量是影响南方红豆杉潜在分布区的主要环境因子。
-
对比5个模型和集成模型,结果由图 1所示。根据集成模型预测结果,南方红豆杉主要分布在莲都区北部及东北部地区的雅溪镇、仙渡乡、双黄乡、黄村乡、太平乡、老竹畲族镇、岩泉街道及白云山林场。莲都区南部的大港头镇和峰源乡也有较多分布。在峰源乡,分布区呈现离散状态。此外,南方红豆杉在丽新畲族乡和高溪乡西侧,富岭街道、紫金街道和碧湖镇东侧亦有分布。
各乡镇潜在分布区面积结果由表 3所示,随机森林模型、极端梯度上升模型、支持向量机模型和集成模型等4个模型均显示雅溪镇的潜在分布区及其所占全区潜在分布区面积比例最大。所有模型预测结果均显示富岭街道的潜在分布区及其面积占比最小。
乡镇 潜在分布区面积/hm2 随机森林模型 分类回归树模型 朴素贝叶斯模型 极端梯度上升模型 支持向量机模型 集成模型 雅溪镇 8 285.30 1 928.64 12 934.92 6 158.25 6 117.03 9 036.40 黄村乡 2 553.49 1 480.30 2 973.48 2 425.94 2 243.00 5 756.30 仙渡乡 4 672.80 2 075.51 6 069.36 4 123.97 3 124.22 4 781.02 太平乡 3 912.68 1 766.31 5 149.49 4 004.16 1 847.48 4 573.60 老竹畲族镇 2 732.57 1 028.09 4 294.03 2 134.78 2 959.31 3 307.16 大港头镇 3 206.67 2 357.66 4 041.52 2 928.39 1 557.60 2 938.70 丽新畲族乡 2 438.82 734.35 2 835.63 1 759.87 2 007.23 2 867.84 峰源乡 1 672.26 3 317.47 1 636.69 3 613.79 1 500.91 2 711.95 双黄乡 2 553.49 1 480.30 2 973.48 3 403.79 2 005.94 2 666.86 高溪乡 2 018.83 981.71 2 070.36 1 495.76 1 345.03 2 192.75 紫金街道 1 938.95 733.06 1 994.35 1 433.92 1 355.33 2 069.07 岩泉街道 1 490.61 582.33 1 853.92 1 366.93 660.92 1 780.48 联城镇 1 360.49 506.32 1 462.26 1 015.21 1 414.60 1 734.10 碧湖镇 1 230.36 1 078.34 1 625.88 1 284.47 615.83 1 396.56 白云山林场 919.87 405.83 1 272.88 971.41 228.04 1 284.47 水阁街道 517.91 529.51 497.30 502.45 230.61 565.58 富岭街道 338.83 247.36 242.21 280.86 86.32 413.56 合计 41 843.93 21 233.09 53 927.76 38 903.95 29 299.40 50 076.40 Table 3. Potential Distribution Area of Taxuschinensis var. mairei in each township