-
林木树高是基本测树因子之一,能够反映林木生长状况,是森林资源经营管理和林木生长收获研究所必需。树高生长模型是描述树高生长过程的统计模型,也是林木生长收获模型系统中一个重要的组成部分,同时林分优势木树高的预测为适地适树、森林经营活动和林分生长收获预测提供重要的基础数据[1]。因此,树高生长模型的研究对于建立林分生长模型系统及评价立地质量具有重要意义。模型的建立方法很多,混合效应模型是近代发展起来的新统计方法,混合效应模型由固定效应和随机效应两部分组成,既可以反映总体变化趋势,又可以提供方差、协方差等多种信息来反映个体之间的差异[2]。国外开展了大量树高生长的混合效应模型研究[3-12],国内对混合效应模型的拟合方法也进行了系统的研究[13-15],但是目前国内林业上对混合效应模型的应用基本限于与传统模型拟合效果上的比较,对预测的研究还很少。祖笑锋等[16]基于混合效应模型及经验线性无偏最优预测法(EBLUP)预测美国黄松Pinus ponderosa林分优势木树高生长过程,很好地解释了EBLUP,并且深入地分析了EBLUP的特点。EBLUP最早用于动物育种学中,与地统计学的Kriging,时间序列的卡尔曼滤波及小域估计法的数学原理一致[16]。本研究以福建将乐林场杉木Cunninghamia lanceolata人工林为研究对象,基于30株解析木数据,建立拟合最优的非线性混合效应树高生长模型,研究如何利用EBLUP预测树高生长过程,并通过设置不同的观测次数、观测间隔研究与预测精度之间的关系,并探究提高预测精度的方法。
HTML
-
2010-2012年,根据林分不同年龄和密度,以典型抽样原则设置了15块20 m × 30 m标准地。对标准地内的林木进行每木检尺,选取标准木2株·标准地-1,共30株,伐倒并进行树干解析,解析木编号为F01~F30。根据解析木内业表内插法获得各年龄对应的树高值。随机选择20株进行拟合,10株进行预测(表 1)。
项目 拟合数据(20) 验证数据(10) 树高/m 年龄/a 树高/m 年龄/a 平均值 14.3 23 15.1 24 最大值 25.0 33 22.3 38 最小值 6.6 6 4.1 7 标准差 5.4 7.7 7.5 12.5 说明:表头括号中为随机选择的株数。 Table 1. Summary statistics of the fitting and calibration data
-
选择Richards方程、Weibull方程、Korf方程以及Logistic方程的2种变化形式等5个方程作为基础模型,对树高生长进行模拟(表 2)。运用非线性最小二乘法对5个树高生长方程进行拟合,选出拟合效果最好的模型作为基础模型,构建非线性混合效应模型[17]。
编号 模型 方程 1 Richards $H = {\beta _1}{\left[ {1 - {\text{exp}}\left( {{\beta _2}t} \right)} \right]^{{\beta _3}}}$ 2 Weibull $H = {\beta _1}\left[ {1 - {\text{exp}}\left( {{\beta _2}{t^{{\beta _3}}}} \right)} \right]$ 3 Korf $H = {\beta _1}{\text{exp}}\left( {\frac{{ - {\beta ^2}}}{{{t^{{\beta _3}}}}}} \right)$ 4 Logistic $H = \frac{{{\beta _1}}}{{1 + {\text{exp}}\left( {{\beta ^2} - {\beta _3}t} \right)}}$ 5 Logistic2 $H = \frac{{{\beta _1}}}{{{\text{exp}}\left( {{\beta ^2} + {\beta _3}{\text{lg}}\left( t \right)} \right)}}$ Table 2. The equations of height growth
-
非线性混合效应模型主要特点是参数分为固定效应和随机效应,固定效应可以反映研究对象的总体变化规律,随机效应随个体的不同而变化,反映总体中不同个体的变化规律,从而获得较好的拟合效果。笔者主要研究利用EBLUP预测树高生长过程,并探究提高预测精度的方法。因此将样木作为随机效应,建立混合效应模型后,通过选取生长过程与总体平均生长过程差异较大的样木进行预测分析。非线性混合模型的一般表达式为:
式(1)中:β为p×1维的固定效应向量;p为固定参数个数,bi为q×1维的随机效应向量;q为随机参数个数;Ai和Bi为具有相应维度的设计矩阵,其元素通常为0,1或与固定效应和随机效应相关的协方差值;ei为随机误差项向量;f为非线性函数;Xi为年龄;yi为树高。其中随机向量bi:N(0, D),ei:N(1, Ri),并且相互独立;ei和bi协方差矩阵分别为Ri和D,且为ni维和q维的对称矩阵。
构建非线性混合效应模型还要确定以下3种结构:① 混合效应参数。依据PINHEIRO等[18]的研究,将基础模型中参数进行组合作为混合参数进行模拟,选择收敛的模型,通过比较其赤池信息量准则(AIC),贝叶斯信息准则(BIC)以及对数似然函数(Loglik)模型评价指标。AIC,BIC值越小,Loglik值越大,模型拟合效果越好。② 随机效应内的方差协方差矩阵。为了确定随机效应内的方差协方差矩阵,需要解决异方差和自相关性结构。以指数函数(Exp),幂函数(Power)和常数加幂函数(ConstPower)3种结构形式,消除数据间的异方差。表达式为:
式(2)~式(5)中:σ2为误差方差值,由模型残差方差值给出;Gi为ni×ni维对角矩阵来解释方差异质性,对角元素为相应误差项的标准差;由于本研究数据间不存在自相关性,因此,Ini为ni×ni维的单位矩阵。β,β1,β2为参数,t为年龄[19-22]。从自变量为年龄的3种函数中,根据AIC,BIC,Loglik值以及似然比检验,确定残差方差模型。③ 随机效应间的协方差矩阵。随机效应间的协方差矩阵反映了随机效应之间的变化性。本研究包含3个随机参数,因此,矩阵为3 × 3维的方差协方差矩阵,结构例如下:
式(6)中:σu2,σv2,σw2分别为随机参数u,v,w的方差,σuv=σvu为随机参数u和v的协方差,σuw=σwu为随机参数u和w的协方差,σvw=σwv为随机参数w和v的协方差。
-
推导方法基于多元正态分布理论,以bi=0为基点,用一阶泰勒公式将非线性混合效应模型式(1)近似地表达为:
式(7)中:矩阵Zi为q × ni维矩阵,其元素可以通过对混合效应模型式(1)分别求关于随机效应bi的偏导数,随后令所有bi取0即可求出。前文提到bi:N(0, D),ei:N(1, Ri),且相互独立,因此对式(7)求yi的方差矩阵为:
bi和yi间协方差矩阵为:
bi和yi的联合分布为:
根据多元正态分布理论,当 ${y_i} = {{\tilde y}_i}$ ( ${{\tilde y}_i}$ 为观测值)时,bi的条件分布数学期望为:
对于随机变量取值最优预测值是其数学期望值,所以随机变量bi在yi取观测值时可以用bi的条件分布数学期望表示:
将式中β,D,R,Zi及f(Ai β, Xi)用相应的估计值取代后则:
式(8)称为经验线性无偏最优预测法(EBLUP)[16]。
设定 ${y_i} = \left( {\begin{array}{*{20}{l}} {{y_{i,1}}} \\ {{y_{i,2}}} \end{array}} \right)$ ,yi, 1为观测值,yi, 2为预测值。则yi, 1和yi, 2的联合分布为:
其中:W21=Cov(yi, 2, yi, 1)=Zi, 2DZi, 1T+Cov(ei, 1T, ei, 2),W11=Var(yi)=Zi, 1DZTi, 1+Ri, 1,则yi, 2的条件分布数学期望:
将各项参数用相应估计值带入的:
简化为:
结合公式(8)和公式(9)即可利用混合效应模型进行EBLUP预测。详细推导过程参考文献[23]。
根据EBLUP预测原理,式(9)中Zi, k可通过求关于随机效应bi的偏导数,求出偏导数后令所有bi取0即可。本模型有3个随机效应,故k取1,2,3。Zi, k的估计值为:
列向量 $f\left( {{A_i}\hat \beta ,{X_i}} \right)$ 表达式为:
式(11)~式(14)中: ${{\hat \beta }_{i,1}},{{\hat \beta }_{i,2}},{{\hat \beta }_{i,3}}$ 为βi, 1,βi, 2,βi, 3的估计值,通过R语言软件得出。随机效应参数的预测值 ${{\hat b}_{i,1}},{{\hat b}_{i,2}},{{\hat b}_{i,3}}$ 根据式(8),利用SAS 9.3的IML过程计算获得。将各参数估计值代入式(9)进行预测。
2.1. 数据的采集与整理
2.2. 基础模型
2.3. 非线性混合效应模型
2.4. EBLUP预测原理与方法
-
利用R语言软件基于表 1中拟合数据,对表 2中6个树高生长方程进行拟合,拟合结果见表 3。根据决定系数R2越接近于1,均方根差Rmse以及平均绝对残差|E|越接近于0,其拟合效果越好的原则,选取方程1,方程2,方程3作为基础模型。
方程 参数 确定系数R2 均方根差(Rmse 平均绝对残差|E| β1 β2 β3 1 45.517 7 0.024 1 1.192 1 0.819 9 2.698 8 0.042 7 2 41.994 9 0.013 2 1.157 9 0.819 9 2.699 1 0.076 2 3 2 647.267 0 8.858 0 0.177 1 0.820 1 2.697 2 0.002 7 4 20.734 9 2.434 6 0.169 2 0.808 3 2.784 4 2.976 8 5 65.986 0 4.821 0 -2.730 0 0.819 9 2.986 0 0.042 1 Table 3. Simulant result of height growth
-
基于基础模型,将单木考虑作为随机效应,利用R语言软件中的nlme函数对模型进行估计,改变随机参数个数比较拟合效果。基于不同随机参数组合的混合模型的拟合效果见表 4。从表中拟合情况可以看出模型2.5的AIC,BIC最小且Loglik值最大,即当模型2以β1,β2和β3同时作为混合效应参数时,模型拟合效果最佳。因此,选择模型2.5(Weibull方程)进一步构建混合效应模型。
模型编号 随机效应参数 AIC BIC Loglik 1.1 β1 1 516.717 0 1 537.274 -753.358 4 1.2 β2 1 461.503 0 1 482.060 -725.751 3 1.3 β3 1 600.736 0 1 621.293 -795.368 1 1.4 β1, β3 1 207.652 0 1 236.432 -596.826 0 1.5 β2, β3 1 147.023 0 1 175.803 -566.511 4 2.1 β1 1 516.378 5 1 536.936 -753.189 3 2.2 β2 1 455.967 7 1 476.525 -722.983 8 2.3 β3 1 382.081 0 1 402.638 -686.040 5 2.4 β2, β3 1 158.258 6 1 187.039 -572.129 3 2.5 β1, β2, β3 973.412 2 1 014.527 -476.706 1 3.1 β2 1 513.753 0 1 534.311 -751.876 7 3.2 β3 1 484.579 0 1 505.136 -737.289 6 3.3 β1, β2 1 253.315 0 1 282.096 -619.657 7 3.4 β2, β3 1 241.380 0 1 270.160 -613.690 0 其他情况 不收敛 Table 4. Comparison of models' fitting precisions with different combinations of random effects parameters
-
加权残差方差模型的评价指标见表 5。考虑残差加权的3种模型中幂函数的AIC和BIC最小且Loglik值最大,故选它作为模型的残差方差模型。
残差方差模型 AIC BIC Loglik 指数函数 975.447 1 1 020.673 -476.723 5 幂函数 975.070 0 1 020.296 -476.535 0 常数加幂函数 977.447 0 1 026.785 -476.723 5 Table 5. Simulation results for each residual variance model
-
利用R语言软件拟合模型的各参数列于表 6,基于非线性混合效应模型的杉木树高生长方程表达式为:
固定效应参数 随机效应参数协方差矩阵 参数 估计值 参数 bi, 1 bi, 2 bi, 3 β1 1.954 00 bi, 1 5.936 4 0.016 6 0.473 7 β2 0.018 96 bi, 2 0.016 6 -0.302 0 -0.251 0 β3 1.631 90 bi, 3 0.473 7 -0.251 0 -0.655 0 Table 6. Statistical results of the model fitting
-
由于EBLUP算法的原因,本研究利用式(9)预测,具体原因参考NI等[23]。从验证数据中选取F04解析木作为预测数据,选3对观测值用于预测bi,结果统计于表 7。表中 ${{\tilde y}_i}$ 为样木在Xi时树高观测值, $f\left( {{A_i}\hat \beta ,{X_i}} \right)$ 通过式(13)计算得出, ${{\tilde Z}_i}$ 通过式(10)~式(12)计算得出, ${{\tilde b}_i}$ 是通过SAS 9.3的IML过程获得。利用表 7的 ${{\tilde b}_i}$ 预测F18样木19~22 a间的树高值,并与观测值比较列于表 8。总体估计值通过式(13)计算得到,预测值通过式(9)计算获得,校正值为预测值减总体估计值的差。可见根据3对观测值获得的对样木进行EBLUP预测树高,能较准确地反映样木生长过程。在验证数据中选择样木生长过程与总体平均生长过程有差异的F04,F09,F11,F18解析木,进行EBLUP预测,将预测生长曲线、解析木树高曲线和总体平均生长过程进行比较(图 1)。通过图 1可看出:当单木生长过程和总体估计值差距较大时,基于Weibull混合效应模型的EBLUP预测能充分地预测单木生长过程。本研究依据EBLUP预测的算法,利用样木的3组观测值,基于混合效应模型使每个样木获得对应的随机效应参数,进而充分地预测样木的生长过程。
${{\tilde y}_i}/{\text{m}}$ ${X_i}/{\text{a}}$ $f\left( {{A_i}\hat \beta ,{X_i}} \right)/{\text{m}}$ ${{\hat Z}_{i,1}}$ ${{\hat Z}_{i,2}}$ ${{\hat Z}_{i,3}}$ ${{\hat b}_i}$ 16.60 23 18.713 9 0.957 7 137.837 1 8.196 0 -2.412 3 15.00 18 17.195 6 0.880 0 262.154 1 14.369 5 -0.016 4 12.00 13 13.923 5 0.712 6 369.254 3 17.961 2 0.312 6 Table 7. The matrices and vectors used for prediction
年龄/a 树高观测值/m 总体估计值/m EBLUP预测值 校正值 22 16.28 18.509 2 16.533 9 -1.975 3 21 15.96 18.261 8 16.312 6 -1.949 2 20 15.64 17.965 1 16.0342 -1.930 9 19 15.32 17.612 1 15.689 3 -1.922 8 Table 8. Comparison of observations of height, population mean, and EBLUP predicted for F18
-
在进行单木树高生长预测时发现,观测值的选择方式对预测精度高低有较大的影响,因此本研究通过设置不同的观测值间隔、观测值选取次数以及预测时长,比较预测结果的精度高低。评价预测精度的指标为均方误差(EMS):
以解析木F04,F18,F15和F11为例(由于这几株样木生长过程与总体平均生长过程差距较大,通过不同处理方式能较明显反应预测精度的提高),通过不同的选择观测值方式来研究对EMS的影响,其中观测间隔指每隔多少年对树高进行一次观测。本研究分别选取间隔1,3,5 a;观测次数是指观测多少个树高值,由于本研究基于具有3个随机效应参数的混合模型,预测随机效应参数至少需要3对观测值,故分别选取3,6,9次观测次数;相应地,因为每3对观测值会求得1组随机效应参数,故观测次数为6,9次时,需要分别取2,3组数据,分别按照1/2,1/3将解析木数据分段,年龄向上取整,每年龄段从最大值开始向下取观测值。以样木F15(35年生)为例,观测间隔5 a观测3次时,使用的是35,30,25年生的树高观测值;观测间隔为3 a观测6次时,分别使用35,32,29年生以及18,15,12年生这2组共6个树高观测值;观测间隔为1 a观测9次时,分别使用35,34,33年生,24,23,22年生以及12,11,10年生这3组共9个树高观测值。由于F04,F18年龄较小,故没有进行间隔5 a 9次的观测。以树高观测值为基础,根据式(8)预测bi值,再对树高逐年预测最后求总均方误差。结果列于表 9。
观测间隔/a 观测次数/次 均方误差 F04(23年生) F18(28年生) F15(35年生) F11(38年生) 1 3 5.546 0 4.178 7 12.396 0 22.533 3 3 3 2.866 1 1.092 4 3.388 9 2.310 8 5 3 2.746 0 0.391 7 2.704 3 0.941 7 1 6 5.218 6 3.982 9 5.238 3 3.607 2 3 6 0.332 1 0.2145 2.212 0 0E925 9 5 6 0.271 6 0.195 6 0.284 0 0E707 1 1 9 4.256 1 2.401 7 2.631 7 1E020 8 3 9 0.1670 0.189 4 0.200 3 0.379 7 5 9 0.094 6 0E247 0 Table 9. The statistical analysis of data verification
观测次数相同时,随着观测间隔的增大,均方误差降低。观测次数均为3,观测间隔取1,3,5 a,各解析木的均方误差随着观测间隔的增大而明显降低。观测间隔相同时,随着观测次数的增加,均方误差降低。观测间隔均为3 a时,随着观测次数从3次增加到9次,各组的均方误差均相应降低,观测间隔为1或5 a按同样方式比较,也可以得出相同的结论。以F15为例,观测间隔均为1 a时,随着观测次数从3次增加到9次,均方误差从12.396 0降低到2.631 7。
从图 2中可以看出:“1 a 3次”在其观测值28,27,26年生附近均方误差较低,远离观测值时,均方误差开始变大。同样,“3 a 3次”在远离20年生时均方误差开始变大,而“5 a 3次”的观测值为28,23,18年生,故在图 2中均方误差较低。所以在EBLUP预测时,随着预测远离用来预测bi的观测值,均方误差逐渐变大。