-
森林具有巨大的生态、经济和社会功能,是应对经济全球化发展过程中造成的生态危机和气候变化问题的有效资源。森林资源清查和森林生态保护一直都是各级政府建设的重要内容。实际工作中,护林员通过手机拍摄到的林业现场数据传输回服务器后,可根据林业业务需求快速分类;其分类结果发送到相关管理部门,就可完成对相关事件及时有效的处理。这种森林资源监管模式避免了传统管理手段无法准确及时了解森林现状及动态的问题。要使林业各个管理部门全面配合、相互协调,增强决策支持和加快应急处理,其核心是实现林业业务图像迅速、准确的分类。陈锦标等[1]使用.NET提出了基于分类的林业图像管理信息系统,解决林业图像管理分散、分类混乱、查找困难问题。刘义华等[2]针对林业图像数据的特点,提出了海量数据服务器架设方式和需要解决的关键问题。这些研究的基础是对林业图像进行标注,系统代价高,人工成本也高。本研究中林业业务图像自动分类的理论基础是场景图像分类。场景图像分类是在20世纪90年代末开始兴起的一个研究领域,2006年麻省理工学院首次召开场景理解研讨会后成为了新的研究热点。2005年之前,场景图像分类主要采用基于底层特征(low level features)的方法和基于场景结构的方法;之后则采用基于图像视觉词汇的方法,该类方法由SIVIC等[3]提出视觉词汇的概念,将文本分类中的词袋方法(bag of words, BoW)应用到图像分类中来。之后,由于视觉词汇在图像分类中具有特征表达能力强和简单有效的优点[4],被研究者应用在计算机视觉的图像分类领域[5-12]。词袋方法的核心是提取图像特征构建视觉词汇本。近年来,多采用局部特征用于图像分类,例如,LOWE[13]提出的高效区域检测算法SIFT(scale invariant feature transform)具有图像旋转、尺度缩放、平移保持不变性,该方法在2004年得到完善[14];Dense SIFT即密集SIFT,是在SIFT基础上发展而来的一种算法,相比传统SIFT特征后者具有实时性好、表达能力强的优点。本研究针对林业业务图像数据的特点,利用Dense SIFT提取图像中的业务信息,构建合理的视觉词汇本,描述林业业务图像;根据林业业务管理需求,联合直方图正交核的支持向量机对图像自动分类,并将各类信息传递至各职能管理,从而实现快速、及时、准确、有效的管理。
HTML
-
我们就Dense SIFT特征提取BoW模型和SVM分类器的林业业务图像分类算法进行了仿真实验。实验的硬件平台如下:Intel® Core(TM),i3-3240 CPU@3.40GHz。SVM采用台湾大学CHANG等[18]的LibSVM工具箱。为了验证效果,我们建立了林业业务图像数据集,目前收录了3类林业业务图像:森林火灾、非法采伐和森林病虫害,分别由森林防火指挥部、森林公安和林业有害生物防治检疫局处理。具体实验中,选取60幅·种-1,共计180幅图像作为研究对象;以40幅·种-1作训练样本,20幅·种-1作测试样本。将得到的林业业务原始图像按比例尺截取子区域,缩放至240×240像素统一大小。图 4给出了3类林业业务图像的部分样本。
-
构建视觉直方图后,可以用它表示图像中视觉词汇出现的频次了。首先,将训练图像按照BoW描述向量和相应的类别标签通过支持向量机SVM分类器进行训练。然后,将待分类图像使用相同的方法进行Dense SIFT特征提取后用BoW模型进行描述,并采用训练好的分类器进行分类。SVM采用的核函数分别采用上述多项式核函数(Poly),径向基核函数(RBF),多层感知器核函数(Sigmoid)以及直方图交叉核,最后得到各类林业业务图像的分类结果(表 1)。
核函数 森林火灾/% 非法采伐/% 森林病虫害/% 平均识别率/% 多项式核函数 80.0 85.0 75.0 80.0 径向基核函数 85.0 85.0 80.0 83.3 多层感知器核函数 80.0 80.0 75.0 78.3 直方图交叉核函数 85.0 90.0 85.0 86.7 Table 1. Recognition comparison results of three kinds of forestry image with different kernel functions
由表 1可知:对于此3类林业业务,不同的核函数对数据映射的维度不同,尽管结果有一定的差别,但是平均识别率趋势表现为“非法采伐”>“森林火灾”>“森林病虫害”。该结果与3类业务图像的数据特征一致,分析原因认为“非法采伐”含有大量的被砍伐的树木,特征较为明显,识别率高;“森林火灾”由于火灾现场往往含有火或烟雾等特征,但同时一些图像也含有绿叶树木,其识别率次之;“森林病虫害”识别率低是因为病虫害的种类和数量较多,病因与害虫特征表现差异也较大。除Sigmoid核函数内核外,其余的内核平均识别率都达到80%以上,特别是使用直方图正交核进行分类所得到的平均识别率最高,达到了86.7%。由于采用直方图正交核对于直方图的比较问题具有较好的效果,因此使用词袋模型的直方图形式描述图像特征,在直方图正交核上得到了最佳识别效果。
-
为了获得SIFT特征和Dense SIFT特征在林业业务图像上的分类效果,我们在相同实验条件下分别采用SIFT和Dense SIFT特征后得到的分类结果进行比较。其中,选用直方图交叉核函数作为SVM内核,分类识别时间包括训练时间和所有测试图像的分类时间,得到结果如表 2所示。
特征 分类识别时间/s 平均识别率/% SIFT特征 95.567 83.3 Dense SIFT特征 60.143 86.7 Table 2. Recognition comparison with different feature in BoW
由表 2可知:在训练数据库和词袋大小相同时,Dense SIFT特征比SIFT有更高的识别率;采用Dense SIFT作特征提取时训练时间和识别时间更短,更适应实时性较高的场合。林业业务图像往往由多个物体类别组合而成,以森林火灾为例,其图像可能会包含树木、天空、火、烟等多种对象,要求描述这类图像的特征应该有丰富的局部信息。选用SIFT特征提取法仅仅提取图像中的关键点,即图像变化较为突出的区域,难以兼顾图像局部和细节信息;使用Dense SIFT特征提取方法会更优,因为用Dense SIFT对整幅图片进行划分不同的子区域,进而对局部特征有了完整的提取,即使对某些文理、色彩等变化比较平缓的区域,也能求出其局部特征。这表明Dense SIFT生成兴趣点的方法在林业业务图像分类领域可以取得比SIFT兴趣点检测方法更好的性能。
-
为验证BoW模型的有效性,在相同实验条件下,将SIFT或Dense SIFT提取的特征数据作为变量输入,选用直方图交叉核函数作为SVM内核,经支持向量机训练和测试分类。得到结果如表 3所示。
特征 分类识别时间/s 平均识别率/% SIFT特征 33.652 48.5 Dense SIFT特征 21.312 52.3 Dense SIFT特征+BoW模型 60.143 86.7 Table 3. Forestry image recognition performance based on different feature
从表 3可知:Dense SIFT特征提取法的识别率要略高于SIFT特征,这与上一个实验结果所得到的结论是一致的,说明Dense SIFT在局部特征的完整提取上有优势;但是单独使用SIFT或Dense SIFT作为特征进行分类的平均识别率均比采用BoW模型方法要低很多,基于SIFT或Dense SIFT特征提取法的BoW模型能将特征根据林业业务图像类进行重新组合,生成更加能反映业务本身特点的直方图特征,可以大大提高图像识别率。