基于网络爬虫的森林经营知识采集系统研建

刘建成; 吴保国; 陈栋

doi:10.11833/j.issn.2095-0756.2017.04.022

基于网络爬虫的森林经营知识采集系统研建

DOI: 10.11833/j.issn.2095-0756.2017.04.022

北京林业大学信息学院, 北京 100083

基金项目:

“十二五”国家高技术研究发展计划（“863”计划）项目 2012AA102003

详细信息

作者简介: 刘建成, 博士研究生, 从事林业决策支持系统与信息技术研究。E-mail:liujiancheng1018@163.com

通信作者: 吴保国, 教授、博士生导师, 从事林业信息技术研究。E-mail:wubg@bjfu.edu.cn

中图分类号: S750

Research and construction of web crawler based forest management knowledge collection system

School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China

摘要: 针对如何在互联网上准确获取森林经营知识的问题，提出研建森林经营知识采集系统来解决这一问题。在分析森林经营知识采集问题的基础上，设计系统流程、系统模块、数据库，改进网络爬虫规则并加以限定，论述爬虫工作流程和算法。该系统总结分析了森林经营主题网页的特点，通过建立森林经营特征向量对采集内容进行识别，并对森林经营知识去噪处理，智能匹配规则提取知识，使用欧氏距离识别指纹去除重复的森林经营知识。实验结果表明，该系统采集的森林经营知识具有高主题相关度、高准确率、低重复度的特点，满足服务于森林经营决策支持系统的要求。
- 森林经理学 /
- 森林经营知识 /
- 知识库 /
- 知识采集 /
- 网络爬虫
Abstract: Accurate Internet access to forest management information can be obtained through the construction of a data collection system for forest management. Based on an analysis of the data collection, system process, system module and database were designed, rules governing web crawlers were improved and delimited, and workflow and algorithm of web crawlers were explored. This system summarized and analyzed the characteristics observed from webpages featuring forest management, and served to identify those collected data contents with an eigenvector of forest management. Information about forest management was also denoised by this system; information was extracted through intelligence match, and repeated information about forest management was eliminated through fingerprint recognition by Euclidean distance. The experiment results indicated that this data collection system for forest management featured high subject relevance, high accuracy, and low repetition rate. Therefore, it can satisfy the need of the forest management decision support system.
- forest management /
- forest management knowledge /
- knowledge base /
- knowledge collection /
- web crawler

图 1 系统基本工作流程图

Figure 1 Basic working flow chart of the system

下载: 全尺寸图片幻灯片

图 2 系统功能模块图

Figure 2 system functional modules diagram

下载: 全尺寸图片幻灯片

图 3 实体-联系图

Figure 3 Entity-relationship diagram

下载: 全尺寸图片幻灯片

图 4 爬虫算法流程图

Figure 4 Flow chart of the crawler algorithm

下载: 全尺寸图片幻灯片

图 5 森林经营主题网页树形结构

Figure 5 Tree structure of forest management theme page

下载: 全尺寸图片幻灯片

图 6 普通爬虫模拟工具抓取结果

Figure 6 Grab result of common crawler simulation tool

下载: 全尺寸图片幻灯片

图 7 系统知识抽取结果

Figure 7 Knowledge extract result of the system

下载: 全尺寸图片幻灯片

表 1 采集结果对比表

Table 1. Comparison table of acquisition results

方式	抓取链接数/个	保存链接数/个	符合主题数/个	符合主题数占抓取链接百分比/%
改进爬虫	12 785	6 377	6 377	49.87
普通爬虫	24 543	21 312	4 523	18.43

下载: 导出CSV

[1]	吴保国, 李成赞, 马驰, 等.森林培育专家决策支持系统的研究[J].北京林业大学学报, 2009, 31(增刊2): 1-8. WU Baoguo, LI Chengzan, MA Chi, et al. An expert decision support system for silviculture [J]. J Beijing For Univ, 2009, 31(supp 2): 1-8.
[2]	张戬慧.专业智能搜索系统在动物医学领域中的应用[J].东北农业大学学报, 2009, 40(9): 141-144. ZHANG Jianhui. Application of professional intelligent search system in veterinary medicine [J]. J Northeast Agric Univ, 2009, 40(9): 141-144.
[3]	申晋.基于Lucene和Nutch的林业垂直搜索引擎的研建[J].农业网络信息, 2008(4): 16-18. SHEN Jin. Study and implementation of forest vertical search engine based on Lucene and Nutch [J]. Agric Network Inf, 2008(4): 16-18.
[4]	袁津生, 郭艳芬.林业主题爬虫的算法研究与设计[J].计算机工程与设计, 2011, 32(6): 2003-2006. YUAN Jinsheng, GUO Yanfen. Algorithm research and design of forestry focused web crawler [J]. Comput Eng Des, 2011, 32(6): 2003-2006.
[5]	张丽莎, 张贵, 龙朝夕, 等.林业专题动态信息的搜索与集成[J].中南林业科技大学学报, 2013, 33(5): 47-51. ZHANG Lisha, ZHANG Gui, LONG Chaoxi, et al. Search and integration of thematic dynamic information on forestry [J]. J Cent South Univ For Technol, 2013, 33(5): 47-51.
[6]	李嘉, 徐前, 王梓, 等.基于语义的林产品贸易Web信息抽取算法[J].计算机工程与应用, 2014, 50(19): 199-204. LI Jia, XU Qian, WANG Zi, et al. Forest products trading Web messages extraction algorithm based on semantic [J]. Comput Eng Appl, 2014, 50(19): 199-204.
[7]	邓厚平, 武刚.基于爬虫和网站分类的主题信息源发现方法[J].计算机工程与应用, 2016, 52(3): 59-65. DENG Houping, WU Gang. Discovery of topic-specific information source based on web crawler and website classification [J]. Comput Eng Appl, 2016, 52(3): 59-65.
[8]	刘金红, 陆余良.主题网络爬虫研究综述[J].计算机应用研究, 2007, 24(10): 26-29. LIU Jinhong, LU Yuliang. Survey on topic-focused Web crawler [J]. Appl Res Comput, 2007, 24(10): 26-29.
[9]	王娟, 吴金鹏.网络爬虫的设计与实现[J].软件导刊, 2012, 11(4): 136-137. WANG Juan, WU Jinpeng. The design and implementation of Web crawler [J]. Software Guide, 2012, 11(4): 136-137.
[10]	龚炳江, 黄彦欣, 贾海鑫.矿山设备领域主题爬虫研究与设计[J].计算机应用与软件, 2014, 31(11): 122-124. GONG Bingjiang, HUANG Yanxin, JIA Haixin. Studying and designing topic crawler for mining equipments field [J]. Comput Appl Software, 2014, 31(11): 122-124.
[11]	丁宝琼, 谢远平, 吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用, 2009, 29(增刊1): 175-177. DING Baoqiong, XIE Yuanping, WU Qiong. Noise elimination method in Web page based on improved DOM tree [J]. J Comput Appl, 2009, 29(supp 1): 175-177.
[12]	金岳富, 范剑英, 冯扬.分布式Web信息采集系统的设计与实现[J].哈尔滨理工大学学报, 2010, 15(1): 116-119. JIN Yuefu, FAN Jianying, FENG Yang. Design and realization of distributed Web crawler [J]. J Harbin Univ Sci Technol, 2010, 15(1): 116-119.
[13]	秦杰, 闫付亮, 朱海丰, 等.基于链接信息的网页分类算法[J].微电子学与计算机, 2012, 29(6): 108-112. QIN Jie, YAN Fuliang, ZHU Haifeng, et al. A webpage classification algorithm based on link information [J]. Microelectron Comput, 2012, 29(6): 108-112.

[1]	张瑜, 陈存友, 胡希军. 应用投影寻踪分类技术的森林生态功能评价 . 浙江农林大学学报, 2020, 37(2): 243-250. doi: 10.11833/j.issn.2095-0756.2020.02.007
[2]	洪明慧, 胡晨沛, 顾蕾, 张雪, 鲍捷. REDD+机制下农户参与森林经营碳汇交易意愿及其影响因素 . 浙江农林大学学报, 2017, 34(2): 207-214. doi: 10.11833/j.issn.2095-0756.2017.02.002
[3]	王建明, 吴保国. 森林小班经营方案编制辅助决策支持技术 . 浙江农林大学学报, 2017, 34(4): 730-736. doi: 10.11833/j.issn.2095-0756.2017.04.020
[4]	陈栋, 吴保国, 刘建成, 陆元昌. 基于框架表示法的森林经营知识服务系统设计与实现 . 浙江农林大学学报, 2017, 34(3): 491-500. doi: 10.11833/j.issn.2095-0756.2017.03.015
[5]	赖超, 方陆明, 李记, 周昌和, . 森林资源信息集成系统的设计与实现 . 浙江农林大学学报, 2015, 32(6): 890-896. doi: 10.11833/j.issn.2095-0756.2015.06.010
[6]	罗仙仙. 直线型线截抽样在森林资源综合监测中的应用 . 浙江农林大学学报, 2012, 29(4): 566-573. doi: 10.11833/j.issn.2095-0756.2012.04.013
[7]	王懿祥, 陈永刚, 汤孟平, 洪敏, 陈海峰, 陈德虎. 基于GIS和 .NET的插件式森林空间结构分析系统 . 浙江农林大学学报, 2011, 28(5): 720-726. doi: 10.11833/j.issn.2095-0756.2011.05.006
[8]	黄水生, 谢阳生, 唐小明, 王金增. 北京市森林及绿地资源调查信息协同系统研究与实现 . 浙江农林大学学报, 2011, 28(6): 884-892. doi: 10.11833/j.issn.2095-0756.2011.06.008
[9]	孙孟军, 徐军. 基于县级森林经营的高保护价值森林区划 . 浙江农林大学学报, 2011, 28(6): 878-883. doi: 10.11833/j.issn.2095-0756.2011.06.007
[10]	王雪, 白降丽, 黎臣, 林培炎. 森林资源管理信息系统建设相关规范框架的研究 . 浙江农林大学学报, 2010, 27(1): 116-120. doi: 10.11833/j.issn.2095-0756.2010.01.019
[11]	韦新良. 乡村森林生态适宜性定量评价技术研究 . 浙江农林大学学报, 2009, 26(1): 1-6.
[12]	张志杰, 伊力塔, 韩海荣, 袁位高. 浙江省森林承载力评价研究 . 浙江农林大学学报, 2009, 26(3): 368-374.
[13]	张茂震, 唐小明, 谢阳生, 丁丽霞. 森林资源数据库系统查询效率分析 . 浙江农林大学学报, 2009, 26(2): 149-154.
[14]	曾松伟, 李光辉, 胡海根, 唐建锋. 基于PDA的森林资源数据采集系统的设计与实现 . 浙江农林大学学报, 2009, 26(1): 111-115.
[15]	黄初冬, 邵芸, 李静, 柳晶辉, 陈洁琼. 基于回归决策树和ASTER卫星影像的城市森林研究 . 浙江农林大学学报, 2008, 25(2): 240-244.
[16]	罗仙仙, 亢新刚. 森林资源综合监测研究综述 . 浙江农林大学学报, 2008, 25(6): 803-809.
[17]	白降丽, 彭道黎, 杨馥宁. 森林资源信息分类及编码体系研究 . 浙江农林大学学报, 2007, 24(3): 326-330.
[18]	葛文宁. 浙江省国有森林资源产权变动问题探析 . 浙江农林大学学报, 2006, 23(3): 338-341.
[19]	刘安兴. 浙江省森林资源动态监测体系方案 . 浙江农林大学学报, 2005, 22(4): 449-453.
[20]	蔡良良, 蔡霞, 朱红伟. 县级森林资源动态信息系统实施中的问题及对策 . 浙江农林大学学报, 2004, 21(2): 228-230.

链接本文:
https://zlxb.zafu.edu.cn/article/doi/10.11833/j.issn.2095-0756.2017.04.022

https://zlxb.zafu.edu.cn/article/zjnldxxb/2017/4/743

点击查看大图

图(7) / 表(1)

计量

文章访问数: 4178
HTML全文浏览量: 770
PDF下载量: 402
被引次数: 0

全文HTML

决策支持系统^[1]处理问题能力由知识库的知识丰富度决定，如何提升知识丰富度是一个难题。通过网络爬虫采集信息，识别其中的森林经营知识，并进行评价、提取、去重，可以解决这一问题。传统的搜索引擎有强大的网络爬虫，覆盖面广，但分类专业性较差，信息搜索结果不尽如人意^[2]，不能准确理解林业词汇。以林业常用名词“小班”为例，百度检索出来的结果绝大多数是幼儿园小班有关的结果，不能满足林业用户的信息检索需求。林业关于信息采集的研究大部分集中在林业主题搜索引擎的研究上，重点研究林业主题搜索引擎的设计、主题爬虫算法、信息源发现方法等算法优化问题^[3-7]，但对森林经营知识识别、提取等涉及较少。作者通过对主要的森林经营网站进行分析，设计了森林经营知识采集系统的基本工作流程、系统功能模块和数据库，改进了网络爬虫规则，研究森林经营主题爬虫算法、森林经营网页去噪、森林经营知识智能匹配、森林经营知识去重等。

5. 结论与讨论

知识丰富度决定了决策支持系统的问题处理能力。本研究研建的森林经营知识采集系统解决了在互联网上获取森林经营知识的问题，提升了森林经营决策支持系统的知识丰富度。

本研究在分析森林经营知识采集问题的基础上，建立林业专有词库，改进网络爬虫规则，并利用森林经营主题爬虫算法、森林经营网页去噪、森林经营知识智能匹配、森林经营知识去重等技术，设计并实现了森林经营知识采集系统。本研究分析了森林经营主题网站的特点，建立了森林经营特征向量对采集内容进行过滤，使用欧氏距离进行森林经营知识指纹识别，获得了高相关度、高准确率、低重复度的森林经营知识。

该系统已应用在国家高技术研究发展计划项目“数字化森林与牧场经营管理关键技术研究”中，长期为森林经营决策支持系统提供知识采集服务。

参考文献 (13)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于网络爬虫的森林经营知识采集系统研建

DOI: 10.11833/j.issn.2095-0756.2017.04.022

作者简介: 刘建成, 博士研究生, 从事林业决策支持系统与信息技术研究。E-mail:liujiancheng1018@163.com

通信作者: 吴保国, 教授、博士生导师, 从事林业信息技术研究。E-mail:wubg@bjfu.edu.cn

Research and construction of web crawler based forest management knowledge collection system

计量

基于网络爬虫的森林经营知识采集系统研建

doi: 10.11833/j.issn.2095-0756.2017.04.022

北京林业大学信息学院, 北京 100083

作者简介:
刘建成, 博士研究生, 从事林业决策支持系统与信息技术研究。E-mail:liujiancheng1018@163.com

通信作者: 吴保国, 教授、博士生导师, 从事林业信息技术研究。E-mail:wubg@bjfu.edu.cn

English Abstract

Research and construction of web crawler based forest management knowledge collection system

School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China

全文HTML

1.1. 系统的设计目标与功能

1.2. 基本工作流程设计

1.3. 系统功能模块

1.4. 数据库设计

2.1. 网络爬虫规则改进

2.2. 森林经营主题爬虫

2.2.1. 爬虫限定规则

2.2.2. 网络爬虫算法

2.2.3. 抓取内容过滤

3.1. 森林经营网页去噪

3.2. 经营知识智能匹配

3.3. 森林经营知识去重

4.1. 采集结果对比

4.2. 采集数据质量对比

目录

郑重提醒：警惕“文章核查”等多种形式诈骗

留言板

基于网络爬虫的森林经营知识采集系统研建

DOI: 10.11833/j.issn.2095-0756.2017.04.022

作者简介: 刘建成, 博士研究生, 从事林业决策支持系统与信息技术研究。E-mail:liujiancheng1018@163.com

通信作者: 吴保国, 教授、博士生导师, 从事林业信息技术研究。E-mail:wubg@bjfu.edu.cn

Research and construction of web crawler based forest management knowledge collection system

计量

出版历程

基于网络爬虫的森林经营知识采集系统研建

doi: 10.11833/j.issn.2095-0756.2017.04.022

北京林业大学 信息学院, 北京 100083

作者简介: 刘建成, 博士研究生, 从事林业决策支持系统与信息技术研究。E-mail:liujiancheng1018@163.com

通信作者: 吴保国, 教授、博士生导师, 从事林业信息技术研究。E-mail:wubg@bjfu.edu.cn

English Abstract

Research and construction of web crawler based forest management knowledge collection system

School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China

全文HTML

1.1. 系统的设计目标与功能

1.2. 基本工作流程设计

1.3. 系统功能模块

1.4. 数据库设计

2.1. 网络爬虫规则改进

2.2. 森林经营主题爬虫

2.2.1. 爬虫限定规则

2.2.2. 网络爬虫算法

2.2.3. 抓取内容过滤

3.1. 森林经营网页去噪

3.2. 经营知识智能匹配

3.3. 森林经营知识去重

4.1. 采集结果对比

4.2. 采集数据质量对比

目录

郑重提醒：警惕“文章核查”等多种形式诈骗

北京林业大学信息学院, 北京 100083

作者简介:
刘建成, 博士研究生, 从事林业决策支持系统与信息技术研究。E-mail:liujiancheng1018@163.com