精准农业中的数据挖掘技术综述

分类:论文范文 发表时间:2020-04-25 11:12

  摘要:随着精准农业的迅猛发展与广泛应用,积累了大量和精准农业生产过程密切相关的农业数据。数据挖掘能够从大量的数据中提取人们事先不知道但又是潜在有用的知识,它在精准农业领域中正显示出越来越重要的作用。该文综述了使用到精准农业中的各种数据挖掘方法,介绍了每种方法的基本概念和应用情况,展望了精准农业中数据挖掘技术的研究发展方向。

  关键词;精准农业;数据挖掘;粗糙集;决策树

  1引言

  精准农业(PrecisionA酊culture)是20世纪80年代初发展起来的一门跨学科的研究领域,是由信息技术支持的定位、定时、定量地实施一整套现代化农事操作技术与管理的系统【1,21。精准农业的提出是基于生物所赖以生存的环境资源的时空变异性这一自然的客观现实,其核心思想是通过可变尺度的田块管理方式,根据土壤肥力和作物生长状况的空间差异,实施定位处方农作,从而实现降低物质消耗、提高经济效益和改善农业生态环境的目标。

精准农业中的数据挖掘技术综述

  2数据挖掘方法及其应用

  数据挖掘就是从海量数据中提取出隐含的、新颖的、先前未知的、潜在有用的以及最终可以理解的模式。数据挖掘充分利用了人工智能、机器学习、数理统计、模糊逻辑等理论和方法,它是应用需求推动下多种学科融合的结果。目前,应用到精准农业中的数据挖掘技术主要有决策树算法、人工神经网络算法、支持向量机算法、粗糙集算法和遗传算法等,下面对这几种方法的理论以及在精准农业中的应用进行介绍。

  2.1.决策树算法

  决策树算法(Decision1’ree)是一种典型的数据挖掘方法,它通过构造决策树来发现数据中蕴涵的分类规则【6,71。一个决策树通常由一个根节点、一组内部节点和一些树叶节点组成。决策树中每个分枝代表一个测试输出,每个内部节点表示在一个判定属性上的测试,而每个树叶节点代表类别或类别分布。决策树的构造过程分为决策树的生成和剪技。决策树的生成首先是以整个训练集作为树根结点,并标记为“未检测”。然后找到一个未检测的叶结点,如果其标记为未检测且它所表示的所有对象都属于该类,则将该叶结点标记更改为已检测。否则,选择一个分类能力最好的属性,以该结点为父结点,增加两个新的叶结点,都标记为未检测,左子结点表示含有该判定属性的对象,右子结点表示不含有该判定属性的对象。在生成决策树之后,还需要对决策树进行剪技,将那些影响准确性的分枝进行剪除。使用决策树对给定的对象进行分类时,由树根结点开始判断结点的属性是否在待分类的对象中出现,如果出现则沿左子树向下继续判断,如果未出现则沿右子树向下继续判断,直至到达决策树的某个叶结点,则此叶节点代表的类别就是该对象所属的类。最著名的决策树算法有ID3、C4.5和C5.0决策树算法。其中,ID3是最具代表性的决策树算法,它采用自顶向下不回溯的策略能够保证找到一个简单的树。C4.5和C5.O决策树算法对D3算法进行了改进,将分类领域从类别属性扩展到了数值型属性。其它著名的决策树算法还有CAR.T、CHAID和QueSt等。

  2.2.人工神经网络算法

  人工神经网络(ArtiflcialNeuralNeMork,ANN)是一种模仿人脑神经网络结构和功能的非线性信息处理系统,是对人脑若干基本特性通过数学方法进行的抽象和模拟ll31。人工神经网络最早由心理学家和神经生物学家提出,是从微观结构和功能上对大脑思维的抽象与简化,反映了人脑功能的若干基本特征,是模拟人类智能的一种重要途径。人工神经网络由神经元按一定的方式相互连接组成,信息处理就是通过神经元之间的相互作用实现的。神经元是一个多输入单输出的信息处理单元,它是构成人工神经网络的基本单位。目前常用的人工神经网络有BP(BackPropagation,BP)神经网络、RBF(RadicalBaSisFunction,RBF)神经网络等。下面以BP神经网络为例对人工神经网络进行说明。BP神经网络是人工神经网络中最为重要的网络之一,标准的BP神经网络由三部分组成,即输入层、隐含层和输出层,每一层含有不同数量的神经元,其结构如图1所示。

  3.发展前景

  数据挖掘技术在精准农业中有着广阔的发展前景,还有很多内容需要进行深入的研究。3.1多种数据挖掘方法的有效结合研究每一种数据挖掘方法都有各自的优缺点。决策树的优点是能够生成可理解的规则,可以清晰的显示出哪些属性比较重要,而它的缺点是对连续性的属性比较难预测,并且当类别太多时错误率会明显地增加。人工神经网络算法的优点是可以充分逼近任意复杂的非线性关系,可以学习和自适应不确定的系统,可以采用并行分布处理方法进行大量运算,而它的缺点是具有黑箱性,人们难以理解网络的学习和决策过程。支持向量机算法的优点是它的决策函数只由少数的支持向量确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,从而有效地避免了维数灾难,而且增加和删除非支持向量样本对模型没有影响,从而使得算法具有了很好的鲁棒性,而它的缺点由于借助二次规划来求解支持向量,因此对大规模训练样本难以实旌,而且在解决多分类问题时存在困难。粗糙集理论的优点是简化了输入信息的表达空间,也不需要提供除问题所需处理的数据集合之外的额外信息,而它的缺点是难以直接处理连续的属性。遗传算法的优点是搜索从群体出发,具有较好的并行性和鲁棒性,而它的缺点是收敛于局部极小的较早收敛问题尚未解决。可见,任何一种数据挖掘方法都不是万能的,都有着各自的应用场景。针对精准农业中具体应用的实际情况,根据不同数据挖掘方法之间的互补性将数据挖掘方法进行有效结合,以取得单一数据挖掘方法无法达到的效果将是一个很有价值的发展方向。

  3.2海量实时数据的有效挖掘研究

  目前在精准农业中应用的数据挖掘方法主要是针对有限的、静态的农业数据进行处理。然而随着物联网技术的兴起及其在精准农业中日益广泛的应用,每时每刻都在源源不断地产生出大量的农业数据。与传统的数据集不同,这些数据是海量的、时序的、快速变化的和潜在无限的,这样的数据形态被称为数据流(DataS仃ealTl)。由于数据流实时、连续、有序、快速到达的特点,直接将传统的数据挖掘方法用在数据流处理中是不可行的,它对数据挖掘方法提出了能够单次线性扫描、具有低的时间和空间复杂度、能适应动态变化的数据与流速等新的要求。如何根据精准农业中数据流的特点提出合适的数据流挖掘算法,满足精准农业中新的应用趋势将是数据挖掘领域的一项研究热点。

  4结语

  随着计算机、网络、3S等技术在精准农业领域中的不断普及,积累了大量的农业信息数据。这些爆炸性增长的新数据中隐藏着许多重要的信息,因此精准农业已成为数据挖掘最富有机遇与挑战性的应用领域之一。目前数据挖掘技术在精准农业领域中的应用还处于起步阶段,具体的应用技术还需要持续不断地探索。可以预见,随着数据挖掘在精准农业中研究和实践的深入开展,必将对推动农业现代化的发展发挥越来越重要的作用。

  参考文献

  【l】赵春江,薛绪掌,王秀,陈立平,潘瑜春,孟志军.精准农业技术体系的研究进展与展望[J】.农业工程学报,2003,19(4):7-12.

  【2】http://en.wikipedi乱or咖iki/Precisionagricunure

  【3】UsamaM.Fayyad。R丑maS锄yUtllumsamy.DataMiningandKnowledgeDiscove哆inDatabaSes娜.CommunicationsofmeACM;DataMiningandKJlowledgeDiscovery(specialissue),1996,39(11):24.26.

  【4】胡可云.数据挖掘理论与应用【M1.北京:清华大学出版社,2008.

  【5】Us锄aM.Fayyad,eta1.AdV柚cesinKnowledgeDiscove叮锄dDa_caMining【M】,C八AA^I仆压ITPress1996.

  【6】QuinlaIl,J..C4.5:Progr锄sforMachineLeanling阴.Mo唱allK叫fmallIl,SaIlMatteo,C八1993.

  【7】Quinla|l,J..1nductionofdecision纰esⅢ.MachineLe锄in岛1,1986:81.106.

上一篇:关于农业推广在互联网应用的若干思考 下一篇:农村金融与农村经济发展研究