原始研究的文章

前面。机器人。人工智能,2023年1月12日
秒。机器人技术领域
卷9 - 2022 | https://doi.org/10.3389/frobt.2022.982581

环境感知:框架整体农业应用场景理解算法的方法

欧洲证券与市场管理局Mujkic ^1、2*

Ole Ravn ¹

马丁·彼得·克里斯琴森 ²

¹自动化和控制集团电气和光学工程系,丹麦技术大学的国王,丹麦
²爱科/ S,兰讷斯,丹麦

自治区农业车辆的安全可靠的运行需要一个先进的环境感知系统。感知系统的一个重要组成部分的算法建立检测对象和其他结构的字段。提出了一个方法,结合输出三个场景理解任务:语义分割、对象农业环境检测和异常检测。拟议的框架使用一个对象探测器探测到七agriculture-specific类。异常探测器检测到所有其他不属于这些类的对象。此外,细分领域的地图是用来提供额外的信息,如果对象是位于内外场区域。不同算法的检测结合在推理时,提出的整体方法独立于底层算法。结果表明,结合对象检测与异常检测可以提高农业场景图像检测到的对象的数量。

1介绍

在接下来的几十年里,农业生产和满足粮食需求预计将上升的压力由于全球人口增长。因此,全球粮食产量需要增加60%到2050年养活不断增长的人口(Alexandratos Bruinsma, 2012)。科技发展将起到至关重要的作用在更有效地利用自然资源和可持续农业实践(粮农组织2018)。随着关注农业生产力和效率的发展在过去的几十年里,越来越复杂和智能农业机械。随着技术进步,农业解决方案将从车辆运营商提供决策支持发展无人机攷虑监督和最终全自动车辆。

无人驾驶农用车辆的发展吸引了注意力在过去几十年里(情况下,2016;日本久保田公司,2017;新荷兰农业,2017;YANMAR农业综合企业,2019;AGROINTELLI 2020;ASI, 2020)。然而,目前无人驾驶农用车辆环境感知能力有限。农田是动态的和非结构化的环境变化在不同的周期。自治区农业车辆符合安全要求,他们必须配备强劲和实时环境感知算法。这样的环境感知系统需要从环境中提取相关知识,并提供一个上下文的理解汽车的环境。

在过去的几十年里,障碍检测农业吸引了研究者的注意。几个障碍检测方法在农业利用齐次特征农业领域检测障碍在前台。罗斯et al。(2014)提出了一个异常检测系统在农业领域的障碍检测。异常识别的图像和stereo-matching用于确定障碍物的位置。一种方法检测静态和动态障碍物在农业环境提出的坎波斯et al . (2016)。在这种方法中,时空分析应用于视频序列。障碍检测是基于颜色和纹理特征,虽然时间信息是用来捕捉对象的运动。这种方法能够从图像中提取障碍区域背景和区分静态和非静态障碍。提出的工作克里斯琴森et al。(2016)结合卷积神经网络(CNN)和背景减法在草地上的异常检测算法。这种方法在检测显示成功严重堵塞,遥远而未知的对象。

另一种方法结合信息从图像数据中获得深度信息来检测障碍和3 d地图产生障碍。Korthals et al。(2018)提出了一个综合的方法来检测和静态和动态映射为grass-mowing操作障碍。四个检测算法应用于立体相机的数据。本地Decorrelated通道特性(LDCF) (徐et al ., 2021),你只看一次(YOLO)意思(Redmon et al ., 2016)申请对象检测、DeepAnomlay (克里斯琴森et al ., 2016)是应用于异常检测,充分卷积网络(FCN) (长et al ., 2015)用于语义分割。重新映射的算法是公开的数据集训练一般类的对象类与农业相关的上下文。检测是使用2 d占用网格映射保持一致。Suvei et al。(2018)提出了一种应用方法检测在农业机器人面前突出的对象。激光雷达和立体相机的方法融合数据来生成一个密集的、准确的点云表示环境。然后点云被用来检测和标签的障碍通过应用PointNet (Qi et al ., 2017)。的工作(Skoczeńet al ., 2021)提出了一个障碍检测和映射一个割草机机器人系统基于RGB-D相机。语义环境获得的面具在RGB图像结合深度图像在2 d入住率电网项目的障碍。然后确定网格是利用导航避障规划算法。

应用障碍检测已经研究水稻耕作稻田。提出的工作邱et al。(2020)结合YOLOv3 (Redmon和哈蒂,2018年)和简单的在线和实时跟踪(深度排序)(Wojke et al ., 2017)来探测和跟踪障碍在稻田使用RGB图像。该算法应用于RGB图像跟踪移动障碍的稻田。一个障碍检测算法提出了水稻联合收割机李et al。(2020)。检测到障碍的语义分割算法是通过应用网络瘦身方法(刘et al ., 2017)到ICNet (赵et al ., 2018)。

没有障碍的标签数据集,发现农业提出了一个重大的挑战在农业应用深度学习架构场景的理解。中给出的数据集(Kragh安德伍德,2020年)包含注释的图片,点云和导航数据用于多目标检测。数据集收集各果园环境和奶牛场在澳大利亚。大规模数据集对人类检测在一个苹果园和橙色格罗夫介绍了(Pezzementi et al ., 2018)和地址阻塞和非标准带来的挑战。障碍检测的多模式数据集农业提出了(Kragh et al ., 2017)。grass-mowing场景和包含的数据集收集2 h的原始传感器数据,包括数据从多个摄像头(立体相机,热感摄像机,网络摄像头,360°相机),激光雷达,雷达、IMU和卫星系统,进行GPS位置和对象的数据集注释标签。

本文应用场景的理解和应用在农业环境。提出了一个框架,结合多个场景理解的检测任务。提出的整体方法的扩展语义分割(作者之前的工作Mujkic et al ., 2020)、异常检测和对象检测(Mujkic et al ., 2022)。深度学习算法的语义分割、对象检测和异常检测单独训练。语义分割的模型是基于SegNet (Badrinarayanan et al ., 2017)体系结构和训练有素的检测在图像区域。在农业的情况下驾驶车辆,检测场地区被认为是一个广泛的地区利益碰撞检测潜在的风险。YOLOv5 (Jocher 2020)对象探测器应用于检测和分类对象属于七agriculture-specific类:“拖拉机”,“结合”,“预告片”,“结合头”,“打包机”,“平方包”和“圆包”。异常探测器基于semi-supervised卷积autoencoder用于识别不属于前面提到的其他对象类和指定的类“未知”。不同的算法的检测结果结合在推理时,提出的整体方法独立于底层算法为每个任务。提出整体的方法,从对象检测器检测,异常检测器相结合,和一个细分领域的地图是用来识别如果对象是场区域内。

本文的主要贡献如下:

•一个方法将对象检测和异常检测与农业领域的语义分割图。

•评估算法和合奏方法对农业数据集

本文的结构如下。个体模型中使用本文介绍了第二节提出的整体方法。在第三节中,提出了整体的性能评估方法。这是紧随其后的是第四部分的结论。

2材料和方法

本节简要描述数据集和模型用于语义分割、目标检测和异常检测。这是紧随其后的是该乐团的描述方法。

2.1数据集

缺少标签数据集提出了一个重大的挑战在农业应用深度学习架构场景的理解。为了应对这一挑战,这些模型被训练在几个数据集收集专门为农业车辆的操作多个农田。提供了数据集的概述表1。

表1

表1。数据集的概述。

期间收集的语义分割的数据集是在田里收获机的操作。818年的数据集由RGB图像与相应的pixel-wise贴上地面实况图像注释为“场”和“其他”类。

数据集对象检测由14.3 k RGB图像注释与二维边界框。带注释的类有:“拖拉机”,“结合”,“预告片”,“结合头”,“打包机”,“平方包”,“圆包”。

培训的半监督autoencoder, 1408数据集组成的正常与异常注释图像和300张图片像素级使用。获取场景的图片收集了9天。

数据集整体的评估方法由两个农业车辆7.9 k的图片收集的超过13天。带注释的类包括农业车辆和实现道路车辆、静态对象,如包和人类。

2.2语义分割模型

本文应用深架构SegNet解决农业环境的语义分割任务。在说明了网络的体系结构图1。SegNet架构被选中,因为它允许编码器特性的高效存储地图。与架构提出了(Ronneberger et al ., 2015)存储完整的编码器网络特征图谱,SegNet存储max-pooling指数的特征图谱,并使用它们来upsample特征图谱的译码器网络。的工作(能剧et al ., 2015)使用类似的技术来upsampling译码器网络。然而,拟议的架构有明显更多的参数和较长的培训和推理时间。此外,SegNet是一个完全卷积网络,可以采取任何大小的图像作为输入。SegNet架构由对称的编码器和译码器网络。编码器网络的拓扑对应于第一个13 VGG16的卷积层(Simonyan Zisserman, 2015)网络。网络中的每个编码器层由曲线玲珑,批处理的标准化,和修正线性单元(ReLU)非线性,紧随其后的是一个非重叠max-pooling层。max-polling指数特征映射的存储和用于upsample编码器译码器的相应功能映射网络。译码器的层是由unpooling层,曲线玲珑,批量标准化和ReLU非线性。最后,upsampled特征图卷积产生茂密的特征图谱。译码器产生的特征映射网络提供给soft-max分类器生成类为每个像素的概率。N类,将softmax分类器的输出是一个N沟道pixel-wise概率的形象。对于每个像素,预测类的概率最高。

图1

图1。插图SegNet架构应用于领域的区域分割的农业场景。网络的输入是一个字段的RGB图像的场景。输出相应的分割图像。

2.3目标检测模型

YOLOv5m综合考虑了目标检测的任务。YOLOv5是一个实时对象探测器组成的骨干网络,脖子,检测头。骨干网络提取输入图像的特性。在Yolov5 Cross-Stage部分连接(CSP)网络(王et al ., 2020)作为骨干。路径聚合网络(PANet) (刘et al ., 2018金字塔)应用于提取特征。检测头生成最终的输出向量类的概率,客体性分数和边界框。YOLOv5使用相同的探测头YOLOv3提议。隐藏层的激活函数是乙状结肠线性单元(思路),而最终的检测层使用乙状结肠激活函数。

2.4异常检测

摘要半监督卷积autoencoder是用来检测异常场场景图像。异常检测的概念和网络的体系结构图2。网络由六个卷积编码器和译码器零件的层。编码器网络已经越来越多的过滤器(64年、128年、256年、512年和1024年),而译码器数量减少的过滤器(1024年、512年、256年、128年和64年)。网络编码器和译码器网络与16通道共享一个瓶颈。每个卷积层,除最后一层外,紧随其后的是一批标准化和LeakyReLU激活函数。最后卷积层是乙状结肠激活紧随其后。

图2

图2。插图的异常检测方法。应用卷积autoencoder图像重建的任务。网络的输入是一个字段的RGB图像的场景。输出相应的重构图像。产生的异常地图应用relative-perceptual - L1输给输入图像和相应的重建图像。

Autoencoders异常检测往往是在一种无监督的方式训练。使用正常的数据没有异常训练autoencoder使学习的模型重建正常的低维特征空间的数据实例。然而,异常更难重建相同的低维特征空间。因此,他们导致数据重建误差显著高于正常。这种差异在重建误差可以被用来识别异常。

的损失函数semi-supervised autoencoder包括两个方面,处理正常和异常数据。的损失函数是:

l (x, y) = \frac{1}{N} \sum_{我}^{N} 为 x_{我} - y_{我} 为_{2} + 马克斯 (0, {一个}_{0} - \frac{1}{米} \sum_{我}^{米} 为 x_{我} - y_{我} 为_{2}), (1)

在哪里N图像中像素的总数是正常的,米是异常像素的总数,x_我是我输入图像的像素值,和y_我中相应的像素的值是图像重建。阈值一个₀是区分正常和异常的边缘像素。实验确定了最优值一个₀= 0.2。

Relative-perceptual-L1损失(Tuluptceva et al ., 2019)之间的输入和重建图像被用来生成一个异常地图。

2.5整体方法

图3说明了提出的整体方法。该方法包括几个步骤结合个人的检测模型。首先,异常处理地图中提取检测到异常的边界框。接下来,对象检测到异常,也被检测和分类的对象探测器移除。剩下的异常被分配一个类“未知”和检测对象添加到列表中。对于每个检测到的对象,边框与细分领域的地图来确定是否字段内的对象。下列部分详细描述每个步骤。

图3

图3。提出了整体方法的图。

2.5.1提取检测到异常的边界框

第一步将异常检测转化为边界框表示阈值异常映射来获得一个二进制异常地图。最优阈值是一个常量值为1.4。二进制异常处理地图连接组件标签算法提取组件,超过某一地区。轮廓提取算法应用于提取的边界提取组件和随后使用它们来计算边界矩形。

所示的过程的一个例子图4。图4一显示了一个示例的一个异常autoencoder生成的地图。二进制异常映射后得到的阈值所示图4 b。图4 c显示的结果应用算法和计算边界框的连接组件。

图4

图4。异常检测处理步骤(一)异常从autoencoder获得的地图。(B)二进制异常地图。(C)发现anomlies提取边界框。

2.5.2结合二维边界框的检测

转换后的异常检测边界框表示,他们结合检测器的检测对象。有些图像中的对象探测器检测到异常探测器和对象。在这些情况下,对象和类标签优先检测。因此,检测到的边界框异常与检测对象相比,和相交的边界框的异常检测对象有超过30%的区域被忽略。依然存在的异常检测分配类“未知”一致性的检测对象探测器。

图5说明了组合对象检测器的检测和异常探测器。的检测对象探测器所示图5一个。该算法检测到两个对象成功和失败检测三个对象。图5 b显示了相同的图像检测到的异常。绿色框表示的对象没有被检测到的对象探测器,需要包含在检测异常。图5 c显示结合对象检测器的检测结果和异常探测器。两个物体检测和分类的对象探测器,而异常检测器检测到的三个对象和分配类“未知”。

图5

图5。结合从对象探测器和异常检测器检测(一)目标检测的结果。(B)异常检测结果在边界框表示。绿色边界框表示对象没有被探测器探测到的对象。(C)结合对象探测器和异常检测器的检测结果。

2.5.3场区域匹配

联合检测的异常和对象探测器被分配一个额外的标签指示是否内部或外部。语义映射的字段所提供的语义分割模块标签相对应的像素周围的字段的对象。这些信息结合图像中单个边界框的位置来确定对象是否在字段。这个过程包括几个步骤。首先,检测对象的边界框是扩张了20%x和y方向。然后,底部一半的原始边界框之间的地区和扩张边界框被选中。如果这个地区超过10%的面积分割作为一个领域,领域内的对象被认为是。否则,对象被认为是之外的领域。

一个例子说明该方法所示图6。在这个例子中,一辆拖拉机检测器检测到的对象,和它的边界框的宽度。散列地区显示底部一半的地区之间的原始盒子和扩张。红色区域所示区域分割的一个例子作为一个领域的语义分割模块。在这个例子中,超过10%的散列区域面积分割作为一个领域;因此,对象将被归类为内部。

图6

图6。说明方法的内部/外部字段为检测对象分类。散列区域显示区域像素分割评价的领域。红色区域是分割区域的一个例子。

3的结果

培训hyperparameters个体模型中列出表2。方法的性能评估的数据集7.9 k的农业场景图像。对象和异常检测结果报告使用混淆矩阵。此外,对象是内部或外部的分类领域的定性评估。

表2

表2。训练参数。

为目的的评估对象探测器和异常检测器的性能,测试中的对象数据集被认为是属于一个类的对象。仅供对象探测器,探测与信心得分高于0.25。地面真理和边界框的借据阈值检测选为0.45。结果所示表3表明,结合对象探测器和异常检测器检测对象的数量从12759增加到13547。然而,异常探测器还引入了大量的假阳性检测。

表3

表3。特性的评价对象探测器和异常探测器。TP是真阳性的数量,FN假阴性和FP是假阳性的数量。

例子图7提供一些见解这些假阳性的来源异常。图7显示了一个示例图像的部分汽车的结合头底部的形象存在。自训练图像的正常操作条件没有这部分结合头和多个异常检测。在另一个例子图7 b。远处的物体在这里正确检测到异常。然而,左边的形象,防护林带和多个异常检测。在这种情况下,训练数据集的异常探测器有图片描述主要作物领域;因此,部分防风林是重建和错误检测到异常。值得一提的是,假阳性异常检测从安全的角度是可以接受的。

图7

图7。检测整体方法的示例(一)部分结合头被发现异常。(B)防风林在距离被发现多个异常。

图8进一步的例子合奏方法的性能。图8展示了一个示例,其中一组检测到遥远的车辆在后台为一个单一的异常。一座农舍也检测到异常图片的右边。在一个例子图8 b显示汽车不是一个对象探测器探测到。然而,异常检测器可以检测到它们。图8 c显示了一个示例的车辆和人员被对象探测器和异常探测器探测到。

图8

图8。检测整体模块的例子(一)群作为一个异常遥远的车辆检测。(B)对象没有检测到对象探测器检测到异常。(C)检测对象正确分类的内部或外部。

检测到的分类对象的内部/外部场的方法是评估的示例图像。在图7所有检测到的对象被正确归类为内部字段。图7 b显示,假阳性异常检测的防护林带进行分类以外的领域,当异常发现在同一地区的联合收割机是归类为内部字段。这些结果与分割协议字段区域。结合的领域之外的检测分类错误是由于穷人的细分领域。在图8检测正确分类是这个领域内,尽管周围的大片区域没有被归类为字段。这是由于大尺寸的边界框,导致更大的区域被认为是在计算领域分割重叠。图8 b右边显示了一个汽车图像的正确分类是这个领域内。右边的两辆车被列为以外的领域。检测到拖拉机被错误地分类为以外的领域。

这两个图8 a, B从不同的距离描述类似的场景。汽车集团作为第一个图和异常发现两辆车停在第二个图中该领域的边缘。然而,这并不在这些图像清晰可见,因此正确的分类可能取决于距离和相机的角度。这说明使用单个相机传感器的缺点之一。中的例子图8 c显示了三个车辆正确分类的内部字段。此外,有一个行人在字段和一个在路上。路上的行人没有检测到的一个字段是正确分类是这个领域内。

4结论

提出的整体方法结合了三个场景理解方法提供上下文信息和异常的检测对象。整体性能的评估方法对检测对象的农业场景图像。结果表明,结合对象检测与异常检测提高检测对象的数量从12759年到13547年在测试数据集。这是观察到的异常检测介绍了假阳性检测,并提供了一个简短的讨论。语义场的地图已经结合检测提供额外的信息检测对象的位置。然而,该方法分割准确性和敏感镜头角度。

未来的工作将会调查其他方法结合语义分割和对象检测。

数据可用性声明

原始数据支持了本文的结论将由作者提供,没有过度的预订。

道德声明

书面知情同意了个人(s)的出版的任何潜在的可识别的图像或数据包含在本文中。

作者的贡献

概念化,EM, MC,或;方法论、EM、MC,或;软件,EM;验证、EM;形式分析,EM;调查、EM和MC;资源,MC;数据管理、EM和MC;原创作品草稿准备,EM;EM和writing-review和编辑; visualization, EM; supervision, MC and OR; project administration, EM; funding acquisition, EM, MC, and OR. All authors have read and agreed to the published version of the manuscript.

资金

这项研究是由创新基金丹麦格兰特号码9065 - 00036 - b。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

AGROINTELLI (2020)。Robotti一个强大的工具来提高农业生产率。可以在:https://agrointelli.com/robotti/。

谷歌学术搜索

Alexandratos, N。,和Bruinsma, J. (2012). World agriculture towards 2030/2050: The 2012 revision. ESA Working paper No. 12-03. Rome, FAO.

谷歌学术搜索

ASI (2020)。未来的农业。可以在:https://asirobots.com/farming/。

谷歌学术搜索

Badrinarayanan, V。肯德尔,。,和Cipolla, R. (2017). Segnet: A deep convolutional encoder-decoder architecture for image segmentation.IEEE反式。模式分析马赫。智能。39岁,2481 - 2495。doi: 10.1109 / tpami.2016.2644615

原始研究的文章

环境感知:框架整体农业应用场景理解算法的方法

1介绍

2材料和方法

2.1数据集

2.2语义分割模型

2.3目标检测模型

2.4异常检测

2.5整体方法

2.5.1提取检测到异常的边界框

2.5.2结合二维边界框的检测

2.5.3场区域匹配

3的结果

4结论

数据可用性声明

道德声明

作者的贡献

资金

的利益冲突

出版商的注意

引用

本文是研究课题的一部分

人也看了