用于农业目标检测的空间变换网络YOLO模型


发布时间:

2024-09-01

来源:

作者:

物体检测通过自主识别和定位感兴趣的对象,在计算机视觉领域发挥着至关重要的作用。You Only Look Once(YOLO)模型是一种有效的单次检测器。然而,YOLO在杂乱或部分遮挡的场景中面临挑战,并且可能会难以处理小型、低对比度的物体。本研究提出了一种将空间变换网络(STN)集成到YOLO模型中以提高性能的新方法。所提出的STN-YOLO模型旨在通过关注图像的重要区域并在检测过程之前通过提高模型的空间不变性来增强模型的有效性。本研究提出的方法在定性和定量上均提高了目标检测性能。探讨了STN模块内不同定位网络的影响以及模型在不同空间变换中的鲁棒性。将STN-YOLO应用于农业目标检测的基准数据集以及来自最先进的植物表型分析温室设施的新数据集,此外代码和数据集是公开的。

 

图1 利用STNs来提高模型中的空间不变性来进行目标检测的框架图

STNs由三部分组成:定位网络、网格生成器和采样器。定位网络输出仿射变换参数( θ )传递给网格生成器。对输入图像进行网格变换T θ ( G ),得到新的输出图像。

 

图2:PGP数据集的示例图像

最上面的行(a ~ c)为输入图像,最下面的行(e ~ f)为关联标签。

 

图3 STN - YOLO模型架构

为了考虑空间不变性,在模型的开头增加了STN模块(呈淡橙色和绿色)。经过STN后,图像传入YOLO模型,其中P1 ~ P5层为YOLO主干层,HEAD部分负责生成最终输出,CLS + BBOX进行目标检测。

 

表1 在3次实验中不同的定位网络的性能指标

不同定位网络的性能指标以平均值+/-1标准差显示,三个实验运行的100个周期的随机初始化,最佳平均度量值用粗体表示。

 

表2 在3次实验中的STN定位网络的不同空间分辨率

 

图4 YOLO和STN-YOLO对来自PGP数据集图像的示例结果

在图4b和4c中展示了YOLO和STN - YOLO模型的检测差异。YOLO模型没有捕获盆栽中叶片的部分,并且误检了一部分背景。EigenCAM(d和e)用于显示每个模型聚焦于图像的哪些区域进行目标检测,STN - YOLO专注于图像中包含大部分植物的区域,而YOLO则强调植物的盆栽。

 

表3 在3次实验中选用不同增强的模型检测指标

 

表4 在基准农业数据集上,每个模型的对象检测性能指标

 

图5 来自基准数据集的示例图像。

(a)来自GlobalWheat2020数据集的插图(b)来自plantdoc数据集,(c)来自MelonFlower数据集,分别使用YOLO和STN-YOLO模型检测的结果。

 

这项工作的重点是将STN与YOLO集成,创建STN-YOLO模型来解决空间不变性的挑战。该模型旨在提高植物图像检测质量,可应用于表型特征提取等。结果表明,STN提高了模型的稳健性,减少了数据集的假阳性数量,具有较高的精度分数。STN-YOLO模型提高了基准数据集上的性能,展示了在处理真实世界的空间转换方面的潜力。

 

来 源

Zambre, Yash et al. “Spatial Transformer Network YOLO Model for Agricultural Object Detection.” arXiv (2024).

 

编辑

郑静文

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。