关于作物和杂草在叶片尺寸上的特征:形状、空间和纹理特征的大量比较


发布时间:

2023-06-01

来源:

植物表型资讯

作者:

PhenoTrait

在作物和杂草识别的背景下,从采集系统中使用不同的方法来检测和分类植物。通常使用各种估计器和描述符来描述图像中的植物。现有的研究是基于不同的标准、植物和采集材料,因此无法准确估计应用于新研究的标准组合的潜力。本研究的目的是:(1)利用野外条件下拍摄的图像,在8个叶片尺度上对各判据的识别能力进行实验评价;(2)对其中9项指标的参数进行优化;(3)确定使用的最佳标准组合。

 

在现代农业中,作物和杂草的区分是一个长期存在的问题,通常杂草被认为是一种干扰,因为它们可能对作物收获的产量或质量产生负面影响。针对这一问题,杂草控制方法主要是使用除草剂和喷雾器,这些方法已经从地块的统一化学除草发展到精准农业的局部除草以及新技术和数字工具的使用。目前的作物与杂草识别的研究主要基于标准提取和开发或者深度学习方法,根据标准、获取条件和观察植物,提供了良好的识别结果。标准的提取和利用通常包含在计算机视觉管道中,该管道遵循图像分析的关键步骤,包括预处理、分割、特征提取和分类(如图1)。

 

图1.基于标准提取和利用的图像分析关键步骤(a)采集增强(b)植被指数(c)实例分割(d)特征提取(e)分类的作物/杂草识别图像分析

 

深度学习方法可以为它们所训练的数据集提供良好的结果,但在新数据集上它们的性能通常会降低,提取的特征在实际条件下可能会失去有效性,因为它们受到管道前阶段的限制。在此背景下,Vayssade等人在研究中提出了一种基于深度学习的方法,该方法在实例分割方面允许在茂密的树叶中工作。这种方法检测的不是整株植物,而是叶片,因为它们提供了更稳定的标准:与单个植物相比,个体内部的变异性更少。根据的生长阶段,植物将包含不同数量的不同方向和大小的叶子,这些叶子之间也可能有部分重叠,从而导致无限数量的情况。因此,提取的标准对于特定的发展阶段、作物和获取条件是可行的。

 

除定义特征空间的最佳子集外,本文的目的是提取各种各样的特征并评估它们的性能,以用于将叶子分类为作物和杂草。本研究采用的方法如下:1.为在叶片水平上评价作物和杂草的叶片在田间条件下的区别,并进行文献综述。2.大多数特征都能影响这些特征的提取和分类性能的参数。为了解决这一问题,本文提出使用优化算法对这些参数进行优化,从而对参数空间进行有效采样。3.文献综述的结果表明,这些标准中最好的区分作物和杂草(在植物或叶片尺度上)的标准,没有达成共识。为了确定在田间条件下用于区分作物和杂草叶片的最佳标准组合,使用一种选择最佳特征子集的算法。4.在地面真实数据集上评估每种方法的性能,使用曲线下面积(AUC)作为性能度量。5.利用156个表现良好的特征子集对植被覆盖进行分类

 

在计算机视觉中,形状、空间和纹理特征通常用于描述和分类对象。为了便于特征的提取和合并,在Python中使用OOP 2范式对它们进行编程。因此,每个特征都是根据其类型(形状/空间/光谱)和内部属性来命名的。所有标准的概述可作为补充材料(表8)。形状属性是基于对相关区域轮廓的结构分析,主要包括形态和解剖特征的检测。形状可以被编码为围绕边界的一组位置(像素),这种类型的分析尤其存在于粒度测定Hentschel和Page、地理信息学McGarigal、叶片分类;空间标准,空间属性是基于提取与农业地块相关的全局信息。这些提取方法基于提取的全局信息与相关区域质心之间的距离。这些值的分布与植被密度密切相关,可以区分杂草,主要是在行之间;纹理,颜色和光谱标准。纹理属性非常广泛,包括很多东西,比如图像变换(傅里叶变换、小波变换、色彩空间等),颜色,光谱特性或直方图来表征观察到的表面。在纹理属性方面,即分析颜色的空间分布,本文依赖于GLCM(灰度共生矩阵),Haralick和LBP(局部二进制模式)特征,分别提取了每个光谱波段的9个属性,以及植被指数(NDVI)和标准差(std)。

 

Saha等人将HoG描述符用于定向梯度直方图(Histogram of Oriented Gradient)的杂草识别,由于其几何不变性,在计算机视觉中被广泛应用于物体检测和纹理识别。高斯差分(DoG)是一种纹理特征提取方法,用于识别和突出图像中的边缘和边界,它是一种带通滤波器,可以增强图像细节并去除噪声。DoG算法的工作原理是取两个不同标准差高斯滤波器的差值,较大的标准差产生更平滑的图像,而较小的标准差增强边缘和细节。这两个高斯滤波图像之间的差异创建了DoG图像,它强调图像的高频成分,如边缘和纹理。矩和胡矩通常应用于分割模版或轮廓,它检索形状属性,如周长、质心等。在光谱波段和NDVI上计算这些特征可以包含更多的判别信息。Jain和Healey进一步提出将基于Gabor滤波器结果的属性应用于多光谱纹理分类。他们使用一组对称和圆形的Gabor滤波器,具有三个八度音阶和四个方向来计算诸如平均值和能量之类的属性。Ishak等人已将这些过滤器用于杂草识别领域。在目前的研究中,对称和圆形Gabor滤波器被应用于单个(优化的)八度音阶和四个方向,由Jain和Healey定义。然而,从这些过滤器中提取的属性是基于每个Gabor 14方向过滤器的颜色矩(表1)。

 

表1.颜色矩的合成

局部二进制模式的LBP描述符是对纹理信息进行编码的特征。LBP的一般原理是将一个像素的亮度水平与其相邻的亮度水平进行比较(差则为0,否则为1),根据相邻的位置,对正值([1,2,4,8,16,32,64,128])施加一个权重,然后LBP值是加权正值的和。最后一个特征是树叶纹理的直方图,每个光谱带和NDVI,对于每个像素,计算邻域的绝对差和对称差,如果该值高于固定阈值T = 0.1,则元素取值1(否则取0)。结果集通过根据邻居位置的加权和编码为LBP。这些特征被认为比标准LBP更抗旋转,光谱OCLBP,OC-LBP(反色LBP)算子是LBP算子的扩展。Banerji等人通过考虑通道间关系而不是像素的局部和空间关系,提出一种LBP扩展到比色域。对于每个颜色对(u, v), u > v,通道间属性由C = I(x, y, u)−I(x, y, v))考虑。用I为多光谱图像,x,y为像素位置,u,v为颜色通道进行比较。得到的图像的定义方式与LBP相同。

 

应用灰度共生矩阵建立光谱。这是一个维数为Ng的方阵,其中Ng是图像中的灰度级数。矩阵的[i, j]元素是通过计算值为i的像素与值为j的像素相邻的次数,然后将整个矩阵除以进行比较的总次数而生成的。因此,每个条目被认为是值为i的像素与值为j的像素相邻的概率,表示为p(i, j),为我们定义共现矩阵g。光谱Polyfit提出了一种新的基于多项式拟合的特征,由于光谱域的选择,多光谱图像可能会缺乏信息(airphone相机使用6个光谱带)。为恢复整个表面的原始光谱分布,可以使用一种简单的解决方案是曲线拟合Brown,通过使用观测到的像素值及其到形状中心的距离,拟合结果为多项式参数,可作为判别变量。在这些值上,应用一个阈值来确定一个像素是否可以是角。该算法将输入的彩色图像空间变换成灰度的彩色空间,通过这个特征值分解,而不是求这个变换的局部最大值,这是关键点。直方图用来描述观察到的表面,因此一个角对应的值在直方图的特定bin中积累,而16个平面在其他bin中积累,以此类推。这种转换应用于我们数据的前3个波段(450nm, 570nm, 650nm),这是最接近RGB色彩空间的。

 

参数的设置对分类性能有重要影响,可以根据经验进行设置。但为优化特征提取的性能,必须对这些参数进行合理的自动优化,这被称为参数优化问题。选择合适的抽样方法是很重要的,为实现优化必须使用更复杂的算法对参数空间进行有效采样,为解决这一难题,采用一种基于连续减半算法的异步提前停止方法,这就是ASHA(异步连续减半)算法。ASHA算法是一种随机、异步、增量的参数空间采样算法,它基于连续减半算法,将17个参数空间分成两半,每一步选择最好的一半。ASHA算法使用这种方法迭代地将参数空间划分为更小的子集。在每一步中,它根据性能度量选择最佳子集,并在子集小到性能不再提高时停止,算法的异步部分允许它在多个处理器上运行,这可以加快搜索速度。ASHA算法已经在Sherpa软件包中用Python实现。最后,通过10000次历元进行优化,在每个历元中,使用2倍交叉验证来训练和验证决策树分类器,这将加强对更稳定属性的学习并避免过拟合。选择决策树分类器使用简单的决策标准,而不是复杂的模型,以提取最相关的特征。因此,提取的特征的性能是底层学习分类器的性能(交叉验证过程的平均值),图2综合优化过程。以表2为例,给出光谱Gabor特征优化的5个epoch(参数:sigma、lm、gm、ps),目标值为要最大化的值,对应于曲线下面积度量法Fawcett(2006)评价的分类模型的性能,经过优化过程,提取出所有的特征。

 

图2.特性参数优化过程

 

表2.通过ASHA算法优化过程的5个epoch。目标栏表示模型的性能

 

既然已经优化并提取所有的特性,那么就可以探讨本文的主要问题---将叶子分为作物和杂草的最佳特征是什么?由于特征数量巨大(3545个),如表8所示,因此无法正确地手动估计每个特征的性能。为了回答这个问题,该领域的研究人员通常使用一个度量来估计一个特征与问题的拟合程度(相关系数或均方根误差)后使用最佳特征。然而,可能存在更好的组合,例如合并两个高秩标准可能不如合并高秩和低秩标准准确、行距离和纹理特征,效率可能大于两个纹理标准,因为行距离可能是互补的纹理属性。Jain和Zongker提出一种数据挖掘技术,它是一种分析每个特征以检查它是否对分类任务有用的算法,此算法背后的动机是自动选择与问题最相关的特征子集。从而将初始d维特征空间缩减为k维特征子空间,其中k < d。算法工作原理如图3所示。

 

图3.顺序特征选择算法
 

在25种属性中,只有12种属性的参数需要优化。对于每一个分类器的参数和底层分类器性能提取如下表3(用于空间和形状特征)和表4(用于光谱特征)。表3和表4显示通过此优化过程对特性性能的显著改进,“形状角”从50%增强到62.81%,“光谱狗”从46.75%增强到72.39%,这表明特征参数优化的必要性。对于具有参数的特征,这是“空间角”、“空间Blob”或“光谱HOG”的情况,使用决策树分类器不超过60%的AUC。特征参数优化导致的特征分类准确率高的原因是多方面的。首先,这些优化技术允许对参数搜索空间进行有效的探索,从而能够识别使其单个性能最大化的最优值;其次,改进是在最佳和最差表现之间进行衡量的,从而获得重要的收益。

 

表3.通过ASHA算法对特征参数进行优化,目标列显示底层分类器的性能

 

表4.通过ASHA算法进行的特征优化。为了显示特征优化过程的好处,列最差,显示的是最小的判别参数。目标栏显示了模型的最佳性能。

 

在本研究中,SFS算法独立应用于每个特征类型(局部)和所有提取的特征(全局)。这使我们能够检查哪些功能与它们的类别以及全局最相关。对于SFS算法,子空间中包含的特征数量被认为是一个停止准则。每个特征类型的停止准则被设置为k = 10,所有特征的停止准则被设置为k = 20。该过程的结果可在下面的表5中获得空间特征,在表6中获得形状特征,在表7中获得光谱特征。最后,图4显示最佳全局标准。在所有这些表中,每种特征类型的最佳子空间大小都以粗体突出显示,绿色单元格表示用于特定特征空间大小的最佳特征类型。由于这3种特征类型每种只提取一个特征,表5只显示每种特征类型的一个性能表明在3个空间特征中,“空间行”,即叶片到作物行的距离,具有最相关的性能。如表6所示,Ahmed et al.发现与植物尺度相关的“形状坚固性”在叶片尺度上的相关性较低。为“形状骨架化”选择的第一个特性是像素计数,它指的是骨架的长度,这是该特征类型中最具区别性的属性。在所有形状特征中,“形状颗粒”是最重要的特征,其次较好的形状属性是用于地块分类的“shape Fragstats”,它的3个最佳特征分别是“周长面积比”、“相关围界圈”、 “周长-面积-分形维数”。补充材料中的表9显示十大最佳形状特征的名称。如表7所示,最好的特征是与叶片的纹理和颜色相关的特征,如果要使用单一特征,最好的特征是“光谱Shi-Tomasi”,它与纹理的粗糙度有关,因为它是角点检测的第一步,但其余特征的判别能力不如其他特征类型。在这些光谱特性中,LBP、OCLBP和CSLBP有望产生更好的性能,这意味着直方图构建不能产生相关特征。“光谱统计”提取包含叶片及其周围土壤的底层子纹理的统计属性(表1),“光谱Polyfit”利用子纹理的光谱信息重建叶片表面的光谱分布,然后将多项式值作为判别信息。最初的假设是“光谱Polyfit”(这是一种尝试从离散值重建初始光谱分布的方法)应该比“光谱统计”更相关。梯度直方图(Histogram of Oriented Gradient)是一种常用的梯度信息检索方法。在叶片分析中,该变换检测叶脉是区分叶片种类的一个标准,由于这种分析不能产生足够好的性能,因此这种方法的空间分辨率可能太低。其余的“DoG”,“Gabor”,“GLCM”和“Haralick”特征表现良好。当使用10个特征时,“光谱Gabor”是四种方法中最好的,而“DoG”和“GLCM”显示的结果略不准确。

 

图4.通过ASHA算法提取的所有用于分类的特征中的最佳特征,突出显示最佳总体结果。

 

表5.空间特征的最佳特征,突出显示特定功能计数的最佳结果

 

表6.通过ASHA算法对各特征类型的最佳分类特征。每行显示一个特定特性类型的结果,特征计数是针对特定特征类型的特征组合的数量。给出的结果是每个特征计数的最佳组合,列“full”是使用特定特征类型的所有特征获得的结果。一种类型的特征的最佳结果以粗体显示,特定特征数量的最佳结果突出显示。

 

表7.特征参数优化后的特征个数(FV)和每种特征提取方法的pa参数个数(HP)

表8.每种形状类型的主要特性

 

在可视化结果中,图5显示了两行菜豆植物。杂草位于这两行之间和每一行上,大部分植物和杂草的叶子被正确分类(植物叶子是绿色的,杂草叶子是蓝色的)。然而,这张图片表明植物中心最小的叶子仍然存在一个问题,这些植物的叶子是红色的,被归类为杂草的叶子。这种分类是由形状特征引起的,与这类叶子相比,这类叶子的相关性较小。图6关注的是植物行的特定部分,许多豆类植物没有出现。

 

图5.这张图显示树叶的分类,来自2019年6月拍摄的图像。蓝色对应的是分类良好的杂草;绿色代表分类良好的作物;而紫色和红色分别对应杂草和分类不佳的作物。

 

图6.树叶的分类(来自2019年6月拍摄的四张照片的部分)。蓝色对应的是分类良好的杂草;绿色代表分类良好的作物;紫色和红色分别对应杂草和分类不佳的作物。

 

评估的特征是通过全面的文献综述确定的。这些特征可以分组为空间属性,基于图像尺度上的距离概念,形状属性允许表征个体的形态特征。从而利用纹理、颜色和光谱等属性提取叶片成分和内部结构的相关信息。研究表明,这些特征参数的优化对这些准则的性能起着至关重要的作用。在对这些属性进行优化后,从数据集中提取属性集进行评估,同样值得注意的是随着特征数量的增加,每个特征的贡献会减少,从而导致“性能与计算时间”的比率变得略差。

 

 

来 源

Jehan-Antoine Vayssade, Gawain Jones, Jean-Noël Paoli. 2023. Towards the characterization of crop and weeds at leaf scale: A large comparison of shape, spatial and textural features, Smart Agricultural Technology

 

编辑

陈秀娇
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。