高通量田间植物表型:一种自监测序列CNN方法以分割重叠植物


发布时间:

2023-05-31

来源:

植物表型资讯

作者:

PhenoTrait

高通量植物表型分析——利用成像和遥感来记录植物生长动态——正得到广泛的应用。该过程首先是进行植物分割,而实现重叠植物的准确分割则需要标记良好的训练数据集,但准备这样的数据集既耗时又费力。为解决这一问题,我们提出了一个植物图像处理通道,该通道使用自监测序列卷积神经网络方法(SS-CNN)进行田间表型系统的监测。首先是利用温室图像中的植物像元对生长早期的田间植物进行分割;然后将这些早期图像的分割结果作为后期生长阶段植物分离的训练数据。因为拟定的通道是高效且自我监测的,所以不需要人工进行标记;最后我们将这种方法与主成分分析(FPCA)功能相结合,以揭示植物生长动态与基因型之间的关系。研究表明,该通道可以准确地分离前景植物的像素,并在前景和背景植物重叠时估计其高度,进而通过计算机视觉技术有效地评估在野外环境中人为处理以及不同的基因型对植物生长产生的影响。此方法可以应用于解决高通量表型等领域的重要科学问题中。

 

由于拍摄时大多数植株照片的背景是由泥土、设备、植物阴影等混合组成,所以对野外图像进行植物分割尤其具有挑战性。而且由于试验田空间的限制,植株行距往往比较小,因此,在许多实验中,植物在生长过程中很快就开始重叠。图1中的(a)-(d)为爱荷华州立大学的田间表型系统中,用单台相机随时间在一行中拍摄的植物照片序列。不仅背景杂乱,而且随着植物的生长,前景行中的目标植物与背景植物重叠,所以用肉眼也很难区分植物的行。当前景行的植物不与背景中的植物重叠时,如图1的(e)和(f),基于分割后的图像KAT4IA可以为生长早期的植物提供有效的高度测量;而在目标植物与背景植物重叠后,KAT4IA则不能分离目标植物(见图(h))。此时Guo et al. (2021) 提出的K-means辅助收集图像分析(KAT4IA)程序则可以进行良好的图像分割,并能够去除大部分背景噪声。

 

为分离前景植物像素和背景植物像素,提出一种自监测序列卷积神经网络(SS-CNN)。通过构建一个计算通道来提取植物高度数据,并估计每个分离植物的整个生长曲线。关键思想是将植物重叠前的图像分割结果作为植物重叠图像的训练数据,在植物生长过程中按顺序进行。其策略依赖于的假设为:即前景植物和背景植物重叠之前的前景植物的像素强度与重叠之后的前景植物的像素强度足够相似。

 

开发程序来自动分离前景植物像素和背景植物像素,并从照片序列中提取所有前景植物的高度来估计植物的生长曲线。主要步骤如下:

 

1. 背景分割:从相机拍摄的随时间变化的野外图像序列开始,执行KAT4IA算法,并获得植物的分割图像。通过将所有分类的非植物像素的RGB强度替换为0,并从图像中删除背景。这将保持植物像素的原始RGB强度,并将所有背景像素颜色改为黑色,得到的图像被称为“去背景图像”。以确定前景植物开始与背景植物重叠的时间点。

 

2. 植物分离训练数据的自动构建:在植物重叠之前,在去背景图像中分离前景和背景植物。通过分别用1和0标记所有前景和背景植物像素来创建训练数据。对于每个标记的像素,将其大小为(2r +1)×(2c+1)的邻域像素强度作为该像素的关联特征,其中r和c为以标记像素为中心的邻域矩形的半宽和半高。

 

3. CNN学习:使用第2步获得的训练数据CNN,在前景植物和背景植物重叠的后期图像中分离前景和背景植物。

 

4. 超像素分类结果的处理:使用Achanta等提出的简单线性迭代聚类(Simple Linear Iterative Clustering, SLIC)超像素,从第3步开始细化前景和背景植物像素的分类结果。为每个超级像素中的所有像素分配一个公共标签。

 

5. 高度测量:从生长季节的一系列图像中计算每个前景植物的植物高度。使用非递减均值的非参数回归估计植物生长曲线。

 

所有步骤均由R语言和R中的API Keras实现。在单个计算机上建立训练模型,并基于训练模型在并行计算的高性能计算集群中对现场图像进行分割。

 

图像数据与植物背景分割

在训练流程中,首先应用KAT4IA程序,获得用于田间图像的植物分割图像(图1)。KAT4IA使用温室植物图像来创建田间分割模型。使用分割结果,然后通过将所有非植物像素的RGB强度替换为零值来从图像中删除背景(图3(b))。这就产生了“去除背景的图像”。对于每一行植物,使用以下方法自动检测前景和背景植物重叠的时间点。首先,计算每行图像中植物像素的比例;然后,通过选择每个峰值的上下边界作为小于峰值中心上方和下方峰值最大值的一个小百分比(例如5%)的第一个像素行来识别行比例中的第一个峰值(从图像的底部到顶部)。行比例的第一个峰值的边界用于识别前景植物图像行。上述的行切算法有助于定位前景植物(图2(b))。最后将变化点检测方法应用于从图像序列中识别出的第一个峰值随时间变化的宽

 

训练数据的自动构建

为了分离重叠的前景和背景植物,需要大量的训练数据来构建机器学习算法。获得训练数据通常需要在每次实验中对大量图像中的每个植物像素进行人工标注和标记。由于图像的高分辨率和植物的形状不规则,这种标记过程既耗时又费力。为了解决这一问题,我们使用生长早期不重叠植物的植物像素来构建自监测训练数据,用于分离生长后期重叠的前景和背景植物。具体而言,对于生长早期的田间图像,如果前景和背景植物不重叠,则分割后的图像行比例曲线会出现一个尖锐的谷,因此可以使用上一步中的行切割算法简单地分离前景和背景植物。因此,我们可以让算法简单地将切线以上的所有植物像素定义为背景植物像素(0),将切线以下的所有植物像素定义为前景植物像素(1)。

 

此外,为构建更具代表性的植物生长后期的训练数据,使用了重叠开始之前的图像。由于邻域像素包含植物的几何信息,它们可以帮助区分目标植物。对于前景和背景植物的每个标记像素,裁剪的迷你图像以具有邻域的像素为中心。使用(2r+1)×(2c+1)作为输入特征,其中r和c是以标记像素为中心的邻域矩形的半宽半高。直观的假设是,在同一类别中裁剪的迷你图像更有可能具有相似的特征。这类似于经典的CNN方法,其中使用邻域信息的卷积来预测响应类别。构建训练数据集的工作流程如图3所示。图3的(d)和(e)分别显示了背景和前景植物特征的例子。使用植物重叠之前的图像生成的训练数据来训练卷积神经网络,使用中的API Keras来分离重叠的前景和背景植物。对于训练数据中的每个标记像素,使用其(2r +1)×(2c+1)邻域像素的RGB(红、绿、蓝)强度作为输入特征,其中r = c = 16。这将得到一个特征空间,每个训练像素的维度为33×33×3,其中3是红、绿、蓝强度的通道数,33×33是每个通道的分辨率。我们还尝试了r = c = 8, r = c = 12, r = c = 20的CNN模型。从训练结果来看,我们发现验证精度随时间的增加而增加,r和c达到16后趋于稳定。因此,我们选择邻域大小为r = c = 16,因为邻域大小越小,训练时间越短。

 

具体来说,在CNN模型中,有四个卷积层,其大小分别为(33,33,32)、(33,33,32)、(16,16,64)和(16,16,64)。第一个是输入层,其中3是通道数,33 × 33是每个通道的分辨率。使用具有相同填充和ReLU激活函数的3×3过滤器内核进行计算卷积层。在第二层和第三层卷积层之间应用无填充的2 × 2最大池化。在最后一个卷积层之后应用另一个2 × 2最大池化,从而得到大小为(8,8,64)的最大池化层。最后,利用具有一个隐藏层的多层感知器(MLP)来计算特定像素属于前景植物类的预测概率。平坦化最大池化层得到MLP的输入层,它有4,096个7/16个节点。隐藏层有128个神经元。将MLP的输入层与隐藏层之间、隐藏层与输出层之间的dropout率设为0.3。在MLP的输入层和隐藏层之间使用ReLU激活函数。基于MLP的隐藏层,使用s形激活函数预测每个像素的前景概率。二元交叉熵损失函数与亚当优化算法和学习率的0.001用于评估网络模型。最后,使用100 epoch, batch size为1000进行训练,保留5%的训练数据作为验证集。近50个epoch的平均训练精度和验证精度分别为97.7%和94.3%,表明植物CNN的拟合效果较好(图4)。

 

自监测方法是基于CNN模型生成的概率,使用给定的截止值对去背景图像中的每个植物像素进行分类。图5中的(e)显示,我们设置的CNN将前景植物与背景植物区分得相当明显。需要注意的是CNN分别预测每个像素的类标签。此外我们认为可以利用图像的几何信息,例如周围像素的颜色和,来细化CNN的分类结果。

 

将简单线性迭代聚类(Simple Linear Iterative Clustering, SLIC)超像素的过程纳入流水线,在去除背景的图像上形成超像素,根据像素坐标和RGB强度将像素划分为感知上有意义的原子区域。超级像素可以被解释为每个图像的几何迷你簇,它们共享相似的信息。为了从相邻像素中获取信息,计算每个超级像素内前景类的平均概率。然后使用截断阈值0.5对8/16进行分类。

 

前景和背景植物在超像素水平。如果平均概率分别大于或小于0.5,则超像素内的所有像素被预测为前景类或背景类。这样,同一超像素中的所有像素被归为一个共同的类。为加速计算,基于从该超级像素随机抽取N αi个像素的样本,估计第i个超级像素中前景类的平均概率,其中Ni为第i个超级像素的总像素数。图5总结使用自监测CNN进行植物像素分离,并使用超像素进行之后的处理工作流程,以对前景植物进行高精度的识别。对于生长早期的图像,在植物重叠之前,使用行切算法可以很容易地分离前景植物(图2)。然后,根据分割图像中的上下植物像素测量每个植物的高度;对于生长后期的图像,一旦前景植物被识别和分离,就可以使用类似的高度训练算法。首先,创建一个二值图像,其中前景植物像素标记为1,所有其他像素都是9/16标记为0,计算行均值,给出图像每行中前景植物像素的百分比;其次利用r中的函数对行均值曲线进行局部平滑,计算行均值的最大值,确定行均值曲线中峰值的上下边界分别为均值小于峰值最大值的7.5%和2.5%的第一行,这将识别图像中与前景植物相对应的行;最后采用与KAT4IA管道相同的列切和高度训练算法,分离单个前景植物并训练其高度。本文提出的自监测CNN算法能够以较低的假阳性比率恢复前景植物的大部分,高度训练算法根据前景分离结果对每个目标植物的高度提供合理的估计。图6中的(a)、(c)和(e)显示了前景植物分离的示例,(b)、(d)和(f)显示了这些图像中每个目标植物的高度训练值。

 

图像数据的处理和植物特征的提取是目前表型研究和应用中的主要问题之一。研究结果表明,所提出的程序可以产生准确可靠的植物高度训练,并且数据分析功能可以揭示基因型对植物生长曲线的影响。

 

图1 植物生长期图像的分割。(a)-(d)在爱荷华州立大学的田间表型系统中,由一台相机在一排中随时间变化拍摄的植物照片序列;(e)-(h)使用KAT4IA程序分割的相应图像。

 

图2 行切算法如何分离前景植物的示例。(a)图像序列中确定的第一个峰宽度随时间变化的散点图(红线是前景和背景植物开始重叠的时间点(“变化点”));(b)生长早期图像的行切算法的结果;(c)生长后期图像的行切算法的结果。

注:图(a)中的粉色圆点表示图(b)中第一个峰的估计宽度,蓝点表示图(c)中第一个峰的估计宽度。分割后图像的行比例曲线在现场图像的左侧。两条虚线是从底部开始的第一个峰的上下边界。

图片图3 构建训练数据集的工作流程。(a)生长早期的田野图像;(b)将KAT4IA算法应用于(a)而得到的“背景去除图像”;(c)使用行切算法分离前景和背景植物得到“标记的分割图像”;(d)、(e)用CNN分离前景和背景植物像素从图(b)中标记的三个示例背景植物像素(使用蓝色矩形)和图(b)中标记的三个示例前景植物像素(使用粉红色矩形)裁剪的迷你图像。

 

图4 生长后期植物重叠图像中前景与背景植物像素分类的卷积神经网络结构。

 

图5 植物像素分离和后处理工作流程

 

图6 识别前景植物并确定其高度。(a)、(c)、(e)来自一台相机的三个示例图像的前景和背景植物识别结果;(b)、(d)、(f)相应的高度测量结果。

 

图7 株高测量和生长曲线拟合

注:生长曲线与一台相机拍摄的一组图像中每种植物的高度训练值相匹配。粉色点是使用KAT4IA管道从生长早期图像中提取的植物高度;蓝绿色的点是用我们提出的方法从生长后期图像中提取的植物高度;黑线表示非递减拟合的生长曲线。橙色点表示图6 (b)中的高度;红色点表示图6 (d)中的高度;绿色点表示图6 (f)中的高度。

 

 

来 源

Xingche Guo , Yumou Qiu , Dan Nettleton ,Patrick S. 2023. Schnable High-Throughput Field Plant Phenotyping: A Self-Supervised Sequential CNN Method to Segment Overlapping Plants. Plant Phenomics

 

编辑

陈秀娇
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。