一种用于图像处理和函数型数据分析的高通量表型方法


发布时间:

2020-10-02

来源:

植物表型资讯

作者:

PhenoTrait

高通量表型是植物学研究领域中的新兴技术。许多自动化表型系统已在温室和田间场景中得到了应用以研究植物的特征。其中最主要的创新之一是使用自动化图像采集设备来获取植物的原始图像:在设定的时间点为大量的植物记录多种类型(包括RGB、红外、荧光和高光谱等)的高分辨率图像。从图像中我们可以处理和提取有用的表型特征,如植物的高度、宽度和大小。与传统方法相比,高通量表型系统能够以更高效、准确和无损的方式来提供研究者感兴趣的植物特征。

 

为了提取植物性状,需要对植株的某个部分或整个植株进行分割。阈值分割是最简单、最常用的图像分割方法,它通过像素强度的临界值将图像分类为前景和背景。基于阈值分割方法,一些用于高通量植物表型分析的平台已被开发,包括HTPheno、Image Harvest和PlantCV等。上述软件采用了公认的步骤来处理植物图像并提取表型特征。然而这些平台仅专注于图像处理,对植物生长过程的统计建模和推断方面的功能有所欠缺。 K均值聚类也是一种著名的图像分割算法,该算法将像素分配到子组中,并使得组内像素强度变化最小。当簇的数量给定时,K均值方法无需调整参数选择。隐马尔可夫随机场模型(HMRF)可用于优化来自K均值聚类和阈值分割的分割结果。HMRF是具有马尔可夫随机场隐藏层的层次模型,用于针对每个像素的类标签进行建模,从而捕获像素对其邻近像素的空间依赖性。由于阈值分割和K均值算法都忽略了图像的空间结构,因此HMRF模型能够通过像素的邻域类别信息来进行像素合并,从而提供更准确的像素分类。 假设图像分割是精确的,那么就可以从图像中提取出表型性状的测量值。这些量化的数值可用于分析不同的基因型或处理随时间对植物生长的影响。在传统的生长曲线分析中,会在每个测量时间点逐点采用方差分析的方法。然而,这种独立地分析每个时间点的方法无法反映出植物的动态生长过程。对生长曲线进行参数化建模是另外一种常用的方法,但是参数模型的拟合需要测量全生育期的植物性状数据,且常常会忽略数据的时间相依性,这使得此方法可能无法用于某些实验场景。函数型方差分析是一个新的非参数分析方法,可用于分析按时间序列采集的植物性状数据。在函数型方差分析中,使用了样条曲线平滑和局部多项式回归方法来代替参数回归进行植物生长过程的估计。这样的非参数方法完全由数据驱动,且适应于数据的时间相依性。虽然函数型方差分析方法有如上优点,实现植物表型数据的函数型方差分析却并不容易。目前用于函数型数据分析的R语言程序包“fda”非常复杂,对于非统计学背景的研究者而言,使用时会存在困难。在使用函数型方差分析对植物生长过程的研究中,当前也没有相关的计算教程。

 

近日,Plant Phenomics 刊发了美国内布拉斯加大学林肯分校(University of Nebraska-Lincoln)爱荷华州立大学(Iowa State University)Ronghao WangYumou Qiu等人的题为"A High-Throughput Phenotyping Pipeline for Image Processing and Functional Growth Curve Analysis" 的研究论文。为了满足高通量表型系统数据分析的需求,论文作者开发了一个R语言程序包“implant”,涵盖了对所提取特征的图像分析和函数型数据分析。文章提供了一个简单易用的方法来分析原始图像和数据分析中的高通量表型数据。相比于主要聚焦在介绍非参数曲线拟合方法的论文,本文上述的程序包提供了一个对用户友好的计算工具,可使植物学家轻松地对植物动态生长过程进行函数型数据分析。此外,该程序包还提供了随时间变化而变化的回归系数的置信区间(Figure 3)

  

Figure 3. (a) 95% confidence regions for the average plant size of genotypes 1 and 3 over the three blocks. (b) 95% confidence regions for the average plant size of genotypes 2 and 3 over the three blocks.

 

下列流程图(Figure 1)阐述了该方法的主要步骤。首先,采用双标准阈值(DCT)或HMRF方法完成对植株的分割。如果有不包含植株的容器图像,那么DCT可用于对比含植株和不含植株的容器图像(如Figures 2(a)–2(c)所示)。在第二步(Figure 2)中,使用形态学腐蚀和膨胀的方法来优化对植株区域的识别和分割。接着基于分割后的图像计算植株性状。最后,对提取出的性状进行函数型数据分析和统计学推断。

  

Figure 1. Flow chart of the proposed “implant” pipeline. In the first step of segmentation, multiple methods could be jointly applied and the common plant area is considered to be the final segmentation.

 

Figure 2. (a) Original plant image. (b) Original empty pot image; the red square is the identified region of interest by the functions “ColorB” and “ColorG.” (c) Contrast of (a) and (b). (d) Segmented image of (a) using DCT. (e) Segmented image of (c) using DCT. (f) Intersection of (d) and (e). (g) Dilated-eroded-eroded-dilated image of (f). (h) Final segmented image by identifying the region of interest.

 

该方法能够估计植物生长过程中的主要影响因素和干扰因素,并处理不合理的观察时间点,给出影响因素曲线的置信区间(Figure5)。这些置信区间可以证明随着时间推移,不同的基因型和处理所造成影响的统计学意义。

  

Figure 5. (a) 95% confidence region for the block effect between block 3 and block 1. (b) 95% confidence region for the genotype effect between genotype 2 and genotype 3.

 

来源:

Wang R, Qiu Y, Zhou Y, et al. A High-Throughput Phenotyping Pipeline for Image Processing and Functional Growth Curve Analysis. Plant Phenomics. https://doi.org/10.34133/2020/7481687

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。