测量隐藏表型:利用欧拉特征变换量化大麦种子的形状


发布时间:

2022-05-22

来源:

本站

作者:

PhenoTrait

  形状在生物学中起着基本的作用。传统的表型分析方法只测量了一些特征,而不能全面测量形状所蕴含的信息。为了以稳健和简洁的方式提取、比较和分析嵌入的这些信息,本文转向了拓扑数据分析(topological data analysis,TDA),特别是欧拉特征变换。TDA利用基于代数拓扑特征的数学表示综合度量形状,如图1。为了研究它的用途,计算了传统形状描述符(图2)和拓扑形状描述符,以量化3121粒大麦种子的形态,通过x射线计算机断层扫描(CT)技术在127 μm分辨率。欧拉特征变换通过分析物体在多个方向轴上的阈值处的拓扑特征来测量形状,如图3和图4。对由拓扑特征编码的信息进行的Kruskal-Wallis分析表明,欧拉特征变换成功地提取了种子的折痕形状和底部。此外,传统的形状描述符可以根据种子的加入进行聚类,如图5,欧拉特征变换(Euler characteristic transform,ECT)向量的降维,如图6,而拓扑形状描述符可以根据种子的穗形进一步聚类。然后,成功地训练了一个支持向量机(support vector machine, SVM)来分类28个不同的大麦品种,只基于它们的颗粒形状,如图7。结果表明,结合传统和拓扑描述符对大麦种子进行分类比仅使用传统描述符更好。这一改进表明,TDA是对传统形态测量学的有力补充,可以全面描述大量“隐藏”的形状细微差别,否则就无法检测到。

 

  图1 大麦种子拓扑形状特征的提取。(A)一幅二值图像(左)被视为一个立方复合体(右)。这个立方体复合体有两个连接的组件,1个环,0个空。不同的连接部件分别用蓝色和红色标注。环是强调较厚的边缘。(B)大麦种子的近-远、中-外侧和近-远轴在空间上与X、Y、z轴对应。(C)欧拉特征曲线(Euler characteristic curve,ECC)的例子,当我们通过32个等距阈值过滤大麦种子的正反面轴(如图为实心绿线)。(D)欧拉特征变换(Euler characteristic transform,ECT)包括连接所有与所有可能方向相对应的ECCs。在本例中,我们将分别由实线表示的对应于X、Y、Z方向的三个ECCs连接起来。

 

  图2 大麦图像处理。从大麦穗部三维体素图像中提取形态学测量值。在进行任何分析之前,首先要对穗进行x射线CT扫描,将它们的密度归一化,去除空气和其他碎片,并修剪芒。(D)自动化这些图像处理步骤后,我们最终可以使用大量干净的3D圆锥。(E)一个额外的数字步骤为每个大麦穗分割单独的种子-胚和胚乳。左边显示原始扫描,中心显示分离的种子,而右边显示部分被剥去的部分。(F)种子是根据它们的主要成分排列的,这使我们能够(G)测量一些传统形状描述符。(H)之后从数据集中删除不完整或破碎的种子。(1)通过人工检查不同异速生长样地的异常值来识别缺陷种子。异常值用红色三角形表示。(J)从每次入库开始测量的干净和有缺陷种子的总数。缺陷种子不集中于特定的植株上。

 

  图3 选择计算ECT的方向。球体被分成等距固定数量的平行线和子午线。方向是从十字中心取的。

 

  图4 相关ECT方向及切片。(A)我们检查每个方向和阈值的欧拉特征的入入间和入入内方差差异。Kruskal-Wallis分析与benjaminii - hochberg多重测试修正相结合,表明在品种中有一些特别有识别能力的切片。(B)这些方向和阈值主要集中在极点附近,(C)对应于种子的折痕和底部形态。颜色没有特别的意义。

 

  图5 传统形状描述符的分布。(A) 11种传统种子形状描述符中6种在3121种种子中的分布。这些测量首先集中在0,缩放到方差1。(B) 11个形状描述符前2个主成分的绘制。第一个PC描述了总方差的70%以上。不同的标记和颜色表明种子来自不同的穗。

 

  图6 ECT向量的降维。ECT可以为每个种子产生高维的拓扑特征。为了更好地可视化这种拓扑信息,我们可以通过(A)核主成分分析(KPCA; principal component analysis,PCA)或(B)无监督一致的流形近似和投影(uniform manifold approximation and projection,UMAP)将其减少到两个维度。每一帧都突出了个别品种的种子。不同的标记和颜色表明种子来自不同的穗。

 

  图7 单个树种的SVM分类结果。(A)使用KPCA二维降维拓扑向量的结果。根据拓扑形状描述符确定的分类精度对材料进行排序。(B)使用UMAP 12维拓扑向量时的结果。根据组合形状描述符确定的分类精度对材料进行排序。

  

  来源:Erik J Amézquita, Michelle Y Quigley, Tim Ophelders, Jacob B Landis, Daniel Koenig, Elizabeth Munch, Daniel H Chitwood, Measuring hidden phenotype: quantifying the shape of barley seeds using the Euler characteristic transform, in silico Plants, Volume 4, Issue 1, 2022, diab033, https://doi.org/10.1093/insilicoplants/diab033

 

  编辑:王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。