植物表型研究中的探索性数据分析和监督学习


发布时间:

2025-02-27

来源:

作者:

本研究通过探索性数据分析和监督学习技术分析植物的表型性状。遗传多样性方面:比较野生型与突变型番茄植株的表型差异;植物相互作用:利用其他胁迫植物释放的挥发物与未胁迫植物进行对比;植物胁迫反应将干旱植物与对照植物进行比较;数据集由多个高通量成像波长组成,能够详细检查植物的各种形态特征,特别是数据集包括野生型和突变型番茄植株在水分胁迫下的表型特性。为了识别显著的表型指标并预测植物的胁迫响应,研究使用机器学习算法,包括k均值聚类和贝叶斯分类器。这些技术为植物性状的时间动态变化提供独特的思路,帮助研究人员更好地理解不同实验条件下植物的表现。该研究强调了高级统计分析和机器学习技术在提高植物表型数据的分析精度和准确性方面的重要性。

 

优化农业实践的潜力,将检测到的特征为优化农业实践提供了宝贵信息。例如,通过识别与植物应激反应相关的特定表型标记,我们可以设计更精确的干预措施,如调整灌溉计划,避免水资源浪费和短缺。此外,理解植物通过挥发性有机化合物进行的相互交流,有助于开发更具韧性的作物品种,从而应对环境压力,提升产量并减少损失。数据集限制与异常值处理,目前数据集的有限规模对定义和检测离群点提出挑战。我们通过主成分分析(PCA)来减少可变性,尽量降低异常值的影响。接下来,我们计划整合更为鲁棒的统计方法,如鲁棒PCA和bootstrapping技术以提高结果的可靠性。植物表型研究的进展将为农业生产的改进提供更加准确的预测和更加高效的管理策略。
 
图1.拍摄和检查的照片的实例
图a:从侧面拍摄的图像;图b:从侧面旋转90°拍摄的图像;图c:俯视图;图d:一些主要表型的代表性状分析(面积、凸包面积、高度、宽度)。
 
 图2.基因型(野生型和突变型)的k均值分类
左图说明了个体的聚集从t0到t3,野生型和突变型植物之间没有明显的区别。右边的图描述了从t4到t15的个体分组,显示该算法仅准确分类了一半的病例。
 
 图3.k均值分类处理1(含挥发物和不含挥发物)
左图表明个体的聚集从t0到t3,其中没有明显的区分含挥发物和不含挥发物的植物。右边的图描述从t4到t15的个体分组,揭示了该算法仅准确分类了一半的案例。
 
 图4.k均值分类处理2(胁迫和非胁迫)
左图表明个体的聚类从t0到t3,其中胁迫与未胁迫植株没有明显区别。右边的图表描述对t4 ~ t15的个体进行分组,结果表明该算法对100%的病例进行准确分类。
  
图5.基因型(野生型和突变型)的PCA分析
 
   图6.处理1(含挥发物和不含挥发物)的PCA分析
 
 图7.处理2(胁迫和非胁迫)的PCA分析
 
 图8. 使用鲁棒缩放特征获得的热图显示了特征重要性的时间依赖性,通过排列对不同的基因型(野生型和突变型)进行分类
 
 图9. 使用鲁棒缩放特征获得的热图显示特征重要性的时间依赖性,通过排列来区分植物是否含挥发物
 
图10.使用鲁棒的缩放特征创建的热图显示特征重要性的时间依赖性,通过排列将胁迫植物和非胁迫植物进行分类
 
 图11.表明top3特征(以L2-norm表示重要性)接种和未被接种的植物在受胁迫的时间变化
 
 图12. 表明top3特征之间的di↵erence差异。突变体和野生型植株之间受到胁迫,最后是含挥发物植株和和不含挥发物植株受到胁迫。其中使用绝对值第一个是l2范数,最后两个是半对数轴。
 
 

 图13.通过时间刻画了前三个特征的di↵erence差异(绝对值和半对数表示)在含挥发物和不含挥发物植物之间。

来源

Cola, Vincenzo Schiano Di et al. Exploratory Data Analysis and Supervised Learning in Plant Phenotyping Studies.” Communications in Applied and Industrial Mathematics (2024): n. pag.

 

编辑

静静

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。