大豆育种中的高通量表型分析和机器学习技术


发布时间:

2025-04-15

来源:

作者:

大豆 (Glycine max (L.) Merr.) 育种计划在评估大量后代种群方面面临挑战,这需要大量劳动力和资源。本研究使用高通量表型分析和机器学习 (machine learning,ML) 模型来预测大豆的表型性状,从而应对这些挑战。使用植被指数和航拍图像中的冠层图像开发并验证了 ML 模型。在两种环境和管理实践中,总共表征了 275 种大豆基因型。总共测量了 11 种经典性状,并从不同生长阶段的航拍图像计算了 5 种植被指数。采用了 ML 算法,包括用于回归的支持向量机、随机森林 (random forest,RF)、多层感知器 (multilayer perceptron,MLP) 和自适应增强。此外,还使用具有迁移学习的卷积神经网络从图像中提取特征。 在农艺性状、植被指数和冠层特征之间存在显著相关性。与其他基于 RGB 的指数相比,红绿蓝植被指数和绿叶指数具有较高的遗传性(平均广义遗传率为 0.56),这表明它们在遗传评估中具有潜在用途。先进的 ML 技术,尤其是使用 ResNet 50 的迁移学习,增强了对表型特征的预测,例如 R7 生长阶段 (DR7) 的天数和植物高度。

 

图1  实验设计概述(1)、经典表型分析(2A-B)、高通量表型分析(3A-D)、从航空图像中提取特征(4)以及使用机器学习模型进行预测(4A-C)。AV,农艺价值;CC,冠层覆盖度;DR7,进入 R7 生长阶段的天数;GLI,绿叶指数;GY,谷物产量;HSW,百粒重;LOD,倒伏等级;NDF,开花天数;NDM,成熟天数;NGRDI,归一化绿红差异指数;PHM,成熟时植物高度;RGBVI,红绿蓝植被指数;STD,地块内植物立地;STI,抗逆指数;TGI,三角绿度指数;VARI,可见大气抗性指数。

 

图2  三维散点图描绘了基于经典表型特征的子代和亲本系的主成分分析 (PCA)。PCA 图的颜色基于对不同特征集进行的层次聚类分析:(A) 谷物产量、开花时的植物高度和成熟时的植物高度;(B) 农学价值和倒伏等级;(C) 到达 R7 阶段的天数、开花的天数和成熟的天数。

 

图3  在对环境 1 和环境 2 的子代系进行实验并在有或没有亚洲锈病控制的情况下进行管理时,对植被指数的遗传力进行估计。CC:冠层覆盖度;GLI:绿叶指数;NGRDI:归一化绿红差异指数;RGBVI:红绿蓝植被指数;TGI:三角绿度指数;VARI:可见大气抗性指数;环境 1:坐标 22˚42′15.2″ S 和 47˚38′24.6″ W,海拔 460 米,位于皮拉西卡巴 (SP,巴西) 的圣若昂达蒙塔尼亚农场;环境 2:坐标 22˚50′21.1″ S 和 48˚01′24.9″ W,海拔 545 米,位于皮拉西卡巴 (SP,巴西) 的 Anhumas 遗传学实验站。

 

 图4  所有表型性状之间的遗传相关性,源自所有飞行、管理和环境组合中的经典表型数据和植被指数的最佳线性无偏预测 (BLUP) 校正值。网络中仅表示显着相关性。灰线代表性状之间的正相关性,红线代表性状之间的负相关性。仅考虑 R 皮尔逊相关系数高于 0.5 的相关性。经典表型数据:谷物产量 (GY)、农艺值 (AV)、倒伏等级 (LOD)、R7 阶段的天数 (DR7)、成熟天数 (NDM)、抗逆指数 (STI)、开花天数 (NDF)、开花时植物高度 (PHF) 和成熟时植物高度 (PHM)。植被指数:绿叶指数 (GLI)、可见大气阻力指数 (VARI)、冠层覆盖度 (CC)、三角绿度指数 (TGI)、红-绿-蓝植被指数 (RGBVI) 和归一化绿-红差异指数 (NGRDI)。PC,主成分。

  

图5  根据 (A) 最高谷物产量 (GY) 测量值和 (B) 基于经典表型性状进行的主成分分析得出的前三个主成分 (PC) 的前 25% 个体对顶级大豆后代系进行排名。经典表型数据:谷物产量 (GY) (kg ha-1)、农学值 (AV)、倒伏等级 (LOD)、R7 阶段天数 (DR7)、成熟天数 (NDM)、抗逆指数 (STI)、开花天数 (NDF)、开花时植株高度 (PHF) (cm) 和成熟时植株高度 (PHM) (cm)。

 

图6  使用从 Env.1 和 Env.2 图像中收集的所有植被指数,对机器学习 (ML) 算法(自适应增强 [AdaBoost]、多层感知器 [MLP]、随机森林 [RF] 和支持向量回归 [SVR])预测经典表型性状的预测性能评估,考虑 Pearson R 系数、均方误差 (MSE) 和平均绝对百分比误差 (MAPE) 作为评估指标。 (A) Pearson R 系数相关性;(B) MSE;(C) MAPE。经典表型数据:谷物产量 (GY)、地块植物立地 (STD)、农学值 (AV)、倒伏等级 (LOD)、R7 阶段天数 (DR7)、成熟天数 (NDM)、抗逆指数 (STI)、开花天数 (NDF)、开花时植物高度 (PHF)、成熟时植物高度 (PHM) 和百粒重 (HSW)。 植被指数:绿叶指数 (GLI)、可见大气阻力指数 (VARI)、冠层覆盖度 (CC)、三角绿度指数 (TGI)、红-绿-蓝植被指数 (RGBVI) 和归一化绿-红差异指数 (NGRDI)。

 

图7  使用随机森林算法估计植被指数对预测经典表型性状的重要性。每个植被指数都是根据飞行(播种后天数 [DAS])、环境(Env.)和管理(存在/不存在锈病控制)的组合计算得出的。经典表型数据:谷物产量 (GY)、地块中的植物立地 (STD)、农学值 (AV)、倒伏等级 (LOD)、R7 阶段的天数 (DR7)、成熟天数 (NDM)、抗逆指数 (STI)、开花天数 (NDF)、开花时植物高度 (PHF)、成熟时植物高度 (PHM) 和百粒重 (HSW)。植被指数:绿叶指数 (GLI)、可见大气抗性指数 (VARI)、冠层覆盖度 (CC)、三角绿度指数 (TGI)、红-绿-蓝植被指数 (RGBVI) 和归一化绿-红差异指数 (NGRDI)。

 

图8  使用从每个单独图像收集的所有植被指数,考虑皮尔逊 R 系数,对随机森林 (RF) 模型预测经典表型性状的预测性能进行评估。经典表型数据:谷物产量 (GY)、地块内植物立地 (STD)、农学值 (AV)、倒伏等级 (LOD)、R7 阶段天数 (DR7)、成熟天数 (NDM)、抗逆指数 (STI)、开花天数 (NDF)、开花时植物高度 (PHF)、成熟时植物高度 (PHM) 和百粒重 (HSW)。植被指数:绿叶指数 (GLI)、可见大气抗性指数 (VARI)、冠层覆盖度 (CC)、三角绿度指数 (TGI)、红绿蓝植被指数 (RGBVI) 和归一化绿红差异指数 (NGRDI)。DAS,播种后天数; 

 

图9  使用 ResNet 50 进行特征提取并结合随机森林 (RF) 算法预测 R7 阶段(到达 R7 阶段的天数 [DR7])以及使用 ResNet 50 与多层感知器 (MLP) 配对预测成熟期植物高度 (PHM),评估预测性能(Pearson R 相关性)。黄色箱线图:DR7;绿色箱线图:PHM;环境 1:坐标南纬 22˚42′15.2″ 和西经 47˚38′24.6″,海拔 460 米,位于皮拉西卡巴 (SP,巴西) 的圣若昂达蒙塔尼亚农场;环境 2:坐标南纬 22˚50′21.1″ 和西经 48˚01′24.9″,海拔 545 米,位于皮拉西卡巴 (SP,巴西) 的 Anhumas 遗传学实验站。DAS,播种后天数。

  

图10  使用 ResNet 50 进行特征提取并结合随机森林 (RF) 算法预测 R7 阶段(到达 R7 阶段 [DR7] 的天数)以及使用 ResNet 50 与多层感知器 (MLP) 配对预测成熟时植物高度 (PHM),评估均方误差 (MSE)。环境 1:坐标 22˚42′15.2″ S 和 47˚38′24.6″ W,海拔 460 米,位于皮拉西卡巴 (SP,巴西) 的圣若昂达蒙塔尼亚农场;环境 2:坐标 22˚50′21.1″ S 和 48˚01′24.9″ W,海拔 545 米,位于皮拉西卡巴 (SP,巴西) 的 Anhumas 遗传学实验站。DAS,播种后天数。

 
来 源

Miranda, M. C. C., Aono, A. H., Fagundes, T. G., Arduini, G. M., & Pinheiro, J. B. (2025). High-throughput phenotyping and machine learning techniques in soybean breeding: Exploring the potential of aerial imaging and vegetation indices. Agronomy Journal, 117, e70012. 

 

编辑

王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。