高光谱和环境数据提高小麦基因组预测精度


发布时间:

2025-03-28

来源:

作者:

整合基因组、高光谱成像(hyperspectral imaging,HSI)和环境数据可以增强小麦产量预测,HSI为预测复杂的粮食产量(grain yield,GY)性状提供了详细的光谱见解。与传统的基因组预测模型相比,将HSI数据与单核苷酸多态性标记(single nucleotide polymorphic markers,SNP)相结合,可以显著提高预测能力。在几年的时间里,由于天气条件的不同,预测能力也不同。所测试的最全面的参数模型(包括SNP、HSI和环境协变量数据)始终取得了最佳结果,在考虑相同的组学数据时,机器学习(machine learning,ML)方法紧随其后。例如,在前向预测交叉验证方案下,最全面的模型(M9)使用2021年和2022年的数据预测了2023年生长季节的GY,预测值和观测值之间的相关性为0.53。与不太复杂的模型相比,该模型表现出了卓越的性能,强调了集成众多数据源及其交互效果的优势。此外,当将预测线的前25%与具有最高GY的相应观测线进行比较时,M9模型返回了55%的一致指数(coin-cide index,CI)(即,在两组中,前25%的值中有55%是共同的),而对于性能最高的ML模型(梯度增强回归),CI为46%。本研究强调了多数据源方法在加速耐热小麦基因型选择方面的潜力。

 

图1  佛罗里达州Citra的生长季节温度。以摄氏度为单位的温度图显示了连续三年指定期间的每日最高(红色)、平均(绿色)和最低(蓝色)温度。2021年(上图)、2022年(中图)和2023年(下图)的数据跨度为11月至5月。

 

图2  高光谱数据采集工作流程。工作流程图概述了高光谱成像(HSI)数据收集和处理的步骤,分为三个主要阶段:任务规划、图像采集和图像处理。每个阶段都有具体的任务,包括飞行任务的规划、设备的准备和先进图像处理技术的应用。这种方法保证了对高质量高光谱数据的系统收集、处理和分析,以产生可靠和准确的结果。

 

图3  2021-2023年高光谱波段的广义遗传力值。在佛罗里达州Citra的(A)2021、(B)2022和(C)2023三个生长季节测量的高光谱波段的广义遗传力(H2)值。每个图显示了不同高光谱波长的H2值,颜色表示不同的遗传水平,数据来自每个相应年份的平均高光谱波长值。

 

图4  G、H和G+H模型在预测粮食产量(GY)方面的年内预测精度。按年份和模型(佛罗里达州Citra)对GY(kg ha−1)的模型预测精度。条形图显示了2021年至2023年应用于佛罗里达州Citra线路的不同模型的实际和预测GY之间的相关性(ρ)。每个模型的性能都使用10倍交叉验证方法进行验证,并采用80/20的训练测试分割。

 

图5  使用在高光谱成像(HSI)或基因组数据上训练的机器学习(ML)模型预测粮食产量(GY)准确性的柱状图。柱状图显示了使用随机森林回归器(RFR)、支持向量机回归器(SVMR)、梯度增强回归器(GBR)和人工神经网络(ANN)模型对佛罗里达州Citra的GY值(kg ha−1)进行训练以预测GY时的预测精度。

 

图6  结合高光谱和基因组数据预测粮食产量(GY)的机器学习(ML)模型的年内预测准确性。GY按年份和模型的模型预测精度。显示2021年至2023年应用于佛罗里达州Citra线路的ML模型的实际和预测GY之间的相关性(ρ)。使用80/20训练测试分割的10倍交叉验证方法验证模型性能。

 

图7  基于不同再生核Hilbert空间(RKHS)模型的粮食产量(GY)前向预测精度。条形图显示了预测佛罗里达州Citra GY的不同模型的预测精度(ρ)。上图显示了使用Citra 2021年的数据对2022年生长季节的预测精度。下图显示了使用Citra 2021和2022的数据对2023年生长季节的预测精度。

 

图8  前向预测中前25%收益线预测的模型比较。散点图可视化了综合多元和梯度增强回归(GBR)模型在前向预测情景下的预测产量与观测产量,其中2023年是根据2021年和2022年的数据预测的。虚线显示了平均观测和预测的粮食产量(GY)值,表明数据的中心趋势在0左右。象限A-D根据数据点相对于这些平均值的对齐情况对数据点进行分类:高于两个平均值的预测和观测,低于两个平均数的预测和观察,高于平均预测但低于平均观测,低于平均预测但高于平均观测。

 

来 源

McBreen J, Babar MA, Jarquin D, Ampatzidis Y, Khan N, Kunwar S, Acharya JP, Adewale S, Brown-Guedira G. Enhancing genomic-based forward prediction accuracy in wheat by integrating UAV-derived hyperspectral and environmental data with machine learning under heat-stressed environments. Plant Genome. 2025 Mar;18(1):e20554. 

 

编辑

王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。