贝叶斯模型平均法改进小麦育种试验产量预测


发布时间:

2022-12-14

来源:

植物表型资讯

作者:

PhenoTrait

通过次级性状对小麦收获前产量进行准确预测有助于促进作物育种和降低成本。机器学习(Machine learning,ML)算法越来越多地应用于遥感数据的粮食产量。然而,由于不确定性来源的不同,不同环境下不同物种的个体ML算法的性能有所不同。本研究试验地点如图1,提出了一种基于冠层高光谱反射率(350 ~ 2500 nm)的小麦产量预测新框架(图2),并采用集合贝叶斯模型平均(ensemble Bayesian model averaging,EBMA)方法提高模型性能。为了建立产量预测模型,将Boruta特征选择方法提取的重要波段(图3)分别输入4个线性ML模型和4个非线性ML模型。同时,基于模型交叉验证性能获得的贝叶斯模型平均(Bayesian model averaging,BMA)权重用于组合单个ML模型的预测如图4、图5、图6和图7。与性能最好的单个模型相比,EBMA模型仅通过集成线性模型或非线性模型,获得了微弱的精度提高,如图8。同时分析了两个线性模型和两个非线性模型的积分问题。结果表明,大多数混合线性和非线性模型的EBMA组合的预测精度高于单一类型模型和性能最好的单个模型的组合。EBMA方法的优点是它产生了一个预测分布,反映了与确定性预测相关的不确定性。EBMA建模框架充分考虑了集成元素模型的多样性(图9),为植物育种试验中籽粒产量的预测提供了一种替代方法。

 

 

 图1 试验地点的位置

 

图2 数据处理过程和集合贝叶斯模型平均(EBMA)框架。

 

图3 各波段对预测粮食产量的重要性特征

 

图4 五倍交叉验证(训练集)散点图的测量与预测粮食产量(t/ha)使用重要波段。

 

图5 每个机器学习模型使用重要波段对预测粮食产量(t/ha)进行测量的散点图

 

图6 各机器学习模型预测值之间的相关系数。黄色方格表示线性模型预测之间的相关性分析,红色方格表示非线性模型预测之间的相关性分析,蓝色方格表示线性模型预测与非线性模型预测之间的相关性分析。

 

图7 综合两个线性模型和两个非线性模型的36个集合贝叶斯模型平均模型的R2分布。

 

图8 利用集合贝叶斯模型平均模型的重要波段对预测粮食产量(t/ha)的测量的散点图。

 

 图9 每个集合元素的后验贝叶斯模型平均权重分布

 

来 源

Fei et al. Bayesian model averaging to improve the yield prediction in wheat breeding trials, Agricultural and Forest Meteorology, 2023, 328, 15, 109237.

 

编 辑

王春颖

 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。