通过优化 NIRS 预处理改进表型预测


发布时间:

2025-05-29

来源:

作者:

近年来,表型预测已成为植物育种中的一种新方法,已被证明具有很大的潜力。然而,关于其实际应用仍有许多悬而未决的问题。例如,在光谱学领域,优化光谱的预处理是标准做法,到目前为止,这仅在有限程度上用于表型组学预测。因此,在这项研究中,使用了大豆、黑小麦和玉米的三个不同的数据集来确定 Savitzky-Golay 滤波器参数的最佳组合,用于预处理近红外光谱以进行表型预测。测试了多项式阶、导数和窗口大小的 677 种组合,并使用 Monte Carlo 交叉验证对其进行了评估。结果表明,正确的设置可以提高预测能力。然而,没有全局最优值可以为所有数据集提供最佳结果。即使对于同一数据集中的不同特征,也需要不同的参数组合才能实现最高的预测能力。尽管如此,一些组合通常会导致非常低的预测能力,不应用于预处理。此外,使用归一化折损累计增益来评估预处理是否影响个体的排名试验结果显示预测的前 1%、10% 或 20% 的个体没有变化。综上所述,结果表明了预处理近红外光谱数据可以提高表型预测能力的潜力,但似乎没有跨数据集和特征的参数设置的全局最优值。

 

图1  工作流可视化。(A) 原始 NIRS 反射数据使用 Savitzky-Golay 滤光片进行预处理。(B) 总共应用了 677 个参数组合。(C) 过滤后的数据乘以 1000;然后,计算每个波长和基因型的 BLUEs,并对结果进行精确和缩放。(D) NIRS BLUE 的模型与表型性状的模型相同。(E) 使用 RR-BLUP 进行 1000 次蒙特卡洛交叉验证。对于每次运行,将计算预测能力和预测均方根误差 (RMSEP),最后计算两者在所有运行中的平均值。

 

图2  大豆数据集 NIR 光谱的 BLUE。反射率值 (A) 未经预处理或使用 Savitzky-Golay 滤波器组合进行过滤。(B) 3_2_35、(C) 2_2_3 和 (D) 3_1_85。

 

 图3  (A) 大豆和 (B) 黑小麦数据集的籽粒产量 (GY)、株高 (PH) 和千粒或千粒重 (分别为 TSW 和 TKW) 性状的平均预测能力 (MPA) 可视化。每行表示在整个窗口大小空间中评估的 14 个多项式阶 (p) 和导数 (m) 组合 (p_m) 中的一个。

 

图4  大豆基因型对性状谷物产量排名变化的可视化。(A) p = 3、m = 3 和 w = 63 的预处理过的 NIRS 数据,以及 (B) 未经预处理的 NIRS 光谱。在每个图的左侧,基因型按其蓝色排名,在右侧按预测值排名,均按降序排列。绿线表示前 10% 的个体,红线表示最差的 10% 个体。每个图右上角的条形表示前 1%(黄色)、10%(蓝色)和 20%(黑色)位置。

 

 图5  在训练的 XGBoost 模型中使用的所有波长的所有数据集的特征重要性分数,显示为 (A) 谷物产量和 (B) 株高。

 

来 源

Braun, Vincent & Zhu, Xintian & Meyenberg, Carina & Hahn, Volker & Maurer, Hans Peter & Würschum, Tobias & Thorwarth, Patrick. (2025). Phenomic Prediction Can Be Improved by Optimization of NIRS Preprocessing. Plant Breeding. 1-16.  

 

编辑

王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。