比较基于遥感的玉米锈病易感性表型分析的统计“表型预测”模型


发布时间:

2025-11-27

来源:

作者:

本文通过综合利用所有可用数据预测人为指定的视觉评分(Visual Score, VS)探讨了表型预测(Phenomic Prediction, PP)在基于遥感的表型遗传研究中的潜力。作者的构思动机是:当一个训练好的模型可用时,这些预测可能比使用特定的植被指数(vegetation index, VI)提供更准确的病害症状评估。为了评估PP方法,作者在全基因组关联研究(Genome-Wide Association Study, GWAS)中使用了预测的VS,并考虑了检测到的遗传信号的强度和位置。试验使用了两组不同的预测变量:i)由多光谱和热成像仪捕获的5个基本波长(Basic Traits, BT);ii)由5个基本波长加上10个植被指数组成的所有性状(All Traits, AT)。另外,作者比较了不同统计方法:a)(线性)普通最小二乘回归(Ordinary Least Squares regression, OLS);b)(线性)岭回归(Ridge Regression, RR);c)(线性)最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO);d)人工神经网络(Artificial Neural Network, ANN)和e)梯度提升回归树(Gradient Boosted Regression Tree, GBRT)。
 
结果表明,基于五个基本波长的线性OLS回归(BT-OLS)表现出与最佳单个植被指数G相当的水平。在基于AT-OLS使用的所有特征导致了过拟合,而AT-RR和AT-LASSO中的正则化可以防止过拟合。非线性ANN似乎进一步改善了结果,但方法之间的差异并不具有统计学意义。当使用不同性状(VS、基本波长、植被指数)的基因组估计育种值(Genomic Estimated Breeding Values, GEB)时,可以观察到遗传信号纯化的最佳改善。在所有方法中,GEBVs与岭回归或非线性神经网络的结合表现出最佳预测精度。
 
本研究使用训练好的线性模型作为训练集数据外的“表型植被指数”,而不是依赖于特定的植被指数。因此,所有可用数据的集成能够提供比依赖特定植被指数更精准的方案。

 

 图1. 不同遗传评估

 

 图2. GWAS分析中(以及在10号染色体上)基于ANN的预测比植被指数G表现更高的-log(p)值的次数直方图

 

 图3. GWAS分析中基于GEBV的ANN预测导致比植被指数G表现更高的log(p)值的次数直方图

 

 图4. 基于GEBVs的ANN预测的次数的直方图确定了与植被指数G具有最强信号的相同分子标记

 

表1. 模型、分析和结果

 

 表2. BT-OLS对VS的预测能力

    

 表3. 基于BT-OLS使用"表型"植被指数预测GWAS分析中的遗传信号

    

表4. AT-RR对VS的预测能力

 

 表5. 基于RR使用基于性状的GEBVs预测GWAS分析中的遗传信号

 

 表6. 基于GBRT使用基于性状的GEBVs预测GWAS分析中的遗传信号

 

来 源

J.W.R. Martini, O.A. Montesinos-Lopez, J. Crossa, R. Ortiz, Comparingstatistical  ‘phenomic prediction’ models for remote-sensing-based phenotyping of maize susceptibility tocommon rust, Plant Phenomics, https://doi.org/10.1016/j.plaphe.2025. 100134

 

编辑

JAYz

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。