利用特征分裂回归和高维度高光谱反射率数据评估植物表型性状


发布时间:

2023-02-18

来源:

植物表型资讯

作者:

PhenoTrait

通过结合回归算法和高光谱反射率数据,可以以无损和快速的方式定量估算作物表型性状。多元线性回归(Multiple linear regression, MLR)是一种在处理低维数据时被广泛使用的高效回归方法,然而它在处理高维度数据时存在过拟合的问题。本研究开发了一种基于MLR和波段分裂策略的新型回归方法,即特征分裂回归(feature splitting regression, FSR),以建立高维度高光谱反射率与各种作物表型性状之间的联系。植物表型资讯介绍如下。

 

在FSR中,具有数千个波段的高光谱反射率数据被分割成数十个子集,对这些子集采用MLR分别进行训练,随后将多组预测结果进行平均得到最终预测结果。本研究中将FSR与随机森林(Random forest, RF)的建模效果进行了对比。对于两个生长季节的小麦产量预测,设置了两种验证模式。模式A:将2019年的数据设置为训练集,2020年的数据设置为测试集;模式B:将2020年的数据设置为训练集,2019年的数据设置为测试集。对于公共数据集的多种作物表型性状评估,数据按7:3的比例随机分为训练集和测试集。为了避免偶然性,公共数据集上的训练集和测试集的划分重复了20次。

 

图1 特征分裂回归FSR示意图

 

结果表明,FSR框架(图1)可使MLR具有处理高维度高光谱数据的能力。在小麦产量预测中,FSR模型在大多数验证案例中取得了明显改善的预测精度,与RF模型相比(图2,图4),平均绝对误差(MAE)最高减少了28.50%。此外,FSR和RF算法在不同品种的公共数据集上进行了20次验证(图5)。结果显示,在评估不同类型数据的作物表型性状时,FSR模型也取得了比RF模型更高的预测精度,平均MAE降低了26.18 %到62.27 %。本研究表明,将高维度高光谱反射率和FSR结合可以实现与经典机器学习算法可比的表型评估精度。FSR模型为小麦育种中的产量估测和表型精准鉴定提供了一种选择。

 

图2 随机森林产量预测散点图

 

图3 特征分裂回归超参数nsplit调节

 

图4 特征分裂回归产量预测散点图

 

图5 对比公共数据集上的特征分裂回归和随机森林模型的性能(20次验证)。

 

 

来 源
Shuaipeng Fei, Demin Xu, Zhen Chen, Yonggui Xiao and Yuntao Ma. MLR-based feature splitting regression for estimating plant traits using high-dimensional hyperspectral reflectance data. Field Crops Research. 2023,293,108855.
 
 

作者介绍

论文第一作者为中国农业大学土地科学与技术学院博士研究生费帅鹏,论文共同通讯作者为中国农业科学院作物科学研究所肖永贵博士和中国农业大学土地科学与技术学院马韫韬博士,合作者包括中国农业科学院农田灌溉研究所陈震博士、中国农业大学土地科学与技术学院科研助理徐德敏。中国农业大学数字农业研究团队主要研究方向为植物功能-结构-环境互作的系统仿真与数字孪生、基于机器视觉的植物生长信息的数据挖掘与应用、无人机大规模育种性状快速调查、育种机器人与农用传感器创制、多源传感器融合及数字农业应用、人工智能与智慧农业等研究。长期招收多名硕士、博士研究生和合作博士后,有意者请联系:yuntao.ma@cau.edu.cn。
 
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。