学术中心
利用特征分裂回归和高维度高光谱反射率数据评估植物表型性状
发布时间:
2023-02-18
来源:
植物表型资讯
作者:
PhenoTrait
通过结合回归算法和高光谱反射率数据,可以以无损和快速的方式定量估算作物表型性状。多元线性回归(Multiple linear regression, MLR)是一种在处理低维数据时被广泛使用的高效回归方法,然而它在处理高维度数据时存在过拟合的问题。本研究开发了一种基于MLR和波段分裂策略的新型回归方法,即特征分裂回归(feature splitting regression, FSR),以建立高维度高光谱反射率与各种作物表型性状之间的联系。植物表型资讯介绍如下。
在FSR中,具有数千个波段的高光谱反射率数据被分割成数十个子集,对这些子集采用MLR分别进行训练,随后将多组预测结果进行平均得到最终预测结果。本研究中将FSR与随机森林(Random forest, RF)的建模效果进行了对比。对于两个生长季节的小麦产量预测,设置了两种验证模式。模式A:将2019年的数据设置为训练集,2020年的数据设置为测试集;模式B:将2020年的数据设置为训练集,2019年的数据设置为测试集。对于公共数据集的多种作物表型性状评估,数据按7:3的比例随机分为训练集和测试集。为了避免偶然性,公共数据集上的训练集和测试集的划分重复了20次。
图1 特征分裂回归FSR示意图
结果表明,FSR框架(图1)可使MLR具有处理高维度高光谱数据的能力。在小麦产量预测中,FSR模型在大多数验证案例中取得了明显改善的预测精度,与RF模型相比(图2,图4),平均绝对误差(MAE)最高减少了28.50%。此外,FSR和RF算法在不同品种的公共数据集上进行了20次验证(图5)。结果显示,在评估不同类型数据的作物表型性状时,FSR模型也取得了比RF模型更高的预测精度,平均MAE降低了26.18 %到62.27 %。本研究表明,将高维度高光谱反射率和FSR结合可以实现与经典机器学习算法可比的表型评估精度。FSR模型为小麦育种中的产量估测和表型精准鉴定提供了一种选择。
图2 随机森林产量预测散点图
图3 特征分裂回归超参数nsplit调节
图4 特征分裂回归产量预测散点图
图5 对比公共数据集上的特征分裂回归和随机森林模型的性能(20次验证)。
作者介绍
扩展阅读
推荐新闻
视频展示