高维图像衍生玉米表型数据统计分类中的特征选择


发布时间:

2022-07-12

来源:

本站

作者:

PhenoTrait

  随着自动化成像等高通量表型技术的应用,表型分析也得到了发展。这导致了大量高维表型数据的推导,这是不可能在一次运行中使用手动表型实现的。因此,需要并行开发能够适当处理如此大和/或高维数据集的统计技术。此外,还需要提出一个统计标准,以选择最佳的图像衍生表型特征,可用于模拟植物生长的最佳预测因子。关于这种标准的资料有限。本研究的目的是应用特征重要性、Shapley值特征选择和LASSO回归技术,寻找具有最高预测能力的特征子集,用于后续使用高维图像衍生的表型数据建模玉米植株生长。研究通过使用每种选择方法的最佳特征拟合XGBoost模型,比较了这些特征提取方法的统计能力。图片衍生表型数据来自德国莱布尼茨植物遗传和作物植物研究所- Gatersleben。数据分析采用r -统计学软件。数据采用���近邻法(k-Nearest Neighbours)进行数据归因。利用特征重要性、Shapley值和LASSO回归进行特征提取。Shapley值提取25个表型特征(图1),特征重要性提取31个特征(图2),LASSO回归提取12个特征。在三种方法中,特征重要度准则是最佳的特征选择方法,其次是Shapley值和LASSO回归。该研究证明了特征重要性作为一种选择技术在高维增长数据集中减少输入变量的潜力。

 

  总之,该研究表明,在有高维数据的情况下,通过特征重要性来选择特征,用于植物生长建模的最佳特征方面更为理想。特征重要性特征选择技术不仅有助于提取出产生最佳生长模型的特征,还有助于极大地减少建模中涉及的特征数量。与其他特征选择方法相比,利用特征重要性获得的特征也占了植物生物量的最大变异性

 

  图1利用特征重要性选择特征

 

  图2 利用Shapley值选择特征

 

  来源:Gachoki, P., Muraya, M., & Njoroge, G.G. (2022). Features Selection in Statistical Classification of High Dimensional Image Derived Maize (Zea Mays L.) Phenomic Data. American Journal of Applied Mathematics and Statistics. 10(2), 44-51.

 

  编辑:王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。