学术中心
高维图像衍生玉米表型数据统计分类中的特征选择
发布时间:
2022-07-12
来源:
本站
作者:
PhenoTrait
随着自动化成像等高通量表型技术的应用,表型分析也得到了发展。这导致了大量高维表型数据的推导,这是不可能在一次运行中使用手动表型实现的。因此,需要并行开发能够适当处理如此大和/或高维数据集的统计技术。此外,还需要提出一个统计标准,以选择最佳的图像衍生表型特征,可用于模拟植物生长的最佳预测因子。关于这种标准的资料有限。本研究的目的是应用特征重要性、Shapley值特征选择和LASSO回归技术,寻找具有最高预测能力的特征子集,用于后续使用高维图像衍生的表型数据建模玉米植株生长。研究通过使用每种选择方法的最佳特征拟合XGBoost模型,比较了这些特征提取方法的统计能力。图片衍生表型数据来自德国莱布尼茨植物遗传和作物植物研究所- Gatersleben。数据分析采用r -统计学软件。数据采用���近邻法(k-Nearest Neighbours)进行数据归因。利用特征重要性、Shapley值和LASSO回归进行特征提取。Shapley值提取25个表型特征(图1),特征重要性提取31个特征(图2),LASSO回归提取12个特征。在三种方法中,特征重要度准则是最佳的特征选择方法,其次是Shapley值和LASSO回归。该研究证明了特征重要性作为一种选择技术在高维增长数据集中减少输入变量的潜力。
总之,该研究表明,在有高维数据的情况下,通过特征重要性来选择特征,用于植物生长建模的最佳特征方面更为理想。特征重要性特征选择技术不仅有助于提取出产生最佳生长模型的特征,还有助于极大地减少建模中涉及的特征数量。与其他特征选择方法相比,利用特征重要性获得的特征也占了植物生物量的最大变异性

图1利用特征重要性选择特征

图2 利用Shapley值选择特征
来源:Gachoki, P., Muraya, M., & Njoroge, G.G. (2022). Features Selection in Statistical Classification of High Dimensional Image Derived Maize (Zea Mays L.) Phenomic Data. American Journal of Applied Mathematics and Statistics. 10(2), 44-51.
编辑:王春颖
推荐新闻
视频展示