学术中心
大豆种子结构特征表型分析及种子重量预测模型
发布时间:
2023-10-25
来源:
本站
作者:
PhenoTrait
在种子属性中,重量是决定大豆收获指数的主要因素之一。近年来,大豆育种的重点已转向改善种子大小和重量,以优化作物的种子和油料产量。随着技术的发展,成像传感器的应用日益广泛,它可以提供简单、实时、无损和低成本的图像数据,用于植物育种项目中基于图像的种子性状快速预测。本文研究了种子性状数字图像分析在大豆百粒重(HSW)预测中的应用。测量了基于图像的种子结构特征(i-traits)包括面积大小(AS)、周长(PL)、长度(L)、宽度(W)、长宽比(LWR)、长宽交点(IS)、种子圆度(CS)以及IS和CG之间的距离(DS)。表型调查显示,在164个大豆基因型中,i-traits和人工测量种子重量均存在显著的遗传变异。使用7种流行的机器学习(ML)算法,即简单线性回归(SLR)、多元线性回归(MLR)、随机森林(RF)、支持向量回归(SVR)、LASSO回归(LR)、岭回归(RR)和弹性网络回归算法(EN),根据从红绿蓝(RGB)/可视图像中提取的基于图像的新特征创建可预测大豆种子重量的模型。其中,随机森林模型和采用与种子大小性状相关的多个解释变量(AS、L、W和DS)的多元线性回归模型是预测种子重量的最佳模型,预测精度最高(决定系数R²分别为0.98、0.94),预测误差最低,即均方根误差(RMSE)和平均绝对误差(MAE)。最后,利用主成分分析(PCA)和层次聚类分析方法,确定IC538070是种子尺寸和重量较大的优良基因型。鉴定出的供体/性状可能用于大豆改良。

图1 基于图像结构特征预测大豆种子重量的工作流程

表1大豆种质资源间的平均值和相关标准误差(±SE)、最大、最小、最小显著性差异(LSD0.05)、估计的基因型差异(S²g)和实验误差(S²e)方差成分差异显著

图2 Pair面板矩阵描述了164个大豆基因型测得的8种不同种子结构特征(SAT)的频率分布、回归和相关系数(r)。在P<0.05(*)、P<0.001(***)显著水平上的相关系数。表面积(SA)、周长(PL)、长(L)、宽(W)、长宽比(LWR)、种子圆度(CS)、IS与CG之间的距离(DS)、种子百粒重(SW)

图3 从164个不同基因型的大豆中筛选出CVs ≥ 0.3的8个SATs进行主成分分析。从左上方面板顺时针方向开始(A)描述信息主成分数量的Scree图(2)。右上(B)显示各基因型在PC空间中分布载荷向量和位置的双标图;左下角(C)面板显示了各性状之间的关系和重要性;右下角(D)是各性状对主成分PC1和PC2的最大方差贡献的重要性,占变异性的84.74 %;种子表面积(SA)、周长(PL)、长度(L)、宽度(W)、长宽比(LWR)、种子圆度(CS)、IS和CG之间的距离(DS)和百粒重(HSW)

表2 使用选定的SATs作为自变量(AS、PL、L、W、LWR、CS和DS),用于预测SW的简单线性回归模型的性能指标

图4 9种机器学习模型的性能比较(LASSO回归,最小绝对收缩和选择操作;Linear_PL,以PL为自变量的线性回归模型;KNN,k-近邻算法(k-NN);弹性网络回归算法;Linear_AS,以AS为自变量的线性回归模型;多线性模型,基于种子尺寸因子(即AS、L、W和DS)作为自变量的多元线性回归模型、随机森林回归、岭回归、支持向量回归模型)

图5 利用种子尺寸因子(AS、L、W和DS)预测种子重量的优异的机器学习模型性能。利用(A)RF训练数据集、(B)RF测试数据集、(C)MLR训练数据集和(D)MLR测试数据集建立预测模型

表3用于验证由CL和AL层次聚类分析确定的聚类成员(基因型)列表的混淆矩阵
Duc N T, Ramlal A, Rajendran A, Duc NT, Ramlal A, Rajendran A, Raju D, Lal S K, Kumar S, Sahoo R N, Chinnusamy V. Image-based phenotyping of seed architectural traits and prediction of seed weight using machine learning models in soybean. Frontiers in Plant Science, 2023, 14.
编辑
王三十
推荐新闻
视频展示