学术中心
以水稻开花期为例的基因-环境互作模型
发布时间:
2025-05-17
来源:
作者:
基因-环境互作(G×E)模型在数字化育种和作物表型预测中具有重要潜力。作物生长模型可利用基因型特异性参数(GSPs)作为桥梁,捕捉G×E效应并模拟作物的生长发育过程。本研究使用包含169个基因型的多环境种植和开花期数据集,每个基因型均含有70万个位点的单核苷酸多态性(SNP)标记。研究整合了三种水稻生长模型(ORYZA、CERES-Rice 和 RiceGrow)、SNP数据及气候指数,以预测水稻的开花时间。基于全基因组关联分析(GWAS),探讨了GSPs与数量性状核苷酸(QTNs)之间的显著关联。部分GSPs与已报道的水稻开花相关基因(如DTH2、DTH3和OsCOL15)存在关联,表明该模型具有一定的遗传可解释性。相较于传统模型校准方法,基于SNPs的GSPs驱动的水稻模型表现出拟合度下降,均方根误差(RMSE)增大。随后,研究利用机器学习(ML)方法和气候因子对作物模型的预测结果进行了修正,修正后的预测精度与传统校准方法相当。此外,多模型集成(MME)的预测能力与最佳单一模型相当。本研究结果有望促进水稻的分子育种与表型预测。
图1 本研究的实施示意图。(1) 基于多重全基因组关联分析(Multi-GWAS)方法注释调控或影响水稻开花期的基因;(2) 采用基因组预测方法预测基因型特异性参数(GSPs);(3) 训练机器学习模型以修正水稻开花期预测。
图2 与开花期相关的基因型特异性参数(GSPs)在三种作物模型中的分布。GSP数据集中,ORYZA、CERES和RiceGrow模型的GSPs分布分别对应于图中从上至下的三行。小提琴图中的曲线表示数据的分布范围和密度,箱线图则显示中位数、第 25 百分位数和第 75 百分位数,其上下边界分别表示数据的范围。变异系数(CV)用于表征GSPs的变异程度。
图3 观测值与预测水稻开花期(播种至开花天数)的散点图。(a) ORYZA、(b) CERES 和 (c) RiceGrow 模型在拟合的基因型特异性参数(GSPs)下的预测结果。黑色虚线表示观测值与预测值相等的情况,红色实线表示回归拟合线。
图4 (a–d) 采用多重全基因组关联分析(Multi-GWAS)方法鉴定的数量性状核苷酸(QTNs)集,针对参数 MaxTORYZA、CriticalDLORYZA、PhotoSRiceGrow 和 TsenRiceGrow。上方直方图中的纵向条形表示不同多重GWAS方法共同鉴定的交叉QTNs数量,条形下方的蓝色连线指示各GWAS方法的交集,红色填充表示至少发现了一个与水稻开花相关的基因。横向条形图表示每种GWAS方法单独鉴定出的QTN数量。
图5 基于拟合GSPs和SNP预测GSPs的169个水稻基因型开花期预测表现。图中每个点表示对应水稻品种的开花期预测均方根误差(RMSE)。箱线图的中央线及上下边界分别表示中位数、第25百分位数和第75百分位数,实心圆点表示异常值。统计显著性水平标注为:"" P < 0.05,"" P < 0.01,"" P < 0.001,"NS" 表示差异不显著。
图6 不同建模阶段测试数据集的开花期预测均方根误差(RMSE)及皮尔逊相关系数(r)。
图7 XGBoost 预测中气候因子的相对重要性。柱状图显示各气候因子对开花期预测的重要性,柱体及误差线分别表示预测均值和标准偏差。GDD:生长积温;HDD:高温积温;CDD:低温积温;RAD:日辐射量。其中,“_100”表示播种后前100天的计算结果,“_200”表示播种后100至200天的计算结果。
Zhang J, Zhang S, Yang Y, et al. Integrating crop models, single nucleotide polymorphism, and climatic indices to develop genotype-environment interaction model: A case study on rice flowering time[J]. Plant Phenomics, 2025: 100007.
编辑
王永贤
推荐新闻
视频展示