在育种中利用视觉评分和分类数据进行复杂性状的基因组预测


发布时间:

2023-05-07

来源:

植物表型资讯

作者:

PhenoTrait

由于正态分布简单、鲁棒性强且易于实施,大多数基因组预测方法均基于正态分布假设。但是,在植物和动物育种中,目标性状通常作为分类数据收集,因此违反了正态分布假设,这可能会影响育种结果和关键遗传参数的预估。本研究解析了分类表型参数对基因组预测的影响,并利用贝叶斯方法、机器学习技术和混合模型估测了遗传参数。我们分别使用模拟和真实育种数据评估这些方法的差异。本研究的贡献包括以下5个方面:(1)考虑到误差和视觉评分的主观因素影响,利用类别中间数(1到3和1到5)收集数据是最优策略;(2)在基因组预测方面,线性混合模型和贝叶斯线性回归模型对非正态分布的鲁棒性最强,但是贝叶斯有序回归和随机森林分类可取得边际收益;(3)贝叶斯有序回归的遗传参数预测精度更高;(4)利用模拟数据得到的实验结果可应用于同源四倍体蓝莓的实测数据,能为育种家提供决策支持;(5)连续表型参数和离散表型参数对低遗传力复杂性状的测试结果显示,数据分为600-1000个类别时误差较低,当无法获取连续的表型参数时,这一结论可以提高遗传参数的预测能力。本研究提出了在育种中有效利用分类性状来探索遗传信息的最佳方法,并强调了在训练模型和高质量表型数据获取中投入精力的重要性。

 

图1 四个不同类别数的观测数据分布,包含三个噪声水平(低–20%的错误分类,中等–50%的错误分类和高–70%的错误分类)和无噪声

 

图2 本研究的技术流程。模拟部分包括两个基因结构的模拟性状(定性和定量)和高斯分布;分类部分包括将连续的表型数据变为离散数据(1到2、1到3、1到5和1到9);噪声部分包括在分类中制造不同水平的噪声(低–20%的错误分类,中等–50%的错误分类和高–70%的错误分类);分析部分表示参数估计(线性混合模型、贝叶斯有序模型和贝叶斯线性回归模型)和非参数估计(随机森林回归和分类)在连续和离散表型数据中的应用。

 

图3 不同模型的精度。精度验证方法为交叉验证,涉及不同类别数(1至2、1至3、1至5和1至9)、不同方法(贝叶斯有序和贝叶斯线性回归模型(Bayes)、广义和线性混合模型(MM)以及随机森林回归和分类(RF))和不同水平的噪声(低-20%的错误分类,中等-50%的错误分类、高-70%的错误分类和没有误差),表型数据是连续的。这些性状为定量遗传结构,有100个QTL,遗传力等于0.10

图4 在1到5的类别中选择一致性百分比在10%之间的个体(对角线以上),利用不同方法分析相关性(对角线以下)

 

图5 利用不同方法估计遗传力。红线表示模拟的遗传力值

 

图6 利用交叉验证进行基因组预测。采用佛罗里达州四个区域收集的不同年度(2014年、2015年、2020年至2022年)和不同育种阶段(II、III和IV)的离散表型数据进行平均预测能力分析。所有预测能力均以百分比值表示

 

 

来 源
Camila Ferreira Azevedo, Luis Felipe Ventorim Ferrão, Juliana Benevenuto, et al. Using visual scores and categorical data for genomic prediction of complex traits in breeding programs. bioRxiv 2023.02.27.530308. doi: https://doi.org/10.1101/2023.02.27.530308
 

编辑

段博
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。