CLIM4OMICS: 美国和加拿大玉米表型可预测性的地理空间综合气候和多组学数据库


发布时间:

2023-02-27

来源:

植物表型资讯

作者:

PhenoTrait

数值、统计和数据驱动的诊断和预测作物生产模型的性能在很大程度上依赖于输入和校准/验证过程的数据质量。本研究提供了一个综合数据库,将其集成为用于玉米表型建模、诊断和预测的同质、一致和多维基因型、表型和环境数据库。使用的数据来自 Genomes to Fields (G2F) 计划,该计划提供多年基因组 (G)、环境 (E) 和表型 (P) 数据集,可用于训练和测试作物生长模型以了解环境基因型 (GxE) 相互作用现象。G2F 数据库的一个特殊优势是多样化的玉米基因型DNA序列(G2F- g)、表型测量(G2F- p)、在玉米生长季节(G2F- e)收集的基于站点的环境时间序列(主要是气候数据)观测数据,以及横跨美国和加拿大安大略省的每个大田试验(G2F- m)的元数据。这个综合气候和基因组数据库的构建结合了数据质量控制 (QC) 和一致性控制 (CC) 分析,以巩固表型预测分析和 GxE 交互建模所需的地理空间分布环境和基因组数据的数字表示。两阶段 QC-CC 预处理算法还包括一个估计环境不确定性的模块。通常,此数据流程收集原始文档、检查其格式、更正数据结构以及识别和修复/估算缺失数据。该流程使用机器学习技术来填补环境时间串行差距,并量化通过使用其他数据源在 G2F-E 中进行差距插补而引入的不确定性,丢弃 G2F-P 中的缺失值,并删除 G2F-G 中的稀有变体。最后,生成一个集成和增强的多维数据库。用于改进G2F数据库的分析和称为“ CLIM4OMICS ”的改进数据库遵循FAIR原则。

 

所有资源均可在http://doi.org/10.5281/zenodo.7490246 上获得 (Sarzaeim, et al, 2023)。

 

图1 G2F多维组学和水文气候数据库的质量和一致性控制算法的概念框架。“G2F- G”为G2F基因组数据,“G2F- P”为G2F表型数据,“G2F- M”为G2F元数据,“G2F- E”为G2F环境数据。

 

图2 存储在单个HDF文件中的原始G2F-G数据的截图,显示了SNPs序列的复杂分层数据结构。

 

图3 在TASSEL软件中存储在单个HDF文件中的原始G2F-G分子标记序列数据的截图。第一列显示玉米杂交基因型名称,第一行显示存储在HDF文件中的位点。A, T, G, C和R字母是每个分子位点上主等位基因和小等位基因的样本,N字母表示基因序列中缺失的标记。

 

图4 存储在“.csv”文件中的原始G2F-P数据的截图,显示了2014年表型观察的复杂数据库结构。

 

图5 存储在“。csv”文件中的原始G2F-E数据截图,显示了2014年复杂的数据库结构环境时间序列。

 

图6 存储在“。csv”文件中的原始G2F-M数据的截图,显示了2014年复杂的数据结构元数据。

 

图7 G2F数据库的总体算法QC-CC框架。“G2F- g”、“G2F- p”、“G2F- e”和“G2FM”分别表示G2F基因组、表型、环境和元数据。“PMV”和“MAF”分别表示缺失值百分比和小等位基因频率。“小学”。和“中校”。分别表示主列和辅助列。

 

图8 (a) 2014年、(b) 2015年、(c) 2016年和(d) 2017年G2F-P数据库表型记录的空间分布。总测量次数最多的是2015年,有9834个样本。

 

图9 G2F-Gen的观测次数。(基因组数据),G2F-Phe。(表型数据)和G2F-Env。(环境数据)在原始数据库、质量控制数据库和一致性控制数据库中。QC和CC指的是质量和一致性控制算法。

 

图10 (a)温度(Err-T), (b)露水(Err-D), (c)相对湿度(Err-H), (d)太阳辐射(Err-S), (e)降雨量(Err-R), (f)风速(Err-W), (g)风向(Err-I)误差值的概率分布函数(PDF)。请注意,每个外部环境数据源可能不包含所有的G2F水文气候变量。对于G2F和每个数据源之间的公共变量,已经计算了误差项。SDG2F-NSRDB表示某一特定气候变量的G2F与NSRDB之间的误差标准差,SDG2F-DayMet表示G2F与DayMet之间的误差标准差,SDG2F-NWS表示G2F与NWS之间的误差标准差。

 
 
来 源
Sarzaeim, P., Munoz-Arriola, F., Jarquin, D., Aslam, H., and De Leon Gatti, N.: CLIM4OMICS: a geospatially comprehensive climate and multi-OMICS database for Maize phenotype predictability in the U.S. and Canada, Earth Syst. Sci. Data Discuss. [preprint], https://doi.org/10.5194/essd-2023-11, in review, 2023.
 

编辑

王春颖
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。