从数据到知识——植物表型组学视角下的大数据管理


发布时间:

2022-06-08

来源:

本站

作者:

PhenoTrait

  从项目计划开始到数据发布结束是研究数据的生命周期,也是当前研究的一个重要组成部分。在生命科学领域,过去几十年的技术进步使生成数据的深度和数量成倍增加。这与学术研究的“发表或消亡”环境相结合,导致了所谓的“可重复性危机”。在这种情况下,大多数科研成果难以重复,原因是有限的数据可访问性、分析方法记录不充分,例如软件特定的数据格式。最近越来越强调通过以公平方式(FAIR way)(可查找、可访问、可互操作和可重用)共享数据,使结果长期可用和可重复。

 

  在本文中,作者从植物表型组学的角度概述了科研数据管理(RDM)的挑战。其中大部分挑战来自于数据类型的高度异质性,以及表型试验的非侵入性特征所带来的高自由度。通常情况下,每个表型试验在开始时都有很好的计划,但相对较长的试验时间往往导致在执行阶段的调整和纠正,这对数据处理和保证数据的可重复性是一个挑战。因此需要建立相对固定的数据描述和数据传输程序,以及通过自定义的检查来控制不同的处理步骤,从而保证基于固定条件的数据质量。作者提出了一个示范性的方法,它是在AVATARS(Seeds to Seeds高级虚拟现实和增强现实方法)项目的过程中开发的。在项目运行过程中,'数字孪生'概念或自动校验测试,可以作为进一步项目的蓝图,并可以适应许多其他数据领域。

 

 

  莱布尼茨植物遗传学和作物植物研究所(IPK Gatersleben)拥有世界上最大的种质资源库之一,并在作物植物研究数据管理方面拥有二十年的经验。随着植物栽培场所(IPK PhenoSphere (IPK-PS))的建成,IPK拥有了开展新型研究的独特基础。随着这些新设施和新技术的出现,挑战也随之增加,表型分析的数据量也成倍增加。新的表型组学技术和新的分析程序不仅将为植物发育过程提供新的见解,并产生大量的数据,而且还需要对开发和实施充分的数据管理战略进行高额投资。这对于保证公平和可持续的数据管理以提供高质量的出版物和有价值的研究数据至关重要。在本文中,作者展示了数据管理员如何应对现代数据驱动研究中的挑战。基于具体的案例、数据管理流程和植物表型分析的最佳实践,描述了需要哪些专业知识和技能,以及数据管理者作为一个不可或缺的参与者如何在渐进式研究中提高必要的数字化转型的质量。

 

  数据管理任务和AVATARS在一般研究数据流程框架内的具体实施

 

  来源:Arend, D., Psaroudakis, D., Memon, J. A., Rey‐Mazón, E., Schüler, D., Szymanski, J. J., ... & Lange, M. (2022). From Data to Knowledge‐Big Data needs Stewardship, a Plant Phenomics Perspective. The Plant Journal.

  

  编辑:婷婷

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。