FAIR数据的优势与困难:植物表型数据的重用案例


发布时间:

2023-08-13

来源:

本站

作者:

PhenoTrait

植物表型实验在各种实验参数和设置下进行,目的各不相同。它们生成的数据多种多样、错综复杂,通常记录不全,因此难以重复使用。为满足社会需求(营养、作物适应和稳定性)需要更有效的数据整合和重用方法。本文研究了“FAIR(Findable 可发现, Accessible 可访问, Interoperable 可互操作, Reusable 可重用)数据”需求,并以马铃薯发育性状的环境基因型和环境互作QTL为例,探讨了利用FAIR数据原则和利用环境基因型和环境互作QTL数据实现FIRE的优势与困难。试验假设在FAIR数据点上发现表型数据集,验证是否存在与环境数据相关数据集,获取两者并整合到一起。本文报告并讨论了在此过程中遇到的挑战,以及利用MIAPPE等元数据标准对现有数据集进行FAIR化的可重用性和可重复性潜力。

为了改善全球数据状况,应对异质性挑战,并尝试连接分布式资源,人们提出了FAIR(Findable 可发现, Accessible 可访问, Interoperable 可互操作, Reusable 可重用)数据原则。MIAPPE元数据标准有助于实现FAIR的三个方面:可查找性(用相关的、可搜索的属性对实验进行注释)、互操作性(通用元数据词汇表)和可重用性(解释和重用所需的最小信息)。可访问性是通过具体实施来解决的。

 

图1 该图显示了在这种情况下研究人员以FAIR的方式定位、获取、检查和重用数据将遵循的步骤

表1 两个数据集及其组成成分和其他属性的摘要。

图2 FDP元数据规范数据集级别的图示(左图),以及我们使用MIAPPE元数据对其进行的扩展(右图-不完整)。FDP只包含关于资源的元数据,不足以描述数据集的内容。如果没有关于数据集内容的具体元数据,FDP就不能支持有意义的、以内容为导向的索引和可搜索性,所以我们利用面向内容的MIAPPE元数据补充关于数据集中包含的实验数据。数据集包含MIAPPE调查,这是连接点。请注意,图中只有调查和数据集之间的连接。双方之间的其他连接(例如分配和研究)没有意义。

 

图3 FDP的结构。可以从左侧开始,沿着箭头指示的路径向右移动,跟随带有虚线轮廓的形状移动。也可以反向移动,因为每个级别都链接到其父级和子级。

 

图4获取每个研究的特定研究值:研究ID、国家缩写、位置名称和地址、研究的开始和结束日期、其GPS坐标和高度(手册第1.3节)。

 

图5每个实验和每个气象站坐标之间的差值(平方)计算的查询。按升序对差值进行排序,以便每个试验都有适合的气象站(手册第3.3节)。

 

图6 若在实验中对某一性状进行比较/总结,必须采取的步骤

 

图7(a) 292个基因型在每次实验中,每个基因型平均产出的块茎总重(手册第6节)。并非所有的基因型被用于所有的实验。图中的x轴是基因型名称,y轴是每个基因型的平均块茎重量(按植株平均)。不同的点颜色显示数据点对应的实验。(b)每个实验中每个基因型平均产生的块茎总重的图表(手册第5部分)。与前面的图不同的是,这张图表不仅包含了所有5个实验中研究的基因型(101),而且还包含了我们感兴趣性状的基因型(80)。这个图表中的x轴列出了基因型名称(虽然不是所有的都在x轴上标记),y轴是每个基因型每株的平均块茎重量。不同的点颜色显示数据点对应的实验。

 

图8 显示了每种基因型在不同环境下的最佳和最差性能(手册第7.3节)。每个环境/研究对应于x轴上累积PBTT的特定值。y轴显示每个基因型每株植物的平均块茎重量。上升的线(绿色)表示基因型在平均日照时间短且温度低的环境中表现最差,而在平均日照时间长且温度高的环境中表现更好,而下降线(红色)则表示相反的情况。

 

图9 2010年埃塞俄比亚实验部分实验数据文件。第一列列出了观察单元ID,可以将其与MIAPPE中存在的元数据交叉引用以获取更多信息,例如该单元的观察水平(在本例中为植物)或其基因型。日期列后跟标有观测点单元ID的列,这些列也可以与MIAPPE元数据交叉引用以获得全面的解释。

 

图10 数据集1的元数据。黑框表示FDP数据集元数据规范。其他所有内容(绿框)均来自MIAPPE(不完整),在此处添加是为了表示此数据集的具体内容。最后,通过指向SPARQL分发的链接,我们找到托管相关数据集的SPARQL端点的URL。我们可以用它来开始探索。

 

来 源

Papoutsoglou E. A., Athanasiadis I. N., Visser R. G. F., Finkers R., 2023. The benefits and struggles of FAIR data: the case of reusing plant phenotyping data. Scientific Data, 10(1): 457.

 

编辑

王三十

 

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。