学术中心
提高植物研究数据公平性的本体论
发布时间:
2023-10-20
来源:
本站
作者:
PhenoTrait
随着现代集成技术的飞速发展,正确集成和管理所产生的数据的需求变得越来越重要。提高研究数据的公平性(可查找性、可访问性、互操作性、可重用性)的重要性是不可否认的,特别是面对目前由组学技术产生的大型、复杂的数据集。促进数据集与其他类型数据的集成可以增加重用的可能性以及回答新研究问题的潜力。本体是一个有用的工具,可以在添加相关元数据时对数据集进行语义标记,增加对数据理解并提高其互操作性。本体提供特定领域的概念以及概念之间的关系。通过用本体术语标记数据,数据变得可以由人类和机器解释语言,从而提高重用性和互操作性。然而,识别与特定研究领域或技术相关的本体的任务具有挑战性,特别是在基础植物研究的不同领域。
将术语合并到元数据框架(例如ISA)中,进一步提高了数据的公平性。近年来人们一直在努力为科学界提供更全面的本体概述。已经开发了许多本体存储库,所有这些都旨在促进本体存储库和服务平台(例如Planteome和AgroPortal)对新用户来说是很好的资源本体论提供者依赖并鼓励参与和跨学科合作,以不断扩展和改进概念及其关系。标准化本体语言促进了本体的互操作性以及不同领域专家之间的沟通,并提高了本体在更广泛的科学界内的可重用性。基础植物研究本质上是多样化的,融合了生命科学各个领域的技术和概念,并且推动元数据注释本体的标准化。使用本体术语对元数据进行正确注释无疑将进一步促进这些实践研究。

图 1:本体结构和功能
(A): 本体类(蓝色圆圈)用于描述类的唯一标识符、名称、定义和同义词等信息。类通过属性连接,特别是对象属性(标记为“is_a”的箭头),它提供结构和上下文。(B): 一个示例,说明如何将本体术语合并到元数据表中以“标记”信息,从而促进机器可读性并提高数据的公平性A 列和C 列分别描述术语,B 列和 D 列分别描述相应的本体ID。第2 行描述实验特征,第3 行是相应的值。(C): 本体可以导入和共享来自其他本体的术语,以实现术语(概念)或领域的一致表示,从而提高本体及其包含的术语的互操作性和标准化。此处图片是植物本体论(PO)的摘录(Walls等人,2012 年;Cooper等人,2013 年),包含来自基本形式本体论(BFO)(Arp等人,2015)、Uberon多物种解剖本体论(UBERON)(Mungall等人,2012)和生物医学研究本体论(OBI)(Brinkman等人)的术语.,2010)。

图 2:如何使用本体来注释植物科学实验以提高数据的公平性的示例
术语必须充分涵盖植物生长的地点和条件、收集的样品以及样品的处理和分析方式。因此,需要多样化的本体来捕获实验的多维性质。ISA元数据部分,描述研究中的生长和样品制备方案和样品以及与测定相关的方案和研究数据。

图 3:ISA元数据框架(Sansone等人,2016),旨在捕获实验元数据
(A): 该框架由三个核心实体组成:调查、研究和分析。结构允许在一项调查中描述多项研究,并在一项研究中描述多项测定。每个实体都有应包含的元数据要求,以确保实体的完整描述。在研究和分析实体中,本体注释是所包含元数据所需的输入,例如研究中的设计类型和分析中的测量类型(用蓝色框标记)。(B): 检测实体包含的“材料节点”示例,用于描述实验期间消耗或产生的材料。该节点所需的元数据是“特征”,它可能但不一定是本体注释(用蓝色虚线框标记)和“材料类型”,它需要本体注释(用蓝色框标记)。

图 4:植物科学界相关的特定领域本体及其与ISA的关系的可视化
左:ISA概念的层次结构。右侧的本体通过符号链接到ISA概念。绿色框突出了植物特定的本体。虽然该图给出了可以将本体合并到ISA中的位置的概念,但可能存在可以合并本体的场景,但这里没有描述。
Dumschott K, Dörpholz H, Laporte M A, et al. Ontologies for increasing the FAIRness of plant research data[J]. ar**v preprint ar**v:2309.07129, 2023.
编辑
杨静静
推荐新闻
视频展示