Radix+:在大量和快速发展的表型传感器数据上进行高通量地理配准和数据获取


发布时间:

2023-04-19

来源:

植物表型资讯

作者:

PhenoTrait

植物特征及其环境的遥感技术有助于对植物生理特性进行非侵入性、高通量的监测。然而,由此类自主传感器网络产生的大量观测数据使科学用户在分析数据时不堪重负。为了提供可扩展且有效的分析环境,需要支持高通量数据摄取并保留时空和传感器特定特征的存储和分析功能。此外,该框架应使模型构建者和科学家能够应对数据集快速而不断变化的特性运行其分析。本文介绍了Radix+,一种高吞吐量分布式数据存储系统,支持可扩展的地理引用和基于交互式查询的时空分析,并具有可跟踪的数据完整性。我们在具有高达1 TB数据的通用机器群集上进行了实证评估。我们的基准测试表明,对于我们评估的大多数查询,延迟在亚秒级别,并且数据摄取速率比Geomesa等系统有所提高。

 

图1 数据收集。(A) 来自无人机的TIFF多光谱光栅文件。(B) 安装在地面平台上的自主传感器。

 

图2 RADIX+元数据图的结构:这展示了图的层次性,在叶子节点上有与实际数据块的链接,用于快速查询评估。

 

图3 使用分布式RADIX+HashGrid的两层地理参考方案。

 

图4 用RHIG进行完整性跟踪:比较本地和全局RHIG,以确定新的数据段。RHIG的结构为元数据图,有助于快速评估。(A) RHIG的结构(本地)。(B) 全局RHIG。

 

图5  RADIX+ 结构。

 

图6 异构传感器数据摄取时间:(A)有2、10、20和40个摄取节点,每个节点吸收5GB的合成数据;(B)对于8GB的真实传感器数据,分别是有、无数据预处理和有分布式预处理。

 

图7 在通过(A)2个摄取节点和(B)20个摄取节点的并行摄取期间,摄取节点和非摄取节点之间的平均CPU利用率的比较。

 

图8 数据摄取吞吐量与摄取节点数量的关系。

 

图9 元数据查询延迟与大小的关系。

 

图10 RHIG数据发现:识别不同比例的陈旧块的延迟。

 

图11 RADIX性能比较。(A) 查询评估时间比较。(B) 完全索引和存储一个10GB文件的时间。

 
 
来 源

Mitra S, Roselius M, Andrade‐Sanchez P, et al. Radix+: High‐throughput georeferencing and data ingestion over voluminous and fast‐evolving phenotyping sensor data[J]. Concurrency and Computation: Practice and Experience, 2023: e7484.

https://doi.org/10.1002/cpe.7484

 

编辑

小王博士在努力
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。