PlantPAD:大规模的植物科学疾病图像表型分析平台


发布时间:

2023-12-14

来源:

作者:

植物病害对粮食安全造成了巨大的负担,可以导致高达100%的减产。利用植物表型组学智能诊断病害对于挽回最大产量损失至关重要,这通常需要足够的图像信息。因此,表型组学作为一门独立学科正在推动植物病害高通量表型分析的发展。然而,由于不同社区提供的格式和描述不兼容,我们在共享大规模图像数据时经常面临挑战,从而限制了多学科研究的探索。我们建立了一个名为PlantPAD的平台,可在植物科学领域疾病图像表型分析方面的设计,其中包含了大规模的植物病害信息,可利用计算机视觉、自然语言处理和机器学习,实现对植物病害的智能检测和分析。

 

我们的平台包含了421314幅图像、63种作物和310种病害。与其他数据库相比,PlantPAD具有广泛、注释清晰的图像数据和深入的病害信息,并提供了预训练的深度学习模型,用于准确诊断植物病害。PlantPAD具有比该领域现有数据库更多的图像数据、更详细的注释和更丰富的文本信息,可为植物病害科学的各个学科应用和探索提供服务。PlantPAD支持跨学科的各种有价值的应用,包括智能病害诊断、病害教育以及高效病害检测与控制。通过PlantPAD的三个应用,我们展示了其易用和便捷的功能。PlantPAD主要面向生物学家、计算机科学家、植物病理学家、农场管理人员和农药科学家等领域的专业人士,促进他们以迅捷方便的方式获取植物病害信息,并倡导快速识别、准确诊断和有效预防植物疾病,他们可以轻松探索多学科研究,以对抗植物病害。

 

图1 PlantPAD平台的图像和文本收集概述以及工作流程如下:

A PlantPAD的主要图像收集方法和图像数据分布。PlantPAD的数据主要通过野外采集和网络收集两种方式获取,其中野外采集占据了数据的18.96%,网络收集占据了80.04%。此外,我们的数据来源可以分为四个部分:18.96%来自野外采集,33.08%来自其他网站,31.42%来自其他数据库,16.54%来自论文收集;B PlantPAD收集文本数据的主要方法包括网络收集和图像注释,其中网络收集占据了85.37%的数据,图像文本注释占据了其余的14.63%;C PlantPAD的主要工作流程包括五个主要功能:首页、浏览、下载、搜索和关于,每个功能下还包含一些子功能;

 

图2 PlantPAD的统计数据如下:

A 数据库中各类数据的分布情况,包括健康类别和五种常见病原体类别。根据病原体类别编制的统计数据显示,数据集中有42%的真菌图像,33%的健康图像,14%的病毒图像,7%的细菌图像,2%的生理性疾病图像和2%的卵菌图像。B 根据植物疾病类别,在数据库中的数据分布情况。数据集中63种植物品种的图像数量进行了统计整理,可以发现图像数量按其在自然界中的普遍程度呈现出自然的长尾分布。C 数据库中的所有植物品种和植物疾病类别。通过作物类型、植物类型和植物疾病类型进行分类,得到一个包含63种植物品种和310种疾病的分类图谱,图中的词云基于疾病类型。有关数据库中每个疾病类别的详细信息,请参阅支持材料。D 数据库中关于所有植物疾病的文本数据总结。栽培类型、疾病类型、繁殖方式、流行病学模式和传播方式、发生期、环境条件、越冬方式、控制策略、症状、病征、抗性机制、快速检测方法、侵染机制以及310种疾病的潜在靶点等信息是从学术期刊和权威网站收集的,统计了疾病类别的总数。

 

图3 PlantPAD网站设计包括以下内容

A 主要功能的介绍:数据库中浏览、搜索和下载功能的介绍。B 浏览功能的操作示例:用户可以根据作物类型、疾病类型和疾病表型进行浏览,以获取所需的疾病详细信息的示例操作。C 搜索功能的操作示例:介绍了三种不同的搜索方法,即关键词搜索、模糊搜索和组合搜索,用户可以使用这些方法获取所需的疾病详情和疾病图片的示例操作。D 下载功能的操作示例:详细说明了如何下载图像和预训练模型的具体方式。

 

图4训练和测试植物病害诊断模型的案例

选择梨树病害图像数据:用户可以从PlantPAD中选择梨树病害图像数据,构建一个全面的梨树病害数据库作为可用数据集。

数据集划分:将数据集划分为训练集、验证集和测试集,并对数据进行预处理,以获取模型训练所需的基本训练和验证数据。

训练Mask RCNN模型:使用Mask RCNN模型进行训练,以获得诊断植物病害所需的必要信息,例如类别、位置和病害级别。用户可以采用损失函数和反向传播算法来提高模型的准确性,直到验证性能的数据不再改善为止。模型测试:一旦模型训练完成,就可以利用经过充分训练的模型来诊断真实数据或测试数据上的植物病害。

 

图5 植物病害数据库PlantPAD在植物学教学中的应用案例

教师可以在PlantPAD植物病害数据库中选择作物类别,比如玉米。选择作物类型:在所选的作物类别中,教师可以选择玉米的种类,并进行点击。查看玉米病害:一旦进入玉米病害页面,教师可以查看各种玉米植株疾病,并针对玉米的细菌性条纹病进行全面分析。学生可以通过PlantPAD迅速了解细菌性条纹病的定义、类型、结构、传播方式、发病期、生存条件和越冬方法等详细信息。

 

图6 在农作物保护领域中,使用PlantPAD具有重要意义

以辣椒炭疽病为例,在田间采集过程中,可以观察到辣椒叶片和根茎上的坏死病斑,伴随着不同颜色的分生孢子和同心圆形的穿孔环。为了确定病害类型,用户可以在PlantPAD数据库的浏览页面中选择蔬菜类别,并查看病变辣椒图片以进行对比。此外,通过直接检查病害类型分类,还可以识别出受感染的辣椒田地。此外,该数据库还提供了综合的辣椒炭疽病控制措施信息,包括化学、物理、生物和农艺方法。

 

 

来 源

Dong X, Zhao K, Wang Q, et al. PlantPAD: a platform for large-scale image phenomics analysis of disease in plant science[J]. Nucleic Acids Research, 2023: gkad917.

 

编辑

杨静静

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。