利用生成模型合成的训练数据集提高植物病害分类精度


发布时间:

2023-04-06

来源:

植物表型资讯

作者:

PhenoTrait

农业的数字化需要对人工智能在不同专业领域的应用进行研究。其中,数据集的数量和质量是影响模型性能最为关键的因素。本研究旨在探索应用图像合成技术缓解数据量对数字植物病害表型精度的限制。本研究利用来自Plant-Village数据集(Plant Village, n.d.)的两类番茄数据——健康数据和细菌斑病数据,基于深度卷积生成对抗网络( DC-GAN )合成真实的数据,其中1272个实例(80%)和318个实例(20%)进行训练和测试。并在原始细菌斑病训练数据集(A)上进行了(不同时期)的训练。使用选定的模型生成了三批合成细菌斑病训练数据集,即D1、D2和D3。接下来,在原始健康番茄训练数据集(B)上训练相同的DC-GAN算法(也有不同的时期),并使用选定的模型生成三批合成健康番茄训练数据集(D4、D5和D6)。通过比较原始数据集和各种合成数据集的分类精度。结果表明,第三个DC - GAN合成的训练数据集(包含3816个同时包括健康和细菌性斑点病番茄叶类的合成样本)优于包含1272个(包含健康和细菌性斑点病番茄叶类)真实样本的原始训练数据集。另外,在带dropout正则化和1个迭代的3块VGG CNN模型上的准确率为77.088 % )。

 

本研究及其结果为生成式对抗网络在提高植物疾病分类器精度方面的应用引入了新的思路,今后工作的重点应放在基于可以合成的数据集完全替换原始数据集上。

 

图1. 9个来自细菌性斑点病类别和9个来自健康类别的实例

 

图2. 本研究中使用的CNN的架构

 

图3. 在原始数据集和DC-GAN合成的健康实例;在原始数据集和DC-GAN合成的细菌斑点病样品。

 
 
来 源
Albert, Bille,E.T., Eddy,N. et al. Improvement of plant disease classification accuracy with generative model-synthesized training datasets. Research in Biotechnology (2023). DOI: 10.25081/rib.2023.v14.8214
 

编辑

当代电影大师
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。