学术中心
农业疾病诊断中集成深度学习的视觉问答:小麦锈病案例研究
发布时间:
2024-12-27
来源:
作者:
小麦锈病是一种普遍存在的破坏性病害,严重影响全球小麦生产,高精度的快速检测具有挑战性。本文基于WheatRustDL2024数据集(7998张健康和感染叶片的高分辨率图像),将深度学习(Deep Learning,DL)与视觉问答(Visual Question Answering,VQA)相结合,提出了一种针对小麦锈病检测的全新的诊断方法。
作者利用小麦锈病检测的VQA设计检索联邦学习服务器上的初始权值,注释了锈病感染存在、类型和严重程度;使用Flower对训练好的模型进行联邦,选择ResNet作为中心模型建立了一个普遍适用的模型。结果显示:①在现有数据上微调ResNet的准确率达到了97.69%。②实现了BLIP(Bootstrapping Language-Image Pre-training)方法,使模型能够理解复杂的视觉和文本输入,从而提高生成的准确性和相关性。结合双重注意力机制与BLIP,使模型能够同时关注相关图像区域和问题部分。③基于增强数据集创建了一个包含1800张增强图像及相关问答对的自定义数据集(WheatRustVQA),该模型在数据集测试分区上获取的平均BLEU分数为0.6235。这种轻量级的联邦模型可直接集成到移动网络和无人机。
DL与VQA在农业疾病诊断中的集成代表了精准农业的重大进步。本研究结果证明了BLIP方法与VQA模型的集成能够显著提高小麦锈病检测准确性,这为未来植物病理学研究和应用奠定了基础,有助于解决粮食安全问题。作者强调,未来工作应侧重于数据集的扩展,探索多种疾病模型,并将该技术集成到实时现场使用的移动应用程序中。
图1. a.本研究工作流程示意图;b.核心模型详细结构图
图2. 每一类小麦叶片“褐锈”、“黄锈”、“健康叶片”样本图像
图3. 基于微调BLIP的VQA工作流程
图4. ResNet 50和152的准确度和损耗曲线
图5. VQA模型中使用的一些问答说明
表1. 深度学习模型在原始数据集上的准确性

Nanavaty, A., Sharma, R., Pandita, B. et al. Integrating deep learning for visual question answering in Agricultural Disease Diagnostics: Case Study of Wheat Rust. Sci Rep 14, 28203 (2024). https://doi.org/10.1038/s41598-024-79793-2
编辑
JAYz
推荐新闻
视频展示