学术中心
信息学习引导作物病害视觉问答模型
发布时间:
2025-01-15
来源:
作者:
在现代农业中,专家针对不同作物的不同疾病阶段制定预防和补救策略。关于疾病发生阶段的决策超出了单图像任务的能力,例如图像分类和目标检测。因此,目前的研究重点是训练视觉问答(Visual Question Answering,VQA)模型。然而,现有的研究集中在识别疾病种类,而不是制定包含多关键属性的问题。此外,模型性能容易受到模型结构和数据集偏差的影响。为了应对这些挑战,开展了信息学习引导的作物病害视觉问答模型(Informed Learning guided Visual Question Answering Model of Crop Disease,ILCD)。ILCD通过集成共同关注、多模态融合模型(Multimodal Fusion Model,MUTAN)和偏置平衡策略(Bias-Balancing Strategy,BiBa)来提高模型性能。为了方便研究作物病害的各种视觉属性和确定病害发生阶段,建立了一个新的VQA数据集,称为具有先验知识的作物病害多属性VQA(CDwPK-VQA)。该数据集包含各种视觉属性的综合信息,如形状、大小、状态和颜色。通过将先验知识集成到CDwPK-VQA中来扩展数据集,以解决性能挑战。利用ILCD对VQA-v2、VQA-CP v2和CDwPK-VQA数据集进行对比实验,准确率分别为68.90%、49.75%和86.06%。在CDwPK-VQA上进行消融实验,评估Co-Attention、MUTAN、BiBa等模块的有效性。这些实验表明,ILCD在农业领域具有最高的准确性、性能和价值。源代码可以访问:https://github.com/SdustZYP/ILCDmaster/tree/main。
图1 属性信息包含在CDwPK-VQA中。与任务规范一致,在CDwPK-VQA中定义了上述属性,其中包括颜色、形状、大小、疾病类型和作物类型等特征。
图2 知情学习的概念。CDwPK-VQA集成到VQA模型中,构成了两个信息源的融合。作物病害先验知识数据集包括带目标区域标注的图像和相应的问答对。
图3 ILCD模型。利用引入的先验知识作物病害多属性VQA数据集(CDwPK-VQA)作为输入。
图4 注意机制的组成部分。(a):自我注意单元(SA)。(b):引导注意单元(GA)。(c):模组化共同注意层(Modular Co-Attention Layer,MCA)。(d):模块化共同注意网络(MCAN)。
图5 BiBa的策略。为了减少VQA模型在生成答案时依赖统计模式的倾向,在训练过程中将注意力转移到图像信息上。这种方法将有助于减少数据集中存在的固有单峰偏差。
图6 对比实验的可视化。参与模型在“VQA-CP v2”、“VQA-v2”和“CDwPK-VQA”上的表现从左到右可视化。
图7 实验结果的可视化。(a)和(b)中的可视化描述了在引入先验知识和不同单峰偏差策略的情况下进行的消融实验。
图8 不同层数的MCAN消融实验线形图。重点分析了MCAN的层数与模型精度趋势和参数数之间的关系。
图9 建立注意力可视化模型。该模型根据不同的问题调整图像中的注意区域。
图10 模型性能的定性分析。左边是CDwPK-VQA训练集的答案分布,测试集上评估的基线模型,以及ILCD的答案分布。在右侧,不同模型的注意力热图在不同的问题模式中显示。
Zhao Y.P., Wang S.S. et al. Informed-Learning guided Visual Question Answering Model of Crop Disease. Plant Phenomics (2024).
编辑
王春颖
推荐新闻
视频展示