学术中心
AgEval:使用多模式 LLM 进行植物胁迫表型分析的基准
发布时间:
2024-08-26
来源:
作者:
传统的植物胁迫表型分析依赖于专家评估和专门的模型,限制了在农业中的可扩展性。多模态大型语言模型(LLMs)的最新进展为这一挑战提供了潜在的解决方案。为了评估这些模型的能力,我们提出了一个包含12种不同植物胁迫表型任务的基准测试集AgEval。我们的研究评估了最新模型的0-shot和few-shot语境学习性能,包括Claude,GPT,Gemini和LLaVA。
实验结果表明,使用few-shot语境学习可以显著提高模型的性能,在8-shot样本识别中,性能最佳模型的F1值从46.24 %增加到73.37 %。来自数据集中其他类的few-shot样本的影响可以忽略不计或负面影响,尽管拥有准确的类别样本可以提高15.38 %的分类性能。此外还量化了每个任务中不同类别之间模型表现的一致性,发现模型之间的变异系数(CV)在26.02 %到58.03 %之间,这意味着需要"困难"类别的主题专业知识来实现性能的可靠性。AgEval为农业应用中的多模式LLMs建立了基线指标,为其大规模提高植物胁迫表型的前景提供了见解。
图1 AgEval基准测试的概述
该图展示了不同类型的任务和特定问题的样本图像,代表了农业中不同的植物胁迫表型挑战。
表1:大型语言模型在Ageval基准上的0-Shot性能
(a)鉴别指标:F1分数(越高越好),黄色标注最低值、灰色标注次低值
(b)分类和量化-度量:Nmae(越低越好),黄色标注最低值、灰色标注次低值
表2:大型语言模型在Ageval基准上的8 - Shot性能
(a)鉴别指标:F1分数(越高越好),黄色标注最低值、灰色标注次低值
(b)分类和量化-度量:Nmae(越低越好),黄色标注最低值、灰色标注次低值
表3:few-shot学习:至少有1个与真实情况相同类别的示例(Bullseye示例)的影响
在1、2、4和8-shot的设置里绿色为最高值,粉色为最低值,平均影响值以粗体显示
图2 LLMs的0-shot比较性能
图3 LLMs的8-shot比较性能
图4 在各种数据集上进行0-shot、2-shot和8-shot设置的模型性能比较
F1分数是直接显示的,而NMAE是倒置的(10-NMAE),用于一致的可视化,值越高表明性能越好
图5 对执行LLMs排名前4的不同设置(0~8shot),比较AgLLM基准的单个任务的性能
这些曲线展示了每个任务的性能如何随着小样本数量的增加而演化,揭示了小样本学习能力中特定模型和特定任务的趋势
图6 F1得分的变异系数(CV)在模型和识别数据集之间的热图。
本研究通过AgEval基准测试评估了多模态大语言模型在植物胁迫表型任务上的表现,发现这些模型具有潜力且各具优势。未来的研究应扩大任务范围,增加镜头数量以提高性能,微调模型以增强一致性,并评估在实际农业环境中部署这些模型(计算成本、持续的数据更新、与现有农业系统的整合、碳足迹和数据隐私)所需的资源和影响。
Arshad, Muhammad Arbab et al. “AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs.” arXiv. July 29, 2024
编辑
郑静文
推荐新闻
视频展示