AgEval:使用多模式 LLM 进行植物胁迫表型分析的基准


发布时间:

2024-08-26

来源:

作者:

传统的植物胁迫表型分析依赖于专家评估和专门的模型,限制了在农业中的可扩展性。多模态大型语言模型(LLMs)的最新进展为这一挑战提供了潜在的解决方案。为了评估这些模型的能力,我们提出了一个包含12种不同植物胁迫表型任务的基准测试集AgEval。我们的研究评估了最新模型的0-shot和few-shot语境学习性能,包括Claude,GPT,Gemini和LLaVA。

 

实验结果表明,使用few-shot语境学习可以显著提高模型的性能,在8-shot样本识别中,性能最佳模型的F1值从46.24 %增加到73.37 %。来自数据集中其他类的few-shot样本的影响可以忽略不计或负面影响,尽管拥有准确的类别样本可以提高15.38 %的分类性能。此外还量化了每个任务中不同类别之间模型表现的一致性,发现模型之间的变异系数(CV)在26.02 %到58.03 %之间,这意味着需要"困难"类别的主题专业知识来实现性能的可靠性。AgEval为农业应用中的多模式LLMs建立了基线指标,为其大规模提高植物胁迫表型的前景提供了见解。

 

图1 AgEval基准测试的概述

该图展示了不同类型的任务和特定问题的样本图像,代表了农业中不同的植物胁迫表型挑战。

 

表1:大型语言模型在Ageval基准上的0-Shot性能

(a)鉴别指标:F1分数(越高越好),黄色标注最低值、灰色标注次低值

 

(b)分类和量化-度量:Nmae(越低越好),黄色标注最低值、灰色标注次低值

 

表2:大型语言模型在Ageval基准上的8 - Shot性能

(a)鉴别指标:F1分数(越高越好),黄色标注最低值、灰色标注次低值

 

(b)分类和量化-度量:Nmae(越低越好),黄色标注最低值、灰色标注次低值

 

表3:few-shot学习:至少有1个与真实情况相同类别的示例(Bullseye示例)的影响

在1、2、4和8-shot的设置里绿色为最高值,粉色为最低值,平均影响值以粗体显示

 

图2 LLMs的0-shot比较性能

 

图3 LLMs的8-shot比较性能

 

图4 在各种数据集上进行0-shot、2-shot和8-shot设置的模型性能比较

F1分数是直接显示的,而NMAE是倒置的(10-NMAE),用于一致的可视化,值越高表明性能越好

 

图5 对执行LLMs排名前4的不同设置(0~8shot),比较AgLLM基准的单个任务的性能

这些曲线展示了每个任务的性能如何随着小样本数量的增加而演化,揭示了小样本学习能力中特定模型和特定任务的趋势

 

图6 F1得分的变异系数(CV)在模型和识别数据集之间的热图。

 

本研究通过AgEval基准测试评估了多模态大语言模型在植物胁迫表型任务上的表现,发现这些模型具有潜力且各具优势。未来的研究应扩大任务范围,增加镜头数量以提高性能,微调模型以增强一致性,并评估在实际农业环境中部署这些模型(计算成本、持续的数据更新、与现有农业系统的整合、碳足迹和数据隐私)所需的资源和影响。

 

来 源

Arshad, Muhammad Arbab et al. “AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs.” arXiv. July 29, 2024

 

编辑

郑静文

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。