AgEval：使用多模式 LLM 进行植物胁迫表型分析的基准-慧诺瑞德（北京）科技有限公司|叶绿素荧光|光合作用|植物表型

学术中心

全部分类

AgEval：使用多模式 LLM 进行植物胁迫表型分析的基准

发布时间：

2024-08-26

来源：

作者：

传统的植物胁迫表型分析依赖于专家评估和专门的模型，限制了在农业中的可扩展性。多模态大型语言模型（LLMs）的最新进展为这一挑战提供了潜在的解决方案。为了评估这些模型的能力，我们提出了一个包含12种不同植物胁迫表型任务的基准测试集AgEval。我们的研究评估了最新模型的0-shot和few-shot语境学习性能，包括Claude，GPT，Gemini和LLaVA。

实验结果表明，使用few-shot语境学习可以显著提高模型的性能，在8-shot样本识别中，性能最佳模型的F1值从46.24 %增加到73.37 %。来自数据集中其他类的few-shot样本的影响可以忽略不计或负面影响，尽管拥有准确的类别样本可以提高15.38 %的分类性能。此外还量化了每个任务中不同类别之间模型表现的一致性，发现模型之间的变异系数（CV）在26.02 %到58.03 %之间，这意味着需要"困难"类别的主题专业知识来实现性能的可靠性。AgEval为农业应用中的多模式LLMs建立了基线指标，为其大规模提高植物胁迫表型的前景提供了见解。

图1 AgEval基准测试的概述

该图展示了不同类型的任务和特定问题的样本图像，代表了农业中不同的植物胁迫表型挑战。

表1：大型语言模型在Ageval基准上的0-Shot性能

（a）鉴别指标：F1分数(越高越好)，黄色标注最低值、灰色标注次低值

（b）分类和量化-度量：Nmae(越低越好)，黄色标注最低值、灰色标注次低值

表2：大型语言模型在Ageval基准上的8 - Shot性能

（a）鉴别指标：F1分数(越高越好)，黄色标注最低值、灰色标注次低值

（b）分类和量化-度量：Nmae(越低越好)，黄色标注最低值、灰色标注次低值

表3：few-shot学习：至少有1个与真实情况相同类别的示例（Bullseye示例）的影响

在1、2、4和8-shot的设置里绿色为最高值，粉色为最低值，平均影响值以粗体显示

图2 LLMs的0-shot比较性能

图3 LLMs的8-shot比较性能

图4 在各种数据集上进行0-shot、2-shot和8-shot设置的模型性能比较

F1分数是直接显示的，而NMAE是倒置的（10-NMAE），用于一致的可视化，值越高表明性能越好

图5 对执行LLMs排名前4的不同设置（0~8shot），比较AgLLM基准的单个任务的性能

这些曲线展示了每个任务的性能如何随着小样本数量的增加而演化，揭示了小样本学习能力中特定模型和特定任务的趋势

图6 F1得分的变异系数（CV）在模型和识别数据集之间的热图。

本研究通过AgEval基准测试评估了多模态大语言模型在植物胁迫表型任务上的表现，发现这些模型具有潜力且各具优势。未来的研究应扩大任务范围，增加镜头数量以提高性能，微调模型以增强一致性，并评估在实际农业环境中部署这些模型（计算成本、持续的数据更新、与现有农业系统的整合、碳足迹和数据隐私）所需的资源和影响。

来源

Arshad, Muhammad Arbab et al. “AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs.” arXiv. July 29, 2024

编辑

郑静文

推荐新闻

石时之约|韩志国：透过表型数据，看见植物的喜怒哀乐！

本期石时之约，我们将对话慧诺瑞德（北京）科技有限公司总经理、国际植物表型学会（IPPN）执委会委员/工业分会副主席韩志国，一起从表型数据的科学角度，去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起，为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种，是在给定的环境条件下，选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种，从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选，是最耗人力物力的过程。

作物生理表型测量基础原理