无训练的ChatGPT和通用AI计数图片中的水果


发布时间:

2025-02-07

来源:

作者:

通用人工智能(AI)可以促进农业数字化,因为许多工具不需要编码。然而,与目前的标准实践相比,目前尚不清楚新兴的通用人工智能技术在执行农业数字化的基本任务——物体计数方面的表现如何。本研究发现ChatGPT (GPT4 V)在从图像中计算咖啡樱桃方面表现出中等的性能,而T-Rex(物体计数的基础模型)则表现出很高的准确性。使用100张图像进行测试,检查了ChatGPT可以计算樱桃,并且在人类反馈的情况下性能有所提高(R2分别为0.36和0.46)。T-Rex基础模型只需要少量样本进行训练,但优于传统的最佳实践模型YOLOv8 (R2分别为0.92和0.90)。使用这些模型获得结果的时间比传统最佳实践缩短了100倍。这些结果给应用领域的深度学习用户带来了两个惊喜:基础模型可以大大节省工作量并达到比传统方法更高的精度,ChatGPT可以显示出相对较好的性能,特别是通过提供一些示例和反馈来指导。对编码技能的不要求可以影响为支持农民而进行的教育、推广和生成式人工智能的实际实施。

 

图1  传统的深度学习、ChatGPT和基础模型计算樱桃的数量。(a)在Python中实现标准深度学习预测模型的示例,该示例需要使用大量图像进行编码和数据注释。(b) ChatGPT (gpt - 4v)只需要一个查询。在这个例子中,我们问:“在这幅图中可以看到多少颗樱桃?”,模型回答“10″”,并描述了图像的内容。(c) T-Rex是一个计数物体的基础模型,它需要用户画几个边界框来指导。在本例中,在指示计数(左)之后,模型在图像中识别出“11″樱桃”(右)。

 

图2  传统深度学习、ChatGPT和Foundation模型的性能比较。模型在以下方面进行了比较:(a)性能(图像中看到的观察到的樱桃数量和预测的樱桃数量之间的平方)和(b)完成计算樱桃数量所需的总时间,因为有了100张咖啡樱桃树枝的图像。在假设计数任务需要在拥有大量图像的情况下从头开始完成的情况下,YOLOv8为YOLOv8包含了手动图像注释任务。未经训练的基础模型T-Rex的性能超过了经过训练的最先进的目标检测算法YOLOv8模型。GPT-4还展示了计算樱桃数量的能力。

 

图3  比较预测和观察的散点图。(a) YOLOv8, (b) GPT-4 Zero-shot learning, (c)提供用户反馈的GPT-4, (d)目标计数基础模型T-Rex。

 

来 源

Mengsuwan, K., Rivera-Palacio, J.C., & Ryo, M. ChatGPT and general-purpose AI count fruits in pictures surprisingly well without programming or training. Smart Agricultural Technology. 2024, 9, 100688.

 

编辑

王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。