InsectNet:基于端到端机器学习管道实时识别昆虫


发布时间:

2025-03-14

来源:

作者:

昆虫对全球农业生产力和作物质量有显著影响,有效的害虫管理策略需要能够识别包括有益和有害昆虫在内的各种昆虫。在现实条件下自动识别昆虫面临诸多挑战,如种内差异、种间相似性、生命周期阶段、伪装、成像条件多样性以及昆虫方向变化等。InsectNet模型:提出了一种端到端的深度学习模型训练方法,使用公民科学收集的大量昆虫图像数据集和无标签的自监督学习来训练全局模型。通过更小的、专家验证的区域数据集对全局模型进行微调,创建局部昆虫识别模型。即使对于样本量小的物种,也能提供高预测精度,设计增强模型可信度,通过简化机器学习操作(MLOps)实现民主化访问。

 

从iNaturalist数据集中选取了2526种与农业和生态相关的昆虫物种的600万张图像,这些图像由领域专家策划和质量检查。利用SSL方法,使模型能够在不需要任何标签的情况下学习数据集的有用特征,随后使用更小的标注数据集进行微调。InsectNet在2526种昆虫物种分类上展现出超过96%的分类准确率,远高于之前最佳分类器的77.1%。提供细粒度的昆虫物种识别,在具有挑战性的背景下也能有效工作,并且在不确定时避免做出预测,提高了其实用性和可信度。通过OOD检测和符合预测方法,增强了模型在面对不确定数据时的鲁棒性,允许在必要时进行干预和决策。通过网络门户提供模型和相关工作流程的访问,使得农业社区能够采用和利用这些方法。
 
低样本量物种的性能,即使在每个物种只有10张图像的情况下,InsectNet也能通过微调达到较高的准确率,显示了其在处理低样本量物种时的鲁棒性。InsectNet在多种挑战性场景下表现出色,包括大量昆虫物种的识别、昆虫大小的变化、种内差异、种间相似性、昆虫伪装和多样化背景、性别二态性、昆虫方向和姿态的变化以及图像中存在多只昆虫的情况。InsectNet在国际口岸或边境检查中的昆虫监测和监控以及跟踪昆虫物种在国内的传播和移动方面具有潜在应用价值。InsectNet作为一个强大的工具,不仅在昆虫识别方面表现出色,还为农业和生态保护提供了新的技术手段。科学和机器学习的结合,InsectNet有望在未来的昆虫研究和管理中发挥重要作用。
 

图1. InsectNet分类器的端到端管道由三个部分组成:训练、推理和亲民性

InsectNe分类器是一个三重过程,包括两个级别的预训练,使用36亿张图片(Instagram标签(SWAG))和12张分别是100万张图像(未标记),600万张标记图像。推理过程中,用户上传捕获的图像,分类器模型通过两个包装器模块进行处理:分发外模块和保形预测模块。充分训练的带有包装器模块的分类器部署在一个公开可用的web应用程序上,以及它如何用于自定义下游任务。

 

 图2. InsectNet运行

上传图像后,InsectNet ffrst执行分布外(OOD)检测。(左)如果OOD检测为真,InsectNet提供预警和预测功能。(中)如果不是OOD,InsectNet会产生没有警告的预测。(右)另外,InsectNet提供保形集的预设置信度(此处为81.0%)。案例中,上面的图像属于昆虫品种Trichoplusia ni。右边的ffgure足以让InsectNet预测两个密切相关物种的保形集合。

  

表1:展示SSL模型的有效性,并演示了如何利用少量样本(k = 10,20和50)到ffne调优SSL预训练的InsectNet产生良好的准确性。标签的下游任务中特别有价值数据稀缺,实验的top-1分类精度

 

表2:全局和局部ffnetuning的精度比较并从随机权重中训练局部模型

 

 图3. InsectNet鉴别

(a)非本土捕食物种异色瓢虫(Harmonia axyridis,亚洲瓢虫)的种内差异,(b)非本地亚洲瓢虫和本地瓢虫的捕食者种类之间差异,(c)非本土捕食物种亚洲瓢虫和有害昆虫墨西哥角甲虫(墨西哥豆甲虫)具有相似的特征(所有的图案变化在ffgure中没有显示),(d)外观相似的甲虫popillijaponica(日本甲虫)的种间相似性和不同种类的臭蝽。

 

 图4. InsectNet对分类精度低的物种分类性能

 
来 源

Shivani Chiranjeevi, Mojdeh Saadati, Zi K Deng, Jayanth Koushik, Talukder Z Jubery, Daren Mueller, Matthew E O'Neal, Nirav Merchant, Aarti Singh, Asheesh K Singh, Soumik Sarkar, Arti Singh, Baskar Ganapathysubramanian, InsectNet: Real-time identification of insects using an end-to-end machine learning pipeline, PNAS Nexus, 2024;, pgae575,

 

编辑

杨静静

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。