小麦育种多模态大语言模型:智能育种的新探索


发布时间:

2025-01-18

来源:

作者:

无人机遥感技术已成为作物育种中的一项关键技术,可实现作物表型数据的高通量、无损采集。然而,育种的多学科性质给知识挖掘带来了技术壁垒和效率挑战。因此,开发一种智能育种目标工具对跨域多模态数据的挖掘具有重要意义。基于Qwen-VL、InternVL、Deepseek-VL等不同的预训练开源多模态大型语言模型(MLLMs),采用监督微调(supervised fine-tuning,SFT)、检索增强生成(retrieval-augmented generation,RAG)和人类反馈强化学习(reinforcement learning from human feedback,RLHF)等技术,将跨领域知识注入MLLMs,构建小麦育种多模态大型语言模型(large language models for wheat breeding,WBLMs))。上述WBLM采用本研究新建立的评价基准进行评价。结果表明,采用SFT、RAG和RLHF技术和InternVL2-8B构建的WBLM具有领先的性能。然后,使用WBLM进行后续实验。消融实验表明,SFT、RAG和RLHF技术的结合可以提高整体生成性能,提高生成质量,平衡生成答案的时效性和适应性,减少幻觉和偏差。WBLM同时利用遥感、表型、天气、种质等多域数据进行小麦产量预测的效果最好,R2和RMSE分别为0.821和489.254 kg/ha。此外,WBLM还可以为表型估计、环境胁迫评估、目标种质筛选、栽培技术推荐和种子价格查询等任务提供专业的决策支持答案。本研究旨在为实现小麦育种目标提供智能化、集成化的解决方案,帮助育种工作高效开展,加快良种选育进程,为实现农业可持续发展和保障粮食安全提供科学依据和技术支撑。

 

图1  (a)实验场址。(b)多源数据采集。

 

图2  小麦育种多模态大语言模型的构建与应用。(a)多源数据集构建。(b)外部领域知识库建设。(c)使用监督微调、检索增强生成和基于人类反馈的强化学习来构建具有领域知识的WBLM。(d)将用户的问题(图文)发送到WBLM。(e)野生动植物保护组织回答这个问题。

 

图3  不同MLLMs在评价基准(准确率)上的比较。

 

图4  不同MLLMs在评价基准(稳定性)上的比较。

 

图5  不同MLLMs在评价基准(推理)上的比较。该图显示了单个MLLM多次测试后的总推理分数占所有分数的比例。

 

图6  不同领域知识技术组合方法对不同任务的预测性能。

 

图7  实测与预测小麦产量的交叉验证散点图。黑色实线表示1:1关系。紫色虚线右侧的蓝色点代表小麦产量超过4230.2 kg ha-1的种质。

 

图8  不同MLLMs的表型(产量)估计示例。

 

图9  不同MLLMs的目标种质筛选实例。

 

图10  不同MLLMs的环境胁迫评估举例。

 

图11  不同MLLMs的栽培技术推荐实例。

 

图12  不同MLLMs的查询种子价格的例子。

 

来 源

Yang, Guofeng, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo and Xuping Feng. (2024) Multimodal large language model for wheat breeding: a new exploration of smart breeding.

 

编辑

王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。