小麦育种多模态大语言模型：智能育种的新探索-慧诺瑞德（北京）科技有限公司|叶绿素荧光|光合作用|植物表型

学术中心

全部分类

小麦育种多模态大语言模型：智能育种的新探索

发布时间：

2025-01-18

来源：

作者：

无人机遥感技术已成为作物育种中的一项关键技术，可实现作物表型数据的高通量、无损采集。然而，育种的多学科性质给知识挖掘带来了技术壁垒和效率挑战。因此，开发一种智能育种目标工具对跨域多模态数据的挖掘具有重要意义。基于Qwen-VL、InternVL、Deepseek-VL等不同的预训练开源多模态大型语言模型（MLLMs），采用监督微调（supervised fine-tuning，SFT）、检索增强生成（retrieval-augmented generation，RAG）和人类反馈强化学习（reinforcement learning from human feedback，RLHF）等技术，将跨领域知识注入MLLMs，构建小麦育种多模态大型语言模型（large language models for wheat breeding，WBLMs)）。上述WBLM采用本研究新建立的评价基准进行评价。结果表明，采用SFT、RAG和RLHF技术和InternVL2-8B构建的WBLM具有领先的性能。然后，使用WBLM进行后续实验。消融实验表明，SFT、RAG和RLHF技术的结合可以提高整体生成性能，提高生成质量，平衡生成答案的时效性和适应性，减少幻觉和偏差。WBLM同时利用遥感、表型、天气、种质等多域数据进行小麦产量预测的效果最好，R2和RMSE分别为0.821和489.254 kg/ha。此外，WBLM还可以为表型估计、环境胁迫评估、目标种质筛选、栽培技术推荐和种子价格查询等任务提供专业的决策支持答案。本研究旨在为实现小麦育种目标提供智能化、集成化的解决方案，帮助育种工作高效开展，加快良种选育进程，为实现农业可持续发展和保障粮食安全提供科学依据和技术支撑。

图1 (a)实验场址。(b)多源数据采集。

图2 小麦育种多模态大语言模型的构建与应用。(a)多源数据集构建。(b)外部领域知识库建设。(c)使用监督微调、检索增强生成和基于人类反馈的强化学习来构建具有领域知识的WBLM。(d)将用户的问题（图文）发送到WBLM。(e)野生动植物保护组织回答这个问题。

图3 不同MLLMs在评价基准（准确率）上的比较。

图4 不同MLLMs在评价基准（稳定性）上的比较。

图5 不同MLLMs在评价基准（推理）上的比较。该图显示了单个MLLM多次测试后的总推理分数占所有分数的比例。

图6 不同领域知识技术组合方法对不同任务的预测性能。

图7 实测与预测小麦产量的交叉验证散点图。黑色实线表示1:1关系。紫色虚线右侧的蓝色点代表小麦产量超过4230.2 kg ha-1的种质。

图8 不同MLLMs的表型（产量）估计示例。

图9 不同MLLMs的目标种质筛选实例。

图10 不同MLLMs的环境胁迫评估举例。

图11 不同MLLMs的栽培技术推荐实例。

图12 不同MLLMs的查询种子价格的例子。

来源

Yang, Guofeng, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo and Xuping Feng. (2024) Multimodal large language model for wheat breeding: a new exploration of smart breeding.

编辑

王春颖

推荐新闻

石时之约|韩志国：透过表型数据，看见植物的喜怒哀乐！

本期石时之约，我们将对话慧诺瑞德（北京）科技有限公司总经理、国际植物表型学会（IPPN）执委会委员/工业分会副主席韩志国，一起从表型数据的科学角度，去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起，为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种，是在给定的环境条件下，选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种，从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选，是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”，要在肉眼可见之前就能测量并预判出变化趋势，才是这个技术的核心价值。叶绿素荧光成像，恰好满足了这个要求。

视频展示