Sowing Intelligence:机器学习和深度学习预测作物产量


发布时间:

2024-11-15

来源:

作者:

确保全球粮食安全需要精确的作物产量预测,以便进行知情的农业规划和资源分配。本文使用一个综合的、多年的、多地区的数据集调查了温度、降雨和农药施用对作物产量的影响。本研究首次严格比较了15种不同算法的有效性,这些算法包括已建立的机器学习和深度学习架构,特别是循环神经网络(Recurrent Neural Network,RNN),用于构建鲁棒的CYP模型。通过严格的实验和超参数调整,旨在确定最优的模型,以准确地预测产量。利用了一个包含各种农业属性的综合数据集,包括地理坐标、作物品种、气候参数和农业实践。为了保证模型的有效性,本文对数据进行了预处理,处理分类变量,标准化数值特征,并将数据划分为不同的训练集和测试集。实验评估表明,随机森林达到了最高的精度,令人印象深刻(R²=0.99)。然而,XGBoost提供了一个令人信服的权衡,其精度略低(R²=0.98),但训练和推理时间显著加快(分别为0.36秒和0.02秒),使其适合计算资源有限的现实场景。虽然XGBoost在本次调查中成为最有效、最准确的解决方案,但也探索了深度学习方法(包括RNN)在作物产量预测方面的潜力,为未来更高精度的研究铺平了道路。

 

图1  各特征的异常值分析。(a)作物产量的异常值分析,(b)降雨量的异常值分析,(c)农药的异常值分析,(d)温度的异常值分析。

 

图2  农业变量相关系数热图。

 

图3  作物产量分布的降雨量和国家。

 

图4  各国农作物产量分布(箱线图)。

 

图5  探索与各种可视化的关系。(a)样本国家平均作物产量的比较,(b)作物类型平均作物产量的比较,(c)温度对作物产量的影响,(d)降雨对作物产量的影响,(e)农药对作物产量的影响,(f)前15个国家的时间分析。

 

图6  1990-2013年各时期平均作物产量。

 

图7  多层面的作物产量预测模型。

 

图8  各性能指标比较。(a)各作物产量预测算法间MSE值比较,(b)各作物产量预测算法间R2值比较,(c)各作物产量预测算法间MAE值比较,(d)各作物产量预测算法训练时间比较,(e)各作物产量预测算法推理时间比较,(f)各作物产量预测算法内存使用情况比较。

 

图9  性能深度学习配置的可视化。(a)最终训练损失vs模型复杂性,(b)最终验证损失vs模型复杂性,(c)验证MSE vs模型复杂性,(d)验证r平方vs模型复杂性,(e)验证MAE vs模型复杂性。

 

来 源

S Jayanthi, D Tamil Priya, Naresh Goud M et al. Sowing Intelligence: Advancements in Crop Yield Prediction Through Machine Learning and Deep Learning Approaches, 27 September 2024, under review.

 

编辑

王春颖

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。