利用高光谱对橡胶树叶片氮磷分类时处理小规模标记数据和类别不平衡的挑战


发布时间:

2024-04-21

来源:

作者:

橡胶树(橡胶树品系)的营养状况与天然橡胶的生产密不可分,橡胶树叶片中的氮( N )和钾( K )含量是反映橡胶树营养状况的两个重要指标,先进的高光谱技术可以快速评估橡胶叶片中氮( N )和钾( K )的含量,然而,当使用小规模且不平衡的数据集训练谱估计模型时,会产生高偏差和不确定的结果。典型的长期营养元素胁迫和高密集数据收集的解决方案与高光谱技术快速灵活的优势相背离,因此,评估了一种不那么密集和精简的方法,即从高光谱图像( HSI )数据中重新挖掘信息。在这个新的视角下,半监督学习( SSL )方法和重采样技术被用于生成伪标记数据( PL )和类再平衡。随后,建立了橡胶树叶片N、K状况的五分类光谱模型。基于随机森林分类器( RFC )和平均采样( MES )技术的SSL模型在不平衡/平衡数据集(加权平均精度( WAP ))上获得了最佳分类结果( 67.8 / 78.6 % ),宏平均精度( MAP )为61.2 / 74.4 %,加权召回率( WR )为65.7 / 78.5 % ( N状态)。所有的数据和代码都可以在https://github.com/WeehowTang/SSL-rebalancingtest.上查看,最终,我们提出了一种高效的方法来快速准确地监测橡胶叶片中的N和K水平,特别是在小注释和类别比例不平衡的情况下。

 

图1 样本采集的工作流程

( a )研究的地理位置,( b )无人机拍摄的图像,( c )采集的样本,

( d )研究中使用的系统,( e )拍摄的叶片图像的HSI立方体

 

图2 ( a )是未标记的HSIs像素数据和标记的平均光谱之间相似性分布的热图 ( b )是平均平均谱  ( c )是经过Savitzky - Golay滤波器变换后的谱曲线

 

图3 提出基于再平衡过程的自训练过程

 

图4 K分类中使用不同重采样方法的再平衡过程直方图,0 - 4类分别表示"很低"、"低"、"适当"、"高"和"很高"类

 

图5 使用不同重采样方法和使用不同基分类器的混淆矩阵热图

前两行是使用不同重采样方法的结果,后两行是使用不同基分类器的结果

 

图6 具有四个关键波段的高光谱图像的分类结果

 

图7 ( a )-( f )的图是使用反向重采样过程的训练样本在三维空间中的LDA投影散点图,

( g ) - ( j )图表示光谱波长对N和K元素的响应图

 

来 源

Wenfeng Hu, Weihao Tang, Chuang Li. et al. Handling the challenges of small-scale labelled data and class imbalances in classifying the N and K statuses of rubber leaves using hyperspectroscopy techniques. Plant Phenomics. 0:DOI:10.34133/plantphenomics.0154

 

编辑

王瑞丹

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。