随机反射率:提高机器学习算法精度的高光谱数据预处理方法


发布时间:

2025-05-22

来源:

作者:

高光谱植物表型分析是一种广泛应用于农业、林业、食品加工、医学和植物育种等领域的方法,可以用于获取大量光谱和空间信息。然而,这种方法也有其固有局限性,比如噪音和冗余信息。

 

本研究旨在评估随机反射率(Random Reflectance,RR)用于植物种类分类性能,即通过从高光谱图像中感兴趣区域(Region Of Interest,ROI)的原始数据随机选择每个光谱带(Spectral Band,SB)的值合成人工光谱剖面(Spectral Profiles,SPs)。本研究目的是使用随机森林(Random Forest,RF)和梯度提升(Gradient Boosting,GB)算法测试用于植物物种分类任务的RR方法,并将其性能与最小最大归一化(Min-Max Normalization,MMN)和主成分分析(Principal Component Analysis,PCA)进行比较。由2021年至2024年每7-10天采集的三种不同枫树叶片的近超光谱(Hyperspectral Imaging,HSI)图像获取试验数据。
 
结果显示,在随机光谱带上没有光谱信息的损失;反射率的最小值、最大值、平均值、中值和标准偏差值保持不变。RF算法显示,2021年至2024年F1得分分别相对增加了8.8%、9.7%、11.3%、11.8%。GB算法呈现出类似的趋势:2021年至2024年F1得分分别相对增加了6.5%、13.2%、16.5%、17.4%。并且已经证明,当使用最大似然算法对物种进行分类时,使用MMN和PCA对超光谱数据进行预处理不会提高精度。后续工作将阐明RR方法结合RF和GB算法的机械原理。
 
综上,RR方法已被证明可以解决超光谱数据中的多重共线性问题。合成人工光谱可用于促进类别平衡和增加样本量,尤其是当原始数据量少或难以获得时。未来研究将集中在建立物种分类的准确性和其物候状态之间的联系。
 

 图1. 本研究技术路线

 

 图2. 三种枫树原始SP (a)和合成SP (b)的平均反射率分布

 

 图3. 2023年8月15日三种枫树叶片的SP在前两个主成分上的投影:(a)原始SP;(b)合成SP

 

 图4. 原始(a)和合成(b) SPs的SBs值的成对决定系数矩阵

 

 图5. 利用原始、合成、MMN和PCA预处理后的光谱数据对三种枫树叶片进行GB分类的F1值

 

 图6. 利用原始(a)、合成(b)、MMN (c)和PCA(d)预处理光谱数据对枫树进行RF分类的OOB误差率

 

图7. 利用原始(a)、合成(b)、MMN (c)和PCA(d)预处理光谱数据对对三种枫树叶片进行RF分类的F1值

 

 
来 源

Dmitriev, P.A.; Dmitrieva, A.A.; Kozlovsky, B.L. Random Reflectance: A New Hyperspectral Data Preprocessing Method for Improving the Accuracy of Machine Learning Algorithms.AgriEngineering 2025, 7, 90. https://doi.org/10.3390/ agriengineering7030090 

 

编辑

JAYz

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。