基于机器学习与计算机视觉技术的SMC数据高通量表型分析研究


发布时间:

2024-07-29

来源:

作者:

高通量表型分析是指对植物表型进行无损、高效的分析。近年来,它与机器学习相结合,通过提高处理大型数据集的效率和开发特定性状提取方法来优化植物表型的分析过程。虽然过去的研究通过应用深度神经网络和自动拍照技术取得了进展,但所使用的数据集往往不包含物理标签。在这项研究中,使用了橡树岭国家实验室提供的一个数据集,其中包含 1672 张带有白色标签的毛果杨图像,标签上标注了处理(对照或干旱)、区块、行、位置和基因型等信息。采用光学字符识别(OCR)技术读取植株上的标签信息,并利用图像分割技术和机器学习算法进行形态分类。基于这些分类,利用机器学习模型预测处理,并分析编码的EXIF标签以寻找叶片大小和表型之间的相关性。研究发现, OCR 模型在非空文本提取方面的准确率达到了 94.31%,这使得信息能够准确无误地被记录在电子表格中。该分类模型识别叶片形状、颜色和棕色斑点程度的平均准确率为 62.82%,识别植物处理的准确率为 60.08%。最后,我们发现 EXIF 标签中缺少一些关键信息,导致无法评估叶片大小。此外,由于信息缺失,也无法评估表型与条件之间的相关性。然而,未来的研究可以在此基础上进行改进,以便对这些特征进行评估。这项研究表明,在高通量表型分析中结合使用机器学习和计算机视觉,可以有效地分析大型植物数据集,实现更全面的植物表型分析。这种方法在各种农和环境应用中显示出了巨大的潜力。

 

图1 不同版本的图学字符识别的尝试。

 

图2 用于叶片近似的图像变换管道,从左到右读取,最后一幅图像显示检测到的轮廓。

 

图3 从图像处理的叶片近似到 SAM/ONNX Runtime 的过滤叶片分割(适合分类的绿色叶片)。

 

图4 叶形参考文献来自 Nakano (2020) 的文章。

 

表1 采用单次编码的列变换示例,左侧为原始列,右侧为编码列。

 

图5 使用编码的EXIF GPS数据绘制所有植物的地理分布图。

 

表2 保存到步骤 1 电子表格中的前五行数据,为节省空间省略文件名。

 

表3 表 2 的延续,添加了步骤 2 的形态学数据。

 

图6 叶色预测器测试数据的混淆矩阵。

 

图7 叶形预测器测试数据的混淆矩阵。

 

图8 棕色斑点水平预测器测试数据的混淆矩阵。

 

图9 治疗预测模型的混淆矩阵。

 

来 源

Singhvi, V., Lunga, L., Nidhi, P., et al. “High-Throughput Phenoty using Computer Vision and Machine Learning SMC Data Challenge #1.” Computer Vision and Pattern Recognition(2024).

 

编辑

小安

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。