学术中心
用于植物表型分析的机器学习计算机视觉:AI/ML入门和气孔模式案例研究
发布时间:
2024-12-06
来源:
作者:
人工智能和机器学习(AI/ML)可用于自动分析大型图像数据集。该方法一个重要应用是估计图像中包含的植物性状数据。在此,我们回顾了39篇论文,这些论文介绍了从表皮显微照片估计气孔特征的模型的发展和/或应用。在此过程中,我们希望为植物生物学家提供对AI/ML的基本理解,并总结当前已发表工具的功能和局限性。虽然大多数模型在气孔密度(SD)量化方面表现出超出人类的水平,但它们在与遗传、环境或发育变异相关的表型多样性中应用的范围往往受到限制。其他模型可以预测更大的表型多样性和/或更多的气孔/表皮性状,但需要更多的时间投入来生成基本事实数据。我们讨论了基于AI/ML的计算机视觉分析所带来的挑战和机遇,并对未来推进加速气孔表型分析的工作提出了建议。
ML是人工智能的一个子领域,其中的决策以统计函数的形式表示,决策是通过对真实数据的训练来学习的。根据在标记数据还是在原始数据上进行训练,ML算法可大致分为监督学习算法和非监督学习算法。目前至少有39项研究探索了如何通过将ML工具应用于叶表皮的显微图像以快速分型来加速数据分析。
图1 植物气孔的生物多样性
A) Aglaia cucullata,热带树种。B) 拟南芥。C) 玉米。D) 大豆。E) 油棕。F) 藜麦。G) 开放式双子叶植物气孔复合体示例。H) 开放的单子叶气孔复合体示例。gc=防护细胞(绿色),sc=附属细胞(蓝色),a=孔径
图2 39篇论文综述
A) 用于模型训练的 56 个独特物种的直方图。括号中的数字代表该类物种的数量。B) 取样技术饼图。括号中的数字代表该类别论文的数量。C) 成像方法饼图。括号中的数字代表该类论文的数量。D) 性状输出直方图。(SD=气孔密度,SCL=气孔复合体长度,SCW=气孔复合体宽度,SCA=气孔复合体面积,SI=气孔指数,PCD=路面细胞密度,PCA=路面细胞面积,PCL=路面细胞长度,PCW=路面细胞宽度)
图3 工作流说明了构建机器学习模型的过程
用显微镜对植物材料进行取样和成像。这些图像被分为训练、验证和测试数据集。所有三个数据集的真实数据都是手动生成的。对所有图像应用可选滤波来增强图像质量,也可以利用数据增强来丰富训练数据集。训练包括模型对训练和验证数据集进行预测的周期,通过与地面真实数据的比较来评估性能,以及仅基于验证数据集的结果调整模型,构成一个历元。训练在多次迭代后结束,最终的模型可以应用于测试数据集并评估其性能
图4 目标检测中的查全率和查准率
灰色椭圆表示真实数据中发现的单个气孔。黄色圆圈表示模型预测的气孔位置。蓝色矩形表示假阳性预测,即有模型预测而没有真实对象。粉色矩形代表假阴性预测,即模型没有预测到地面实况对象。黄色圆圈和无矩形的气孔表示真阳性。A) 高精确度和高召回率模型的性能示例。B) 低精确度和高召回率模型的性能示例。C) 高精确度和低召回率模型的性能示例。D) 低精确度和低召回率模型的性能示例
图5 通过不同的采样和成像方法获得的草地图像
A)共聚焦显微镜拍摄的玉米叶片样本。B) 便携式光学显微镜拍摄的玉米活体叶片。C) 用光学显微镜拍摄的玉米漆皮。D) 用扫描电镜拍摄的水稻叶片样本
图6 基于机器学习分析的模型输出
A) 蚕豆气孔检测和开闭状态分类。B) 黑杨气孔细分。C) 高粱气孔复合体分割。D) 玉米气孔复合体和铺层细胞实例分割
图7 深度学习对象检测算法的类型
根据图像处理流程对已发表论文中出现的常见 DL 算法进行分类(改编自 Viswanatha 等人,2022 年)
Grace D Tan, Ushasi Chaudhuri, Sebastian Varela, Narendra Ahuja, Andrew D B Leakey. (2024). Machine learning-enabled computer vision for plant phenotyping: a primer on AI/ML and case study on stomatal patterning. Journal of Experimental Botany, erae395.
编辑
王三十
推荐新闻
视频展示