利用机器学习对石松种群进行聚类和分类


发布时间:

2024-07-30

来源:

作者:

木本植物的表型代表其独特的形态特征。种群区分和个体分类对于种群繁殖和遗传多样性保护至关重要。机器学习(ML)算法作为预测表型的有力工具正受到越来越多的关注。本研究利用机器学习算法对石松(Pinus pinea L.)种群的种子和幼苗特征进行聚类和分类的方法。通过收集六个不同自然分布区域的石松种群的种子和幼苗数据,并应用k-均值算法进行聚类分析,发现理想聚类数为2,同时对六种监督学习算法(k-最近邻、朴素贝叶斯、支持向量机、C5.0、分类回归树和随机森林)进行分类性能评估。结果表明,随机森林算法在种子特征分类中表现最佳,而k-最近邻算法(k=18)在幼苗特征分类中表现最优。此外,通过主成分分析揭示了种子和幼苗特征的主要变异维度,并指出锥体重量和芽发育分别在种子和幼苗特征中最为重要。该研究为森林管理中的种群选择、遗传多样性保护和育种计划提供了科学依据。

 

图1 (a)地中海盆地石松分布图 (b)(修改自Caudullo等人,2021年)横跨Türkiye的6个天然石松林的地理位置(c)KO Kahramanmaras-Onsen,MK Muğla-Katrancı,AK Aydın-Koçarlı,IK İzmir-Kozak,TK Trabzon-Kalenema,CK Çanakkale-Kirazlı。石松的球果从授粉到成熟一般需要三年时间 (d)从石松球果中提取种子 (e)在苗圃中种植了6个不同种群的1年生石松幼苗 (f)Kahramanmaraş(KO)的石松天然林景观

 

表1 蒂尔基耶六种石松种群自然分布的地理和气候特征。P是年平均降雨量,单位为毫米;M是最热月份最大值的平均值;m是最冷月份最小值的平均值;PE是6、7、8三个月的降雨量之和;ME是1987-2016年6、7、8三个月的最高气温的平均值;S是夏季干旱指标值;Q是湿度类别值。A生物气候区,根据Emberger(Daget et al.1988年)

 

表2 松树种子和幼苗的形态测量学特征及其测量和单位一览表。A和b分别表示≈的水分含量为20%和10%。第一年没有观察到顶芽

 

表3六个石松种群间分析性状平均值的统计比较信息。所用缩略语的特点见表2

 

表4 混淆矩阵。真阳性(TP):阳性病例正确归类为阳性;假阳性(FP):阴性病例错误归类为阳性;假阴性(FN):阳性病例错误归类为阴性;真阴性(TN):阴性病例正确归类为阴性

 

图2 分类过程的流程图。应用6种最大似然算法对石松种群进行分类。使用的缩写见表2

 

图3 石松种群聚集流程图。使用的缩写见表2

 

表5 研究中使用的最大似然算法的基本特征

 

表6 石松种子六种型号性能评价结果

RF:随机森林,支持向量机:C5.0:决策树算法,CART:分类和回归树,NB:朴素贝叶斯,k-NN:k-近邻,真正确率(TPR)/召回/命中率/敏感度,假阴性率(FNR)/错失率,假正确率(FPR)/漏失,真阴性率(TNR)/特异性/选择性,正预测值(PPV)/精度,FDR:假发现率,NPV:负预测值,用于:假漏失率

 

表7六种模型对石松苗木分类性能评价结果

K-NN:K-近邻,支持向量机,C5.0:决策树算法,RF:随机森林,CART:分类和回归树,NB:朴素贝叶斯,真正确率(TPR)/召回/命中率/敏感度,假阴性率(FNR)/错失率,假正确率(FPR)/漏失,真阴性率(TNR)/特异性/选择性,正预测值(PPV)/精度,FDR:假发现率,NPV:负预测值,FOR:假漏率

 

表8根据分类和回归树(CART)、C5.0和随机森林(RF)算法获得的重要值,石松种子数据集中的属性顺序

 

表9石松苗木数据集中根据分类和回归树(CART)、C5.0和随机森林(RF)算法获得的重要值的属性顺序

 

图4石松种子(上)和幼苗(下)的主成分分析(PCA)。使用的缩写见表2

 

图5 使用石松种子的前两个主成分的主成分分析(PCA)坐标在2D空间中绘制的左种群集群(k-均值算法的k参数为2和6)。利用石松苗木两个主成分的PCA坐标在2D空间中绘制的右种群聚类图(k-Means算法的k参数为6-上;k-Means算法的k-参数为2-下)。采用主成分分析的k-均值算法得到的聚类和苗木数据集中的种群在2维上被可视化。图中的颜色表示k-均值算法显示的聚类,而标注表示观测所属的实际总体

 

表10关于石松种子/苗木性状的k=2、3、4、5、6的种群在每一类群中的实际分布。粗体值表示每个集群中最主要的人口

 

来 源

Caliskan S, Kartal E, Balekoglu S, et al. Using machine learning algorithms to cluster and classify stone pine (Pinus pinea L.) populations based on seed and seedling characteristics[J]. European Journal of Forest Research, 2024: 1-17.

 

编辑

小丸子

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。