学术中心
利用机器学习对石松种群进行聚类和分类
发布时间:
2024-07-30
来源:
作者:
木本植物的表型代表其独特的形态特征。种群区分和个体分类对于种群繁殖和遗传多样性保护至关重要。机器学习(ML)算法作为预测表型的有力工具正受到越来越多的关注。本研究利用机器学习算法对石松(Pinus pinea L.)种群的种子和幼苗特征进行聚类和分类的方法。通过收集六个不同自然分布区域的石松种群的种子和幼苗数据,并应用k-均值算法进行聚类分析,发现理想聚类数为2,同时对六种监督学习算法(k-最近邻、朴素贝叶斯、支持向量机、C5.0、分类回归树和随机森林)进行分类性能评估。结果表明,随机森林算法在种子特征分类中表现最佳,而k-最近邻算法(k=18)在幼苗特征分类中表现最优。此外,通过主成分分析揭示了种子和幼苗特征的主要变异维度,并指出锥体重量和芽发育分别在种子和幼苗特征中最为重要。该研究为森林管理中的种群选择、遗传多样性保护和育种计划提供了科学依据。
图1 (a)地中海盆地石松分布图 (b)(修改自Caudullo等人,2021年)横跨Türkiye的6个天然石松林的地理位置(c)KO Kahramanmaras-Onsen,MK Muğla-Katrancı,AK Aydın-Koçarlı,IK İzmir-Kozak,TK Trabzon-Kalenema,CK Çanakkale-Kirazlı。石松的球果从授粉到成熟一般需要三年时间 (d)从石松球果中提取种子 (e)在苗圃中种植了6个不同种群的1年生石松幼苗 (f)Kahramanmaraş(KO)的石松天然林景观
表1 蒂尔基耶六种石松种群自然分布的地理和气候特征。P是年平均降雨量,单位为毫米;M是最热月份最大值的平均值;m是最冷月份最小值的平均值;PE是6、7、8三个月的降雨量之和;ME是1987-2016年6、7、8三个月的最高气温的平均值;S是夏季干旱指标值;Q是湿度类别值。A生物气候区,根据Emberger(Daget et al.1988年)
表2 松树种子和幼苗的形态测量学特征及其测量和单位一览表。A和b分别表示≈的水分含量为20%和10%。第一年没有观察到顶芽
表3六个石松种群间分析性状平均值的统计比较信息。所用缩略语的特点见表2
表4 混淆矩阵。真阳性(TP):阳性病例正确归类为阳性;假阳性(FP):阴性病例错误归类为阳性;假阴性(FN):阳性病例错误归类为阴性;真阴性(TN):阴性病例正确归类为阴性
图2 分类过程的流程图。应用6种最大似然算法对石松种群进行分类。使用的缩写见表2
图3 石松种群聚集流程图。使用的缩写见表2
表5 研究中使用的最大似然算法的基本特征
表6 石松种子六种型号性能评价结果
RF:随机森林,支持向量机:C5.0:决策树算法,CART:分类和回归树,NB:朴素贝叶斯,k-NN:k-近邻,真正确率(TPR)/召回/命中率/敏感度,假阴性率(FNR)/错失率,假正确率(FPR)/漏失,真阴性率(TNR)/特异性/选择性,正预测值(PPV)/精度,FDR:假发现率,NPV:负预测值,用于:假漏失率
表7六种模型对石松苗木分类性能评价结果
K-NN:K-近邻,支持向量机,C5.0:决策树算法,RF:随机森林,CART:分类和回归树,NB:朴素贝叶斯,真正确率(TPR)/召回/命中率/敏感度,假阴性率(FNR)/错失率,假正确率(FPR)/漏失,真阴性率(TNR)/特异性/选择性,正预测值(PPV)/精度,FDR:假发现率,NPV:负预测值,FOR:假漏率
表8根据分类和回归树(CART)、C5.0和随机森林(RF)算法获得的重要值,石松种子数据集中的属性顺序
表9石松苗木数据集中根据分类和回归树(CART)、C5.0和随机森林(RF)算法获得的重要值的属性顺序
图4石松种子(上)和幼苗(下)的主成分分析(PCA)。使用的缩写见表2
图5 使用石松种子的前两个主成分的主成分分析(PCA)坐标在2D空间中绘制的左种群集群(k-均值算法的k参数为2和6)。利用石松苗木两个主成分的PCA坐标在2D空间中绘制的右种群聚类图(k-Means算法的k参数为6-上;k-Means算法的k-参数为2-下)。采用主成分分析的k-均值算法得到的聚类和苗木数据集中的种群在2维上被可视化。图中的颜色表示k-均值算法显示的聚类,而标注表示观测所属的实际总体
表10关于石松种子/苗木性状的k=2、3、4、5、6的种群在每一类群中的实际分布。粗体值表示每个集群中最主要的人口
Caliskan S, Kartal E, Balekoglu S, et al. Using machine learning algorithms to cluster and classify stone pine (Pinus pinea L.) populations based on seed and seedling characteristics[J]. European Journal of Forest Research, 2024: 1-17.
编辑
小丸子
推荐新闻
视频展示