AllInOne预处理:植物田间表型的综合预处理框架


发布时间:

2023-08-03

来源:

植物表型资讯

作者:

PhenoTrait

AllInOne预处理是一个创新的开源R-Shiny用户界面包,旨在促进快速有效的植物表型数据预处理。AllInOne预处理采用多种统计方法进行数据预处理,包括:识别缺失模式,使用各种输入方法输入缺失数据,可视化数据(盒,小提琴,密度和散点图),使用分位数和库克距离方法检测和修正异常值,估计相关性,归一化数据,估计遗传性,进行空间分析,并计算最佳线性无偏预测(best linear unbiased prediction,BLUP)和估计器(best linear unbiased estimator,BLUE)。总的来说,AllInOne预处理简化了表型数据的预处理,使缺乏编程知识的用户能够快速准确地准备数据以进行进一步分析。

 

图1 AllInOne-P样本数据集中收益率和成熟度变量使用分位数法的可能异常值。

 

图2 在AllInOne-P中,在选择缺失的输入方法后,可以使用缺失的输入选项来输入给定数据集中缺失的数据点。

 

图3 AllInOne-P中缺失的数据处理程序菜单中可能的插图,使用包中可用的样例数据集。(A)缺失数据点热图,其中,x轴为观测值个数,y轴为因变量名称。蓝线表示缺失数据的位置,(B)方框和须状图,蓝色方框表示观测数据,红色方框表示预测数据点的imputation分布。下四分位数和上四分位数分别显示在框的左右两侧,其覆盖了数据的50%的四分位数区间。y轴为感兴趣的特征值,(C)密度图,其中x轴表示每个因变量的值,蓝色和红色密度图分别表示基于不同迭代和输入的预测缺失值的正态分布和分布,(D)条带图,其中输入次数为x轴,响应或因变量为y轴。蓝点表示观测数据,红点表示预测数据点。y轴是感兴趣的特征的值,x轴是迭代的次数。

 

图4 AllInOne预处理中相关可视化选项的概述。(A)从设置选项中选择相关图类型,(B) Pearson相关系数(圆形图),(C)不同环境水平产量Pearson相关系数(Full), (E)不同环境水平产量Pearson相关系数(upper and hcluster (COLB))。

 

图5 AllInOne-P中的“方差分析”选项概述,(A)使用空间分析对感兴趣的性状进行原始、(B)拟合和(C)残差观测值,(D)从混合分析中提取的预测与残差图,(E)从混合分析中提取的方差比例图,以及F)从遗传力分析中提取的遗传力图。

 

 
来 源

Mohsen Yoosefzadeh Najafabadi, Ali Heidari, Istvan Rajcan. AllInOne Pre-processing: A comprehensive preprocessing framework in plant field phenotyping, SoftwareX, Volume 23, 2023, 101464, https://doi.org/10.1016/j.softx.2023.101464

 

编辑

王春颖
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。