表型组学及其在植物生理学中的重要性


发布时间:

2023-05-23

来源:

植物表型资讯

作者:

PhenoTrait

组学革命

在过去的二十年里,“组学革命”造就了表型组学学科的发展,然而,这一新的学科并没有就其实际需要在实践和概念中达成共识。有趣的是,缺乏共识并没有阻碍表型组学的发展,因为科学界似乎对其技术发展和应用比对其基础理论框架的发展更感兴趣。然而,一门科学学科不能仅仅依靠技术方面,对其理论框架的深刻理解才是先决条件。由于不同的研究术语和定义不同,在表型组学中不同实验设计之间建立相关性的难度越来越大。

 

在这篇综述中,我们分析了表型组学的现有理论框架,对学科中的几个概念以标准化命名和定义。为此,我们首先研究了表型组学中关键概念的历史和词源。随后,根据这些概念对现有研究的适用性进行了分析和处理。虽然目前的工作主要是为了指导植物生理学的研究人员,但我们也比较了概念在基因组学、遗传学和蛋白质组学等生物学各个学科中的使用。

 

表型组学的历史和词源

什么是表型组学似乎很大程度上取决于谁来定义它,一种技术,一种工具,一门学科,或其他事物的同义词,如生理机能。有人可能会问,在近20年后,我们怎么可能仍然没有就一个定义达成共识。一种可能的解释是,我们用来理解“组学”的方法是多种多样的,并且多年来发生了变化,特别是在组学革命的早期。这是因为,在组学革命的形成时期,只有基因组学和蛋白质组学存在。随着新组学扩展到其他研究对象,组学概念在更广泛的意义上得到了应用。

 

特定组学的名称由研究对象的前缀与后缀-omic结合来定义。例如,从基因组(genome),我们有genomics;从蛋白质组(proteome),我们有proteomics。有趣的是,甚至在罗德里克1986年创造基因组学这个术语之前,戴维斯早在1949年就使用了形容词“表型”。不过令人惊讶的是,基因组学最初并没有计划作为一门新学科的名称,而只是作为一项科学研究的标题。

 

由此产生的表型组学的词源定义是研究表型的一门学科。反过来,表型可以定义为所有表型,基因型或基因组可以表达的外部因素(环境)与其发展规划相互作用的结果。表型必须被理解为特定基因型在特定时刻所表达的一系列可测量的性状,因为表型根据生物体的发育阶段作为一系列环境条件的函数而变化。表型特征可以是物理(颜色,体积或形状),化学(代谢物,酶或内部pH值),或生物(发育,生理或行为)。从我们的回顾来看,表型组学的词源定义很少被使用,但我们认为表型组学应该被认为是一门组学的学科。

 

在基因组中一些定义似乎明确承认对大型复杂数据集的研究。然而,相对于研究小组的分析能力而言,大型数据集本身是一个模糊的概念。一些报道认为组学需要测量生物模型中的所有元素。但是,测量一个完整的表型是不可能的,因为实际上有无限数量的表型整合了单个基因型的总表型。因此,表型测量的完备性不能被认为是表型组学的基本性质。有趣的是,大多数研究都将表型组学视为表型基因组学的等效物,但并不包括表型组的定义。

 

是什么造就了表型组学?

1949年,Davis提出了表型的概念,即“细胞外的非自生殖部分的总和,无论是细胞质还是细胞核。” 表型组是表型的物质基础。“如今,我们将这些‘外基因’因素称为‘表观遗传因素’,并理解它们通过调节基因表达来诱导特定的表型。” 然而,我们不应忘记,表型也是由发育计划造成的。需重要指出的是,在本综述中,我们区分了环境变量和环境条件。表型组是环境变量的一个函数,而表型是一组环境条件的函数。

 

一些表型组的定义只关注那些源于环境因素影响的表型,而不是基因表达。如果我们接受这一标准,那么所有涉及由发育计划引起的表型研究都不属于表型组学。由于已经发表了一些关于发育计划的表型研究(例如通过表型组学在整个生命周期中监测叶片衰老),使用环境作为唯一已知成分的定义有些不切实际。

 

表型组学的综合定义

根据表型组学的词源和特征,为表型组学引入一个正式的定义是合适的。如果表型组学被认为是组学,它必须有一个组作为它的研究对象,在这种情况下,就是表型组。因此,表型组学的一个简单而准确的定义是“研究表型的生物学学科”。这个定义包含了基本的要求,即一个类别(属,生物组学的一个分支学科等)和一个研究对象(差异),使这个组学不同于同一类别(生物组学)中的任何其他元素。这种基于经典逻辑的定义的主要优点是,它提供了一个具体的研究对象,是合乎逻辑的,并涵盖了大多数自我认定为表型组学的作品。

 

因此,一个更相关的问题是什么是表型组。它可以定义为特定基因型或基因组(G)与表观遗传因素相关的一组表型,这些表型依赖于时间(t)和环境(E),也就是t × E。所以,表型组学需要一组表型以及这组表型的结构与导致其表达的因素的关系(G × t × E)。

 

是什么使表型组学不同于其他生物科学?

因为一些生态生理学或表观遗传学的研究考虑了矩阵G × t × E,人们很容易认为表型组学只是某种已经存在的东西的同义词。然而,生态生理学和表观遗传学本身具有不同的研究对象。例如,生态生理学的研究对象是生态系统和生理之间的关系,而不是一个特定的现象及其结构。因此,我们认为表型研究的不同之处在于对表型及其结构的关注。

 

为了更好地理解表型组学是如何运作的,我们需要描述表型组概念的一些核心属性。首先,表型是源于G × t × E的元素,是这些维度的产物,并被定位在这个多维空间中。因为环境是多维的(每个环境条件是一个维度,例如,PH,温度或湿度)。表型组是一个超体积,因为它有四个以上的维度。因此,我们期望表型研究是多维的,尽管多维度并不是定义表型组学的标准。

 

表型研究的另一个关键特征是大数据集。然而,大数据集是一个模糊的概念。在某些情况下,相同条件下研究的大型数据集可能来自数十种基因型;在其他情况下,它们可能起源于几种环境条件下的数百种基因型。因此,是否存在表型数据集的简单概念?由于表型数据来源于一组G × t × E,一组理想的表型数据集应该包括所有这些成分。还应该指出的是,无论在表型研究中是否被明确承认,时间的组成部分始终是任何实验设计的一部分。

 

我们是否需要高通量表型来推进表型组学?

科学家通过分配表型获得表型组学知识,但大规模的表型分析不足以获得表型数据。表型很早就作为动词出现了,并不是表型组学的专有概念,因为它也被用于其他生物学学科,如遗传学和植物生理学。在我们看来,表型研究的特点是,数据集由一组明确的基因型或基因组在明确的环境条件下的表型组成。默认情况下,这些数据集是多维的:4D或更高。如果一项研究不包含构成表型的基本维度,它就不能被认为是表型研究。

 

例如,第一个实验(图2A)比较了两种基因型(基因组维度)及其光合作用行为(表型维度)随时间的变化(时间维度),但是它缺少环境维度(单点),因为只研究了一种生长条件,因此,研究只是三维的。有人可能会把这个实验理解为一个四维结构,因为有一个环境设置,在这个环境设置中,表型维度被解决了。然而,由于本实验不包括补充环境条件(即替代温度),因此在分析中不考虑环境维度。第二种类型的实验(图2B)比较了暴露于不同环境条件(热维度)的四种基因型(基因组维度)和四种表型性状(都是表型维度的一部分)在不同时间(时间维度)上的差异。最后,第三个实验(图2C)考虑了四种基因型(基因组维度)、两个环境维度和四种表型特征(表型维度)。最后两个实验将生成现象数据集,因为它们具有基本维度,并且至少包含四个维度。

 

在图3中,我们给出了表型数据结构的图形表示。随着表型研究的维度扩大(例如,包括更多的环境条件),复杂性增加,但表型的分辨率也随之增加。

 

表型组学研究的都是可管理的现象

因为绝对的表型实际上是无限的,研究人员必须通过限制他们的实验研究来接近它。然后,通过关注有意义的表型特征和派生为可管理和有意义的数据集或可管理的表型的环境条件子集,对表型数据进行全面分析。

 

我们需要表型组学的基因组数据吗?

如果表型组学研究了由G × t × E作为其目标,那么假设基因型信息是表型组学的基础是合乎逻辑的。然而,已经提出了一个新的术语“功能表型组学”来描述表型组学的一个亚型,该亚型可以在没有“同时研究潜在遗传学”的情况下运作,主要关注植物的功能;换句话说,E × t。我们发现这是矛盾的,因为在表型研究中,没有基因组维度就不存在表型。

 

大规模表型和表型研究的力量

与表型组学的一个共同关联是大规模表型。事实上,一些作者已经将表型组学的概念与高通量表型相匹配。然而,正如我们在前几节中所解释的那样,表型组学不仅仅是一种方法、技巧或技术。然而,如果一个人的目标是高分辨率地解析一个表型组,那么高通量表型是必要的。与表型组学相关的是筛选和生成可靠数据的概念。只要技术上可行(可管理的表型),通过广泛的筛选(长时间或区域的大覆盖范围)进行密集采样(精细细节,即化学剖面)将产生可靠的表型数据集。

 

对植物和藻类生理学进行表型组学的具体定义意味着什么?

研究人员已经认识到表型组学对植物育种的好处,因为表型组学可以与其他全能性指标结合使用。还有人认为,植物表型组学的最终目标是缩小基因组学和农业科学之间的差距,且表型组学也有可能回答植物生理学的基本问题。后一种观点提出表型组学的定义将更加有用,因为它扩大了对表型组学的理解,超越了其应用效益。可用的例子是不同环境中突变的表达变化,研究植物和病原体的复杂相互作用,甚至是对作物基因型的生态生理学研究。在不久的将来,表型组学将同样回答生态生理学问题。因为到目前为止,这种复杂问题的答案往往由于遗传变异性而被掩盖。另一个例子是利用表型组学来研究微藻类生理学。虽然植物的光化学对环境的反应更稳定,而藻类的生理是非常多的,取决于生长周期、光照条件、温度等。所有这些都会引起光化学的快速变化,因此,表型也会发生快速变化。这使得光生理学无法预测,因为微藻的表型是可塑的。例如,对光系统II的光损伤机制的研究,光胁迫期间活性氧的重要性,非光化学淬灭的相关性等。非光化学淬灭作为一种光保护机制的相关性,或状态转换的相关性,每个研究使用不同的物种,在不同的条件下生长,都产生了不同的结果。这些差异可以通过使用表型组学在一系列相关条件下测量不同的微藻菌株解决。

 

总结

在对文献进行批判性回顾的基础上,我们主张将表型组学定义为研究名为表型及其结构的超体积的生物学学科。表型组由一个特定的基因型或基因组由于环境和发育计划而可能表达的所有表型组成。我们的观点基于实践、语言、哲学和数学方面的考虑。我们意识到,其中一些术语和想法可能不会被广泛接受,但他们的建议将使我们的领域意识到有必要就目前的术语进行辩论,并解开概念上的争议。

 

表1 表型组学和表型组定义的例子,按时间顺序排列

 

图1 概念化基因型、环境和结果表型之间的相互作用。表型是基因型(具有特定基因序列的生物体)在特定时间由于其与环境相关的发育计划而表达的一组表型性状。图的左侧(A)显示了基因型与一系列环境条件相互作用的概念化。右侧(B)显示了在三种不同的环境条件下相同的相互作用以及由此产生的表型。在这个例子中,根据所处的环境条件,幼苗可以以不同的速度生长并表达不同的表型性状。单一基因型暴露于三种不同环境条件下的结果显示出生长速度和颜色的变化。用biorender.com创建的图。缩写词:A-海拔;H-湿度;I-辐照度;S.pH-土壤pH值;T-温度;W.pH-水的PH值;W.S-水的盐度。

 

图2 三个实验的例子来说明一个实验设计中的多维度是如何定义一个现象实验结构的。(A)实验1,基因型表现为暴露在环境条件下的DNA,表型随时间测量。每个面板底部的结果方程表示研究的复杂性:基因型表示为g,表型性状表示为Trait,时间表示为t。(B)实验2,在相同条件下生长的突变体与野生型的比较研究,并通过光诱导荧光瞬态(LIFT)叶绿素荧光测定法进行表型分析。这个例子永远不会被认为是一个表型研究,而是一个经典的光生理学研究。通过将时间作为一个变量来扩展这项研究,其中样本在一年多的时间内每天测量12次。对于这两种基因型,获得的数据量将是很大的(4380个测量值和大量衍生参数),但本研究不涉及表型组学。然而,这项研究需要表型分析,并将产生一个大的数据集。(C)实验3,相比之下,一项简单的表型研究将是四种基因型中的一种暴露于四种环境条件下,测量四种表型性状。例如,在15°C、20°C、25°C和28°C四种温度下培养一种野生型拟南芥和三种突变体,测量脉冲幅度调制(PAM)叶绿素荧光、叶面积指数、叶片反射率和高度。这种类型的研究将是一种表型研究,尽管它只探讨了四种环境条件。人们可以通过每天三次测量这些变量来进一步扩展它的维度,从萌芽到衰老。在这种情况下,复杂性将得到扩展,所需的表型将是密集的。用Biorender.com创建的图。缩写:C-生长条件;Fv/Fm-最大光化学量子产量;T-有效期;t-一个特定的时间点。

 

图3 表型数据结构。(A)表型的集合论。(B)表型的维度。缩写:En.Var-环境变量;P-特定表型;Ti-表型性状。

 

 

来 源

Zavafer A, Bates H, Mancilla C, et al. Phenomics: conceptualization and importance for plant physiology[J]. Trends in Plant Science, 2023.

 

编辑

陈秋
 

扩展阅读

推荐新闻

石时之约|韩志国:透过表型数据,看见植物的喜怒哀乐!

本期石时之约,我们将对话慧诺瑞德(北京)科技有限公司总经理、国际植物表型学会(IPPN)执委会委员/工业分会副主席韩志国,一起从表型数据的科学角度,去读懂农作物的喜怒哀乐和前世今生。

慧科研、慧育种、慧种田——慧聚改变的力量

让我们“慧聚”在一起,为“慧科研、慧育种、慧种田”赋能。

高通量植物表型平台建设注意事项

育种,是在给定的环境条件下,选择各种表型指标(产量、品质、抗性)最优的基因型材料的过程(AI育种,从这里起步)。育种工作中大约70%的工作量来自表型观察测量和筛选,是最耗人力物力的过程。

作物生理表型测量基础原理

生理表型测量的核心在于“早、快”,要在肉眼可见之前就能测量并预判出变化趋势,才是这个技术的核心价值。叶绿素荧光成像,恰好满足了这个要求。