基于神经网络的植物表型时间序列预测与表型-基因型映射
立即解锁
发布时间: 2025-09-02 01:01:00 阅读量: 13 订阅数: 56 AIGC 


计算机视觉前沿研究
### 基于神经网络的植物表型时间序列预测与表型 - 基因型映射
#### 1. 引言
时间序列是指在连续的时间点上对某个变量进行测量得到的有序值序列,通常以固定的时间间隔进行测量。在不同领域有诸多应用,如金融领域的销售数据、股票价格、汇率,天气预报,生物医学测量中的血压和体温,以及物理学中粒子跟踪的生物特征和位置等。时间序列分析旨在理解产生观测数据的潜在结构,用于预测、监测,甚至反馈和前馈控制。
时间序列可分为连续时间序列和离散时间序列。若时间序列的观测值是在连续的时间内进行测量的,则称为连续时间序列,例如温度读数和河流中的水流量。而离散时间序列的特征是在等间隔的时间点上记录观测值,如每日、每周或每年。在高通量植物表型分析平台(HTP3)中,植物会按规律的时间间隔进行成像,以捕捉植物发育的显著信息,因此植物表型时间序列属于离散时间序列。
基于图像的植物表型分析是通过分析图像序列,无损地对植物的性状进行近端传感和量化,这些性状是基因型与环境复杂相互作用的结果。这是一个跨学科的研究领域,涉及计算机科学、植物科学、统计学、数据科学和基因组学,旨在将复杂的植物表型与基因表达联系起来,以应对当前和未来农业中与粮食安全相关的问题。
由于植物的生长和发育受遗传组成和环境相互作用的调节,不同基因型可能产生不同的表型,相同基因型的植物在不同环境条件下也可能有不同的表型。而且,不同基因型的植物在某些表型性状上可能表现出相似的特征。因此,表型 - 基因型映射是多对多的关系,对其研究有助于改进作物育种,并理解表型随时间的遗传调控。此外,表型预测的研究在以下几个方面对表型组学研究有重要贡献:
- 预测缺失成像日的表型,以应对HTP3的机械故障。
- 根据过去的测量结果预测未来某个时间的表型。
- 从一个或几个主要表型预测派生表型。
在植物表型分析的背景下,可定义四种类型的时间序列:
- **线性时间序列**:表型时间序列随时间增加、减少或停滞的趋势。例如,在正常生长条件下,植物的总叶面积随时间增加,但在受到干旱、热应激和盐度等压力时,叶子可能卷曲或脱落,导致总叶面积减少。对于许多谷类作物,如玉米,其高度会随时间单调增加,然后在营养生长阶段结束后达到稳定状态。
- **恢复时间序列**:植物的生长会受到压力的显著影响,如果压力条件得到缓解,如对干旱胁迫的植物重新浇水或调整热应激植物的温度,在压力低于阈值的情况下,植物可能会恢复正常生长。因此,可以通过时间序列建模来分析植物的应激恢复速度或确定植物对压力的适应能力。
- **季节性时间序列**:植物能够感知季节变化,并通过改变叶子颜色、落叶、开花和长出新叶来应对气候变化。因此,代表一年中任何时间存在的总叶片数的时间序列会显示出季节性影响。
- **灾难性时间序列**:由洪水、风暴和地震等意外事件引起,这些事件没有特定的模式,但会显著影响植物的发育。
时间序列还可分为单变量和多变量。单变量时间序列是指只有一个随时间变化的变量的序列,例如在植物生命周期的重要阶段,通过图像序列计算得到的植物高度,就是一个单变量时间序列。派生表型是由两个或多个主要表型组成的,例如植物的纵横比(因变量)是植物高度和宽度两个变量的比值,属于多变量表型。同样,植物的面密度(侧视图图像中植物像素总数与同一视图中包围植物的凸包面积的比值)随时间变化的序列也是多变量时间序列。
时间序列建模的目的是研究时间序列的过去观测值,开发合适的模型来描述其潜在结构,以进行预测。过去几十年,研究人员致力于开发高效的模型以提高预测准确性,常见的时间序列建模技术包括基于随机方法(如自回归移动平均、自回归积分移动平均和季节性自回归积分移动平均)、支持向量机(如最小二乘支持向量机、动态最小二乘支持向量机)和人工神经网络(如时间滞后神经网络、季节性人工神经网络)。
随着计算机处理能力的不断提高,人工神经网络作为一种时间序列预测技术越来越受欢迎。它的基本目标是将人类大脑的智能模拟到机器中,其结构由多个层组成,每层的神经元能够从输入数据中隐式识别规律和模式,并将其传播到下一层以获得更好的学习体验,然后根据已知知识提供通用的结果。人工神经网络具有数据驱动和自适应的特点,不需要对数据的统计分布进行先验假设,因此适用于许多实际应用。它本质上是非线性的,是通用的函数逼近器,能够有效地对任何复杂的时间相关函数进行建模,达到所需的精度。
预测性能的评估很重要,常用的预测性能指标包括平均绝对误差、平均绝对百分比误差、均方误差、平方误差总和、均方根误差、归一化均方误差和泰尔U统计量。在本研究中,使用均方误差(MSE)和R值作为时间序列建模的性能评估指标。MSE的计算公式为:
\[MSE = \frac{1}{n}\sum_{t = 1}^{n}(y_t - p_t)^2\]
其中,\(y_t\)是实际值,\(p_t\)是预测值,\(n\)是测试集中的样本总数。R值用于衡量回归分析中实际值和预测值之间的相关性,R值为1表示两者关系密切,值为0表示两者关系随机。
以下是不同类型时间序列的特点总结表格:
| 时间序列类型 | 特点 | 示例 |
| --- | --- | --- |
| 线性时间序列 | 表型随时间增加、减少或停滞 | 正常生长下植物总叶面积增加,受压力时减少;玉米高度先增加后稳定 |
| 恢复时间序列 | 受压力后,压力缓解可恢复生长 | 干旱胁迫植物重新浇水后恢复生长 |
| 季节性时间序列 | 受季节变化影响 | 一年中植物总叶片数的变化 |
| 灾难性时间序列 |
0
0
复制全文
相关推荐









