一、架构设计原理与组件协同机制
在金融高频交易场景中,3秒级的Tick数据具有典型的时序连续性与瞬态突变双重特性。本文提出的LSTM-Transformer混合模型通过双向门控循环单元捕获局部依赖关系,结合自注意力机制实现跨时段的特征交互。具体而言,底层采用双层BiLSTM结构对原始价格序列进行相位对齐编码,其输出隐状态向量作为中层CrossAttention模块的关键输入源。该注意力层配置8个头部并行计算不同时间尺度下的相关性权重,配合残差连接缓解梯度消失问题。上层部署轻量化Pointwise FeedForward Network完成非线性变换,最终通过全连接层映射至预测目标空间。这种层级化设计既保留了RNN对细粒度模式的敏感性,又发挥了Transformer在长程关联建模上的优势。
import torch.nn as nn
class LSTMTranHybrid(nn.Module)