挑战:
- 射频传输中的回波信号特别稀疏,而且是高维的。从这些信号上提取特征时,会导致计算复杂性增加
PRISM是一个针对稀疏感知掩码自编码器的预训练方法,旨在提升RF信号的表示能力,能有效处理信号中的稀疏性特征。
本文工作:
- PRISM,射频传感任务的稀疏感知框架,利用基于MAE的自监督学习从大规模RF信号数据集中获得语义表示的预训练框架。可以提高感知性能。
- FOCUS,稀疏感知掩码策略,弥补RF信号中的信息间隙,使MAE更有有效性。
- 和现有监督学习以及预训练baseline对比,证明了有效性。
Related Work
1 RF感知
RF感知目前都是采用有监督的方式,会受限于大规模的有标注数据集的需要。
2 基于RF的预训练
- TGUL表明对比学习框架无法应用于RF信号信息的处理上,这会倾向于学习捷径信息
- RF-URL虽然可以使用不同的信号处理方法构造正负样本对,但是存在时间和空间资源消耗过多的问题。
3 MAE
- MAE可以有效运用于NLP&CV中,对于信号领域,信息全局稀疏、局部密集,PRISM可以解决这个问题
Method
1 信号表示
信号表示有AoA-ToF,DFS等多种信号表示,信号全局稀疏局部稠密
AoA-ToF是三维矩阵(time-AoA-ToF),DFS是二维矩阵(频率-时间)
信号表示: T×H×W×CT \times H \times W \times CT×H×W×C ,某些维可设为1
使用振幅图像作为目标,可以加速收敛过程。
将整个输入信号分为多个( N=TPt×HPh×WPwN = \frac{T}{P_t} \times \frac{H}{P_h} \times \frac{W}{P_w}N=PtT×PhH×PwW) patch,每个patch为 Pt×Ph×PwP_t \times P_h \times P_wPt×Ph×Pw 的信号表示, 多个patch组成整个信号,相当于用一个信号patch去预测其他掩码的patch信号
2 掩码策略
追踪密集信息区域,保留部分patch,丢弃其他patch。既减少计算时间,又能预测其他patch
Steps:
- 密集区域选择:随机在能量图上生成一个区域建议集合(每个区域可以划分为多个patch),然后计算每个区域的能量,取top-k个区域作为FOCUS密集区域
- 掩码生成:采用一定比例(本文采用75%)掩盖每个区域的一些部分
3 编码-解码
编码采用稀疏卷积策略,将掩码信号转换为高语义表示,可以用卷积神经网络。
解码器:将高语义信息转化为重建后的掩码patch。
采用轻量级设计,改进预训练的效率。仅在预训练阶段使用。
4 重建损失
cic_ici 是密集区域的信息
Lr=1∣C∣∑ci∈C∥gθ∘fθ(c^i)−ci∥2 \mathcal{L}_r = \frac{1}{|C|} \sum_{c_i \in C} \left\| g_\theta \circ f_\theta (\hat{c}_i) - c_i \right\|_2 Lr=∣C∣1ci∈C∑∥gθ∘fθ(c^i)−ci∥2
Downstream Tasks
下游任务:人体轮廓分割,3D姿态估计,手势识别
1 信号表示
- AoA-ToF
- DFS
目标的移动会导致信号反射路径长度发生变化,产生一定的频率偏移。对CSI功率进行时域分析,可以得到DFS。
2 数据增强
- 随机步长采样
原始帧之间高度相似,直接进行掩码和重建可能导致信息泄露。
提取50帧步长为2的帧和12帧随机步长的帧作为输入,避免信息泄露。
- 多尺度中心剪切
划分patch时容易遇到信息密集区域大多局限于单个patch的情况。随机取一个信息密集区域进行放大,减轻稀疏性。
3 网络结构
-
RF-ConvNeXt
-
子任务网络
预训练和下游任务使用相同的encoder backbone
- 人体轮廓分割:解码器采用渐进式上采样策略
- 3D姿态估计:3个线性层回归预测所有关键点3D坐标
- 手势识别:一个线性层加工特征并进行最终分类
Experiment
1 RF数据集
- Widar
- HIBER
2 Baseline
- 有监督模型
- 姿态估计:RF-Pose3D
- 2D轮廓分割:RFPose
- Wifi手势识别:EI方法,BVP
- 预训练模型
- RF-URL
3 Ablation: 掩码策略
- 对不同的掩码策略进行测试:FOCUS和随机掩码
- 不同的FOCUS设置对比