神经体积记忆架构(NVM)-实现机械狗自主爬楼梯、跨缝隙、翻障碍
四足机器人之所以这么难搞,关键就在于有两大难题,一是效率低,二是稳定性差。机器人若要达成精准又高效的控制,就得有超强的环境感知能力。就比如说吧,四足机器人想要下山的话,就得清楚路面和自己的相对位置,明白处在啥地形,每一脚要踩在哪里,使了多大劲儿。只有获取到这些感知信息,才能够据此自主规划路线、调整姿态,这一整个过程是实时动态的,并非预设的运动控制。
对于机器人来说呢,它得先有环境感知方面的信息,然后才能借助关节产生作用力,进而控制运动,这就是运动的环境反馈啦。在这个过程里,不但要能感知位置关系,还得有接触式感知,要把这两者融合起来可不容易呢。
机器人与环境的交互需求越大,依据实时感知环境重新规划动作就越困难,自身的控制和稳定性问题也会更棘手。所以四足机器人在经过非结构化地面时,通常速度不快,还缺乏稳定性,容易“趴窝”。
眼下,四足机器人的控制方法主要有两类。一类是基于模型的控制,通过解析模型来进行推演,从而设计控制方式;另一类则是基于学习的控制,借助仿真器预估控制的成效,这种方式更偏向于强化学习,要求机器人不断地重复迭代、尝试错误,以此来改良它的控制器。
首先将机器狗(四足机器人)放在模拟环境中进行训练,练习在不同的场景下移动,所以它大致掌握了户外的地形,以及上下楼梯是什么样子的。
在现实世界中部署时,四足机器人前面的摄像头会捕捉画面并引导它的运动。此外,该机器人通过强化学习学习如何调整步态,来更好地在楼梯和不平坦的地面上导航。
神经体积记忆架构(Neural Volumetric Memory, NVM)是一种用于机器人视觉运动控制的新型3D环境感知技术,由UCSD、MIT等研究团队提出,旨在解决机器人在复杂地形中自主导航和运动控制的挑战。
1. NVM的核心原理
NVM是一种3D场景特征表示方法,通过聚合多视角的视觉信息,构建机器人周围环境的动态3D特征体积,使其能够推理被遮挡的地形并做出运动决策。其关键技术包括:
-
SE(3)等变性建模:NVM考虑三维空间的旋转和平移对称性(SE(3)等变性),确保机器人在不同视角下仍能准确理解环境结构。
-
多视角特征融合:通过3D编码器将2D图像转换为3D特征体积,并结合机器人运动数据(如关节角度、速度)进行时空对齐,形成连贯的3D场景记忆。
-
自监督学习:NVM通过预测未来帧的视觉观察进行训练,无需人工标注数据,提升模型对动态环境的适应性。
2. 技术优势
与传统SLAM或帧堆叠(frame-stacking)方法相比,NVM具有以下突破:
-
更强的3D推理能力:
-
可推断被遮挡的地形(如楼梯下方的空隙、沟壑),使机器狗能提前规划步态,避免踩空或跌倒。
-
在MIT的实验中,搭载NVM的机器狗成功跨越沟壑和乱石地面,而传统方法因误判地形导致失败。
-
-
实时性优化:
-
采用苹果M1芯片进行高效计算,实现毫秒级3D场景重建,适用于高速运动决策。
-
-
轻量化部署:
-
仅需单目或双目摄像头,无需昂贵的高精度LiDAR,降低硬件成本。
-
3. 实际应用表现
-
复杂地形适应:
-
在室内外测试中,NVM使机器狗能自主爬楼梯、跨越缝隙(如20cm宽的沟)及翻越障碍物(如树枝、垫脚石)。
-
-
动态避障:
-
当障碍物突然出现时,NVM基于历史帧推理出安全路径,而非依赖瞬时观测,减少误判。
-
4. 与现有技术的对比
技术指标 | 传统SLAM/帧堆叠 | NVM架构 |
---|---|---|
3D场景理解 | 依赖点云拼接,易受遮挡影响 | 动态体积记忆,推理遮挡区域 |
计算效率 | 高延迟(需多帧融合) | 实时(M1芯片加速) |
硬件需求 | 需LiDAR或多摄像头 | 单目/双目摄像头即可 |
自主性 | 需预设地图或人工干预 | 完全自主决策 |
5. 未来发展方向
-
与存算一体芯片结合:
-
如SRAM存算一体技术(如智芯科方案)可提升NVM的能效比,满足具身智能的低延时需求。
-
-
多模态扩展:
-
融合激光雷达或触觉传感器,增强在极端环境(如浓烟、黑暗)下的鲁棒性。
-
-
商业化落地:
-
目前NVM仍处于实验室阶段,需优化算法以适配工业巡检(如电力、消防)等B端场景。
-
总结
NVM通过神经网络的3D体积记忆,赋予机器狗接近生物的空间认知能力,是机器人自主运动控制的重要突破。其核心价值在于“所见即所记,所记即所用”,未来若与边缘计算、存内计算等技术结合,有望推动具身智能的普及。目前国内在神经体积记忆架构(Neural Volumetric Memory, NVM)领域的研究仍处于起步阶段,国内NVM研究尚未形成完整体系。