- 博客(474)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注

原创 2024年自动驾驶规划控制面试及答案
A*吸取了Dijkstra 算法中的cost_so_far,为每个边长设置权值,不停的计算每个顶点到起始顶点的距离(G),以获得最短路线, 同时也汲取贪婪最佳优先搜索算法中不断向目标前进优势,并持续计算每个顶点到目标顶点的距离(Heuristic distance),以引导搜索队列不断想目标逼近,从而搜索更少的顶点,保持寻路的高效。DWA,TEB算法。通常情况下,在机器人高速运动的时候,想要得到非常连续、平滑、噪音低的运动控制,第3个约束条件是必不可少的,有的甚至还要求加速度的导数jerk都是连续的。
2024-07-22 18:43:12
1471
原创 IROS 2025|高精地图抗干扰新突破!新框架RoboMap在13类传感器损坏下稳居SOTA!
本文的目标是设计一个鲁棒的多模态高精地图构建框架,它集成了数据增强、新的多模态融合模块和有效的训练策略,以显著提高多模态融合方法的鲁棒性,如图。为了评估模型的鲁棒性,本文引入了适应性得分(RS)和相对适应性得分(RRS),它们评估了模型在数据损坏或者传感器噪声下的性能,确保了在现实世界场景中的可靠性。:本文提出了三个关键组成部分:数据增强、新的多模态融合模块和模态丢弃训练策略,在不牺牲精度的情况下,显著提高了多模态融合方法的鲁棒性;:对于干净的数据,本文采用与先前的高精地图研究一致的指标。
2025-07-21 17:32:22
623
原创 大模型赋能USV集群路径规划!上海交大团队提出APPT方法,路径长度缩短14.55%
为解决此类问题,基于大语言模型的COT思想,本文提出基于现有的路径规划算法库(如 RRT, APF 方法等)及其对应 API 接口,构建功能完备的工具函数提示体系,通过补充算法功能的语义描述与调用规则,帮助大模型理解算法功能,创建任务目标的功能库。实验时将基于大模型的智能体部署于无人艇地面站,使用的 GPU 为 NVIDIA GeForce RTX 4070,显存容量为 12GB,智能体使用的大模型为 Qwen2.5,模型参数为 14B, 智能体使用局部 XY 坐标系,单位为米,地图大小为 30m*30。
2025-07-21 12:06:32
397
原创 8万条!清华团队开源VLA数据集:面向自动驾驶极端场景,多模态CoT标注+闭环安全提升35%
为探究第二个核心问题——即Impromptu VLA数据集具体提升自动驾驶哪些能力维度(感知/预测/规划),以及验证集作为诊断基准的效能——利用其规划导向的问答任务展开诊断评估套件:通过面向特定任务场景的对比方法,评测基础视觉-语言模型(VLM)与基于本数据集调优版本的性能差异。将描述文本精炼为有效的非结构化挑战类别:首先通过编程化识别滤除常规驾驶场景,执行基于视觉-语言模型(VLM)的二次分类——利用精心设计的提示词指令,使Qwen2.5-VL作为场景分类器评估原始描述是否属于非常规案例。
2025-07-21 12:05:42
462
原创 全球首个!阿里巴巴联手浙大推出SAM4D:摄像头+激光雷达统一分割模型(ICCV 25)
给定长度为T的图像序列,每隔K帧选择关键帧。运动感知跨模态记忆注意力是本文方法的核心组件,通过整合跨模态特征和记忆中的先前帧特征来优化特征表示,确保跨模态和时序对齐。在提示编码器和掩码解码器方面,提示编码器支持来自图像和激光雷达输入的不同输入提示,以定义目标的空间范围和位置。在可提示跨模态帧分割方面,通过选择两种模态中都存在的目标并在单一模态中提供提示,然后测量单帧内两种模态的分割交并比来评估。如表1所示,在图像或激光雷达中提供提示使另一个模态能够实现有希望的分割结果,展示了SAM4D中跨模态提示的能力。
2025-07-16 18:05:04
701
原创 理想最新工作World4Drive:意图感知世界模型实现闭环端到端新SOTA(ICCV 25)
大量实验证明World4Drive在开环nuScenes和闭环NavSim数据集上实现了SOTA的性能,表明World4Drive对物理世界的深刻而全面的理解,以及将驾驶意图与潜在世界模型紧密耦合的有效性。同时,本文也使用了一个分类网络来预测K个模态的得分。本文为了提取具有对三维物理世界整体理解的世界潜在表征,分别设计了用于整合空间和语义先验信息的上下文编码器以及增强时间上下文信息的时间聚合模块。随后,本文引入了一个世界模型选择模块用于评估在K个不同意图下的轨迹,并且选择其中最合理的轨迹结果,如图3所示。
2025-07-14 14:13:07
1086
原创 机器人也会写代码了?CodeDiffuser:用VLM生成指令,精准化解语言歧义(RSS 2025)
在所给场景中,这条指令可通过多种动作来执行:机器人可以从三个可选的电池中任选其一,并将其放入托盘中的六个潜在插槽之一,最终产生共十八种可能的执行方案。在实验中,作者发现现有的扩散策略(diffusion policies)在涉及语言模糊性的复杂任务中,即便使用大量数据,也仅能收敛到远低于实际可用水平的成功率。系统不仅能在简单指令(如“把最右边的电池放到左列的插槽”)下正确高亮目标电池和插槽,还能在更复杂甚至带自我修正的指令(如“把红杯挂在最上面的树枝,哦不,是绿杯”)中依然准确生成对应 3D 注意力。
2025-07-13 17:48:04
998
原创 RSS 2025|击败Transformer!斯坦福新作:生成模型赋能自动驾驶预测,推理速度提升3倍!
此外,与常用的基于离散表示的 Transformer 方法相比,该方法在推理速度上显著更快,性能也更优。他们的方法甚至超越了现有在语义占据预测领域采用定制 Transformer 的最新工作,这表明相比常见的离散 codebook Transformer,本文提出的基于连续潜在空间的方案在推理开销与精度间取得了更优平衡。由于其良好的通用性以及与无标签数据天然适配的特性,作者认为,基于 L-OGM 的预测方法与 RGB 视频预测类似,具备成为自动驾驶自监督预训练目标,即“自动驾驶基础模型”的潜力。
2025-07-13 17:47:36
526
原创 RSS 2025|误差降低41%!ETH 开源「感知式动力学模型」,实现崎岖地形零样本导航
本文的框架扩展了基于采样的规划器方法的能力,通过减少繁琐的参数调优需求,提供了一种灵活的非任务特定规划方案,使其能够在无需额外学习步骤的情况下实现对新环境的零样本适应。在复杂崎岖的环境里让机器人安全前行,并不是件容易的事。基于物理的一阶原理推导并通过系统辨识标定的传统物理模型,往往难以精确捕捉这种复杂的系统动力学,尤其在接触丰富的场景中更容易出现非线性问题,同时对感知精度也提出更高要求。在规划中,利用 MPPI 的零样本能力,可以无需额外训练,仅通过调整奖励中的位置项与风险项的权重,适应新环境。
2025-07-09 17:45:30
743
原创 IROS 2025|RL vs MPC性能对比:加州理工无人机实测,谁在「变形控制」中更胜一筹?
在智能化机器人技术领域,兼具空中飞行与地面行驶能力的多模态机器人成为研究热点,而四旋翼无人机从空中到地面的形态转换因涉及复杂气动交互和执行器饱和控制难题,一直是技术瓶颈。该研究成果创新性地对比了基于模型预测控制(MPC)与端到端强化学习(RL)的两种控制策略,前者无需依赖执行器动态细节即可直接应用于硬件,后者通过仿真训练实现了 65° 大倾角的稳定着陆,二者在扰动恢复和故障容错等场景中展现出不同优势,为解决四旋翼形态转换控制难题提供了极具价值的技术路径参考。会根据机器人当前的高度和身体倾斜角度在线调整。
2025-07-07 17:58:58
1137
原创 当人形机器人听懂自然语言:LangWBC如何实现从指令到动作的端到端控制
这里的CVAE就像一个“双语翻译器”,将文本指令(如“挥手”)和动作数据(如关节角度序列)编码为统一的“思维代码”,再解码为具体动作。”,LLM分解为“快速走到朋友面前”和“挥手致意”两个子指令,机器人能按顺序执行,展现出处理复杂社交场景的潜力。:人类语言千变万化,机器人需要既能执行“快走”“慢跑”等相似指令,又能在受到干扰(如被推搡)时保持动作连贯。在演示视频中,机器人能从“向前行走”无缝过渡到“快速奔跑”,再到“挥手停止”,整个过程流畅自然,甚至在被外力踢踹时仍能维持动作稳定性。
2025-07-06 20:22:35
776
原创 RSS2025获奖论文!机器人实现sim2real的最佳学习工厂
作者展示了如何在不同的 GPU 拓扑结构上,结合 JAX 与 PyTorch 等强化学习库进行大规模策略训练,并在从状态输入到像素输入的多种机器人运动与灵巧操作任务上,演示了 sim-to-real 的实际部署效果。更重要的是,这不是只在论文里跑通的代码,作者用它在真实机器人上也演示了 sim-to-real 的直接迁移,几乎零调整就能用。,值的注意的是,本文提供了非常丰富的Appendix信息,包含了许多补充的实验,在这里小编只为大家提取最主要的实验结果和结论,如果大家感兴趣的话可以去阅读原文详细了解。
2025-07-06 20:22:19
919
原创 CVPR 2025|自动驾驶界的“神笔马良”:动动嘴、画个图,Talk2Traffic为你创造复杂路况
导读目前,自动驾驶仿真方法不仅可以降低自动驾驶汽车在实际场景中测试所带来的高昂成本,还能够提供各种具有挑战性的场景进行测试,以确保自动驾驶安全性。本文针对现有自动驾驶仿真方法不够直观且无法与人类交互的局限性,提出了Talk2Traffic,以支持用户的多模态输入来生成各种交通场景。部署自动驾驶汽车(AVs)需要在各种具有挑战性的场景中进行测试,以确保安全性和可靠性,但是采集现实世界数据仍然成本高昂。
2025-07-02 18:40:00
705
原创 RSS 2025|十亿级「灵巧手」数据集Dex1B:抓取成功率 92.6%!
本文作者提出了一种全新的生成式数据构建框架,结合优化和生成模型,推出了目前最大规模的灵巧操作数据集 Dex1B,包含十亿条高质量演示,涵盖抓取(grasping)和关节操控(articulation)两大核心任务。为便于研究社区使用这类大规模数据,作者还设计了一个简单但表现强大的基线模型 DexSimple,结构轻量,易于扩展,且能显著从大规模数据中获益。的大规模灵巧操作数据生成框架,其核心是一种迭代式的数据生成机制,结合优化方法与生成模型,实现了超大规模高质量操作轨迹的自动化构建。
2025-06-30 17:54:12
775
原创 又一篇Science子刊 !浙大高飞团队提出分层规划系统:仅0.01秒生成山地最优航迹!
而后端创新的双层多项式轨迹优化,则从根本上解决了微分平坦模型中困扰已久的奇点问题,确保了轨迹在各种复杂机动下的数值稳定性和高阶运动学可行性,显著提升了机器人轨迹的质量和可执行性。这一分层、稳定且高效的规划框架,不仅在模拟和真实世界的迷宫、固定翼导航等大规模实验中得到了验证 ,更为未来自动驾驶和自主机器人技术在真实、非结构化环境中的广泛部署铺平了道路,预示着机器人将能更智能、更安全地融入我们的生活。相比之下,本方法始终表现出良好的数值稳定性,确保了平滑的速度曲线,并能稳定收敛到动态可行的解决方案。
2025-06-25 19:06:51
1811
原创 86%成功率!斯坦福DexUMI:以人手为通用操作界面,实现灵巧操作
在两种不同型号的灵巧机械手硬件平台上通过全面的真实世界实验,展示了 DexUMI 的能力,取得了平均 86% 的任务成功率。研究观察到,在舀取盐粒的任务中,触觉反馈显著提升了操作性能。研究人员提出的解决方案是:将外骨骼设计参数化,并将佩戴舒适性要求转化为对设计参数的约束,继而通过优化求解达到在保障运动学关系的前提下实现佩戴舒适性的目的。此外,该外骨骼还通过针对每款目标机械手专门设计了硬件优化框架:在确保人手可穿戴性的前提下,通过精调外骨骼参数(如构件长度),使其能精确匹配机械手指的运动轨迹。
2025-06-24 17:56:22
571
原创 强强联手!斯坦福、英伟达联合提出DexMachina,用“虚拟对象控制器”让机器人从单次演示中学会复杂操作
对比了混合动作、绝对动作和残差动作的效果,显示采用腕部约束的混合动作在任务奖励与辅助奖励联合优化下性能最优,例如在 Schunk 手部机器人上,混合动作 + 辅助奖励组合在 Box-200 任务中成功率达 70.8%,较绝对动作提升约 35%,验证了动作空间设计的必要性。尽管有了辅助奖励,但在长时程、复杂接触的任务中,策略仍容易因早期失败而无法学习。这个从易到难的自动课程,让策略能够在一个受保护的环境下探索,然后平滑地过渡到解决完整的、无辅助的复杂操作任务,从而极大地提升了学习的成功率和效率。
2025-06-23 18:42:24
1129
原创 上交&卡尔动力联合提出FastDrive!结构化标签实现自动驾驶端到端大模型更快更强
此外,本文还提出了FastDrive,一个用于端到端的自动驾驶模型,在NuScenes-S数据集上取得了具有竞争力的性能,推理速度更快,参数更少。引入一个结构化的数据集,该数据集关注与驾驶决策密切相关的关键要素,从而消除冗余信息,解决自由格式文本注释中同义表达的局限性,并提高推理效率。图6展示了不同算法模型在感知、预测以及决策任务上的性能对比,实验结果可以看出,FastDrive在预测和决策规划任务上实现了最佳的性能。本文中的LLM在FastDrive算法模型中起到大脑的角色,并且选用的是Qwen2.5。
2025-06-23 18:42:04
940
原创 无需任何定位传感器?VLFly让无人机只靠单目视觉稳健飞行,成功率达83%!
模块化方法试图融合两者优势,通过将传统导航流程中的关键模块替换为可学习的网络结构,以实现更好的可解释性与泛化能力,但仍依赖大量真实数据,且容易出现模块误差积累,缺乏人类式的推理能力。此外,真实环境下的室内外飞行测试也表明,该方法在面对直接或间接指令时,均展现出良好的开放词汇理解能力和泛化导航能力,验证了其实用性。相较之下,传统强化学习方法(如PPO和NPE-DRL)虽然在训练环境中表现良好,但在陌生场景中普遍表现较差,反映出它们对环境变化的适应性较弱。虽然在目标识别方面尚可,但在未见环境中的表现大幅下降。
2025-06-23 18:41:52
1698
原创 纯视觉SOTA!华科&小米推出ReCogDrive:结合VLM和强化学习的端到端自动驾驶框架
给定自车状态例如,自车速度和自车加速度)、传感器输入和导航信息,自动驾驶任务旨在预测未来几秒内平滑且无碰撞的轨迹。传统的端到端驾驶算法表述为:其中,为未来路径点和航向的序列。尽管一些方法已经展现出很强的有效性,但是其黑盒性质阻碍了模型的可解释性,并且它们往往无法泛化到现实世界驾驶场景中罕见的极端情况。最新的工作利用了视觉语言模型的丰富世界知识和强大因果推理能力来实现自动驾驶。VLMs以文本形式输出轨迹,并且生成显式推理过程:然而,观察到语言格式的轨迹空间和连续行为。
2025-06-20 18:02:51
963
原创 举一反“万” | 2篇开创性工作解读:模仿学习,如何让机器人“操作”突破空间泛化瓶颈!
从效果上看,与 Diffusion Policy和 pi0 相比,我们观察到 GR00T N1 有更高的性能提升,我们假设,为 IDM 动作设置单独的动作参数和解码器参数有助于解决神经轨迹以 0 为状态的问题。它们共同揭示了未来机器人自主学习的可能路径——不再依靠繁重的真实数据采集,而是借助智能合成与模拟,让机器人在“虚拟演练”中预习与掌握多样化任务,为下一个时代的机器人学习范式奠定了坚实基础。因此,有效的视觉运动策略想要泛化到足够大的工作空间,必须依赖密集的演示分布。
2025-06-17 08:45:00
681
原创 具身智能路线之争:All in 模仿强化学习 vs 死磕传统控制?从业者到底该「信」谁?
因此构建更加丰富和主动的感知系统,是具身智能实现过程中非常重要的一环,也是第一环。相比构建超大模型、堆参数、调奖励函数,身处“大模型+端到端学习”的热潮之下,更重要的是谁在解决真实问题、谁在把机器人真正落地到工厂、医院、仓库!从更强的三维感知,到低成本触觉采集,再到强化学习的自我修正机制,以及跨模态世界模型的构建——这条路线清晰、难度极高,但确实代表了具身智能通向“自我理解”的方向。因此,具身智能的关键不在于继续堆数据、涨参数,而在于让智能体拥有身体,能主动去感知、行动并反馈,形成一个闭环的自我校正系统。
2025-06-16 17:48:45
624
原创 CVPR 2025最佳论文详解|VGGT:纯前馈Transformer架构,3D几何感知「大一统」模型来了!
论文出处:CVPR2025论文标题:论文作者:项目地址:编译:阿豹导读在3D视觉领域,不同任务之间往往被模型架构所隔离——估相机、做深度、建点云,各用各的网络,协同效率低下。而这篇来自Meta AI的研究打破了传统界限,提出了一个统一的几何感知框架 VGGT(View Generalizable Geometry Transformer),可以从任意数量的视图中直接推理出相机参数、点云、深度图、三维轨迹等全部关键3D属性。
2025-06-16 17:42:41
730
原创 OpenDriveLab用“非专家”自动驾驶数据训练世界模型,高保真可控模拟,性能提升55.3%!
在实验中,该策略选择机制带来了高达 55.3% 的性能提升。此外,为支持以奖励驱动的任务评估,该研究还设计了 Video2Reward 模块,能够将 ReSim 生成的视频序列转化为真实场景中的奖励信号,从而完成从模拟到评估的闭环路径。现有大多数驾驶世界模型主要依赖真实专家驾驶数据或网页视频(如 NAVSIM 和 OpenDV 数据集),但这类数据存在显著偏差——以人类安全驾驶为主,缺乏碰撞、偏航等“非专家行为”的真实记录,导致模型在遇到未见行为时表现不稳定,难以判断策略好坏、提供可靠奖励。
2025-06-16 00:14:13
932
原创 仅用一台Vision Pro就能控制机器人?MoE&闭环纠错,实现机器人长时域精准遥操作
14个使用IMU基础的Xsens MoCap系统捕获的专业级序列;
2025-06-13 16:55:44
636
原创 盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?
OpenVLA 基于 LLaMA 2 的 7B 参数语言模型,融合 SigLIP 与 DINOv2 提供的视觉特征,使用 Open-X Embodiment 提供的 97 万条真实机器人演示轨迹训练,任务涵盖物体摆放、器具清理、多物体分类等,机器人可根据语言指令快速适配多种身体形态(如 WidowX、Franka 等)。首次实现了网页知识到机器人动作的转移。从早期的任务特化导航器与操作器,到如今能够理解语言、解析图像并生成复杂动作的通用智能体,VLA 模型正在悄然改变我们对“机器人”的认知。
2025-06-12 17:55:26
954
1
原创 交互提速30倍!苏黎世联邦理工提出E-APhI新框架,让无人机敢碰硬、会柔抓
近日,《Science Robotics》期刊上发表了一篇由苏黎世联邦理工学院的Emanuele Aucone和Stefano Mintchev撰写的焦点论文,该研究突破性地提出具身空中物理交互(E-APhI)框架,为飞行机器人从单纯感知观察向主动物理交互的进化指明了方向。这场由具身智能引领的技术变革,本质是对机器人 “智能” 的重新定义 —— 当 “身体” 成为感知与决策的核心载体,飞行机器人正以 “物理智商” 的跃升,跨越从实验室到真实世界的鸿沟,向着 “像生物一样与环境共舞” 的终极目标坚实迈进。
2025-06-11 18:38:52
845
原创 五家顶尖机构联合发布 | 可穿戴外骨骼 + 视觉合成:机器人Ctrl C人类的精细操作
DexUMI在Inspire Hand和XHand这两种机器人手上进行了四项任务(立方体抓取、鸡蛋托盘开合、茶叶采摘、厨房操作),其结果表明:相对手指轨迹比绝对轨迹更具抗干扰性,触觉反馈在力信号清晰的任务中有效,DexUMI数据采集效率是传统遥操作的3.2倍。,使得外骨骼的指尖可以完美地与机器人手的指尖在外骨骼腕部相机的图像中对齐,方便完成软件部分用机械手指替换外骨骼手指,得到示教数据。每个手指的关节处都集成了编码器,并都和DexUMI电路板连接,用于获取电机数值,从而实现关节动作的解算;
2025-06-11 17:00:46
872
原创 机器人「估值断层」,这个小赛道凭什么“挽救”人形top企业?
为什么人形机器人都扎堆来“搞体育”了?当普罗大众唏嘘“机器人拳击是噱头”时,资本早已嗅到了“血腥味”……
2025-06-10 18:38:33
838
原创 比主流VLA小10倍,性能却达SOTA!SmolVLA仅用消费级GPU就能高效操控机器人
因此,该研究提出了SmolVLA,一个开源、轻量且高效的VLA模型,同时发布了完整的训练代码、预训练模型与数据处理流程。根据实验分析,选取前半部分的层作为特征提取来源,在保证性能的同时,显著降低了计算量。通过在模拟环境和真实机器人平台上的广泛评估,该研究展示了SmolVLA即便体量小巧,也能达到甚至超过大模型的表现,为具身智能系统的高效部署与广泛普及提供了切实可行的路径。在模型设计上,SmolVLA着眼于低资源部署场景,采用剪裁的视觉-语言主干网络与轻量级动作专家组件,并利用社区贡献的数据进行预训练。
2025-06-10 17:37:01
941
原创 中山大学GaussianFusion:首个将高斯表示引入端到端自动驾驶多传感器融合的新框架
现有的多传感器融合方法可以分成如图1(a)和(b)的两种类型。(a)采用的是扁平化融合方法,通常将传感器特征通过注意力机制压缩到共享的潜在空间。这类方法具备很好的灵活性,并且不依赖传感器的几何校准。但由于缺乏明确的三维空间表示,限制了它们的可解释性,使其在需要精确空间推理的场景中效果不佳。(b)采用的是将多模态特征投射到一个通用的BEV坐标系中,利用几何先验来对齐来自不同传感器的数据。这种融合方式有助于结构化的空间理解,并提升下游感知任务的性能。
2025-06-09 18:05:37
980
原创 独家专访|机器人领域青年学者:新加坡国立大学助理教授石凡
与优秀的人同行》已成功连线上海交通大学秦通老师、浙江大学高飞老师、清华大学许华哲老师、香港大学李弘扬老师、妙动科技CTO杨硕博士等学术界/产业界顶尖嘉宾,全网播放破几十万。他还是IEEE Spectrum Robotics的撰稿人之一,并在多个国际会议和期刊上担任审稿人,如ICRA、IROS、RAL和RSS。这些研究成果不仅展现了石凡老师在机器人领域的创新能力,也为我们提供了深入探讨机器人技术前沿的契机。我们希望能打破时间、空间、经验的屏障,让更多同仁们能够与不同的业内前辈和杰出青年交流探讨。
2025-06-09 17:04:02
726
原创 最新!多模态机器人控制idea狂飙:西湖大学&浙大提出突破传统VLA局限的统一架构?
让机器人真正“读懂”人类意图,实现自然、流畅的交互,始终是具身智能的核心挑战。尽管语言模型已能理解复杂语义,视觉模型也可精准识别万物,但机器人的指令接收方式仍停留在“文字对话”的单一维度。——为此,西湖大学&浙江大学最新研究进展,提出了开放式多模态指令的视觉-语言-动作模型(OE-VLA)。(图像、视频、手写文字等)。这种扩展不是简单的功能叠加,而是需要模型具备更强的多模态理解和融合能力。带着这个疑问,本文将从模型的核心架构、处理流程等多个维度解析其背后的设计逻辑,并配合代码深入解读这一研究。
2025-06-08 09:15:00
870
原创 5天三大动作|宇树CEO王兴兴“挨揍-爬起-再战”的悲情叙事里的「商业阳谋」
十天前那场价值N亿的金属斗殴现场之外,宇树科技CEO王兴兴在朋友圈兴奋地说到:再次创造人类历史新时刻。而这套“挨揍-爬起-再战”的悲情叙事里,似乎藏着更「深远」的筹划。宇树科技更名为「杭州宇树科技股份有限公司」,新增一位董事——北京京国瑞股权投资基金管理有限公司总经理梁望南……宇树科技发布新品人形机器人预告,并暗示价格将不超过6.5万元!终于等到赛事热度消退,我们可以来扒扒“营销”、“噱头”之外,这场“机器人格斗版404”背后蕴含的真正的技术。👇。
2025-06-07 09:30:00
679
原创 登上Science子刊封面的硬核idea:端到端强化学习,首次实现机器狗全自主打羽毛球!
▲图3|机器人在球场不同位置的击球精度(A)、末端执行器速度跟踪误差(B)、实际挥拍速度与底盘角速度关系(C)以及拍面命中精准性(D)共同验证了强化学习策略对整身18自由度的高效调度能力,支持在动态目标下实现高精度、高速度、稳定的连续击球。机器人自信又熟练的挥拍,能够连续的接回高速飞来的羽毛球。完成在虚拟环境中的训练之后,掌握了初步技能的机器人再来到真实的物理世界进行大量的学习,逐步提升自身的技术水平,从而实现对于羽毛球技能从sim到real的泛化©️【深蓝具身智能】编译。▲图5|接球前的微调。
2025-06-06 14:42:01
713
原创 当VLM学会“临时抱佛脚“:清华新框架让自动驾驶AI按需调用工具,推理能力超越GPT-4o!
引入近年来视觉语言模型发展迅猛,衍生出来了诸多应用和产品,并且均取得了非常亮眼的成绩。目前有很多工作都将预训练的大语言模型或者视觉语言模型与自动驾驶任务相结合,简化了原有依赖人工设计的感知、预测和决策组件,充分发挥大模型出色的高级场景理解、常识推理和决策能力。通过利用互联网级别的数据为自动驾驶模型提供更加丰富的语义表示和更加强大的场景泛化能力。基于视觉语言模型的自动驾驶工作可以总结成图1所示的模型范式。图1:自动驾驶任务中不同视觉语言模型使用方法对比。
2025-06-04 17:41:40
766
原创 【无标题AGI关键拼图!(附实现代码)智驾传奇团队再出手:UniVLA 打造机器人通用行动指南】
以任务为中心的潜在动作学习▲图1 | 潜在动作模型的两阶段训练流程©️【深蓝具身智能】编译attention_mask是任务指令的码本,lang_embed是任务指令嵌入,将视频帧、指令嵌入、指令码本输入vq_encode进行VQ-VAE量化编码,然后通过decode解码后得到重建后的图像帧和潜在动作。(这里以UncontrolledDINOLatentActionModel的forward进行说明,ControllableDINOLatentActionModel的forward大致相似)
2025-06-04 10:57:44
553
原创 端到端SOTA!ARTEMIS:结合混合专家(MoE)和自回归轨迹规划的自动驾驶框架
1,研究背景摘要武汉理工大学、香港大学、东南大学、同济大学等高校联合推出ARTEMIS,一种端到端的自动驾驶框架,通过结合自回归轨迹规划方法与混合专家(MoE)模型,在大规模真实环境的NAVSIM数据集上取得显著成绩。©️【深蓝AI】编译本文由paper一作——冯仁炬授权【深蓝AI】发布!
2025-06-03 17:41:17
752
原创 不碰真机也不仿真?(伪代码)伯克利最新:仅用一部手机,生成大规模高质量机器人训练数据!
在具身智能领域,机器人系统的泛化能力始终是核心挑战。当语言模型和视觉模型在海量数据驱动下不断突破边界时,机器人领域却面临着一个残酷现实——数据稀缺性,正成为制约机器人智能化发展的关键瓶颈,这也并非偶然,而是技术路径的必然结果。因为当前主流的人工远程操作数据收集方式,不仅需要高昂的人力成本,还受限于物理机器人的可获取性,难以规模化。物理仿真虽然能够提供高效的数据生成途径,但在模拟复杂对象交互时往往力不从心,需要大量的参数调整和精密的建模工作。
2025-05-30 08:15:00
637
原创 独家复现实录|全球首个「窗口级」VLN系统:实现空中无人机最后一公里配送
1. 目前使用VLM在楼层高度上的估计效果不好,这就导致航点的计算经常容易出错,但比较幸运的是,在多次上上下下往复的调整过程中,最终基本都能找到正确的目标楼层。未来可进一步优化模型轻量化程度,提升复杂动态环境下的鲁棒性,加强多模态信息融合的精准度,探索更多应用场景以提升系统通用性,同时研究如何降低能耗、延长无人机续航时间,更好地满足实际物流配送需求。近期关注到全球首个突破无人机配送 “最后一公里” 技术瓶颈的窗口级 VLN 系统研究,基于对前沿技术的探索与思索,编者对该论文进行了简单的复现。
2025-05-29 08:00:00
602
俞刚-物体检测的过去、现在和未来.pdf
2020-09-07
矩阵指数与对数运算的实现
2014-10-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人