自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4026)
  • 收藏
  • 关注

转载 多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线三维计算机视觉领域高度关注于捕捉场景的几何和视觉外观,以及理解其内容。近年来,三维高斯溅射(3D Gaussian Splatting, 3DGS)因其独特的能力——能够以一种紧凑的形式联合编码场景的几何、外观和理解属性(该形式可以有效地从二维带位姿的图像中优化得到)——已成为最理想的三维表示方法。此外,视觉-语言推理代表了三维场景理解最具前景的方向,因为它将场景的视觉和几何属性与我们用来定义、描述和推理概念的语言连接起来。因

2025-06-21 00:02:37 26

转载 近30家具身公司业务和产品一览

研发高分辨率多模态触觉感知、触觉灵巧手软硬件产品,并通过深度融合通用人工智能和机器人技术,研发含视觉、触觉和语言的操作模型(VTLA),为具身智能、智慧物流、智能制造、实验室自动化等末端抓取领域提供创新性解决方案。:聚焦“以力为中心”的具身智能大模型和相关基础设施的研发,为不同行业的客户提供创新的通用机器人智能解决方案和服务,以解决现实世界中的复杂问题。:专注于人形机器人研发与制造,通用人工智能本体,机器人仿生,以及具身操作系统等多个方向的研发。

2025-06-20 15:04:54 10

转载 斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?

作者对比了推理模型(R1-OneVision)和非推理模型(Qwen2.5-VL)的注意力分布,发现推理模型对“视觉tokens”(比如图片里物体的特征)的关注度超低,越深层的神经网络越不看图片,反而把更多注意力砸在“指令tokens”(比如“问题”“分析”这些词)上📊。图6:推理模型在不同推理长度下的注意力转移。:当模型开始“滔滔不绝”地推理时,视觉注意力会进一步下降,变成“语言先验依赖症”——比如图1b里的实验显示,推理模型在“感知任务”上的幻觉率比非推理模型高一大截,妥妥的“想太多,看太少”!

2025-06-20 07:30:40 22

转载 学习端到端大模型,还不太明白VLM和VLA的区别。。。

2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置等等)VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模的能力有限,多模的上限是更高的。业内最全的全栈学习路线图,独家业内招聘信息分享~

2025-06-19 19:54:26 53

转载 ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型

早期融合方法(如在VLM前注入力数据)显著降低了性能,而晚期融合方法(在VLM后连接力特征)将成功率提高到60%,ForceVLA通过FVLMoE模块实现的自适应融合达到了80%的成功率,验证了力应在VLM编码后引入并通过复杂融合机制利用的设计原则。在多任务联合训练中,ForceVLA表现出卓越的多任务能力,平均成功率达到67.5%,在瓶子按压和白板擦拭任务中获得80%的成功率,在插头插入任务中达到100%的成功率,证明了其在共享策略中利用多模态线索的能力。本文只做学术分享,如有侵权,联系删文。

2025-06-19 14:30:58 13

转载 调研了一圈,还是更想做自动驾驶!

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。这两个月订单排满了,正在不断组装调试,5台及以上订单可以优惠哦!自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。黑武士支持二次开发和改装,预留了众多安装位置和接口,可以加装相机、毫米波雷达等传感器;我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。

2025-06-19 14:30:58 17

转载 AI Day直播!清华&吉利Challenger框架:自动驾驶对抗场景高效生成~

实验表明,所生成场景显著提升主流端到端自动驾驶模型(如UniAD、VAD)的碰撞率(最高达26倍),且发现的对抗行为具有跨模型可迁移性,揭示了自动驾驶系统的共性脆弱性。:基于扩散模型生成初始轨迹,结合线性二次调节器(LQR)控制器与自行车运动学模型进行物理仿真,通过迭代式重采样、噪声扰动和去噪细化,高效筛选对抗性候选轨迹。:设计兼顾环境约束与对抗性的复合评分指标(可行驶区域合规性、碰撞率、对抗挑战度),在抽象层面评估轨迹质量,避免高成本的逐轨迹渲染计算。自动驾驶感知(大模型、端到端自动驾驶。

2025-06-19 07:30:22 6

转载 自动驾驶前沿文章速递 | VLA、场景生成、拓扑推理~

将BEV车道投影至前视图(FV)图像空间,提取对应FV特征并与BEV车道查询融合,结合位置编码(PE)对齐空间关系,解决BEV车道与FV交通元素(如红绿灯、标志)的空间表征差异问题。创新点 :提出物理感知动作标记化 (Physical Action Tokenization),将动作空间(如加速度、转向角)离散化为可学习的标记,确保生成轨迹的物理可行性。融合车道特征(MLP生成的前驱/后继嵌入)与几何距离特征(端点到起点距离的MLP编码),构建高维L2L关系嵌入(GL2L),降低对微小感知误差的敏感性。

2025-06-18 20:35:57 50

转载 课程+软件+硬件!自动驾驶全栈开发平台黑武士001持续量产中......

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。这两个月订单排满了,正在不断组装调试,5台及以上订单可以优惠哦!自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。黑武士支持二次开发和改装,预留了众多安装位置和接口,可以加装相机、毫米波雷达等传感器;我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。

2025-06-18 12:00:00 21

原创 开闭环双SOTA!北航FocalAD:局部交互感知端到端规划新框架,碰撞率降低超过40%~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群论文作者 | Bin Sun等编辑 | 自动驾驶之心在端到端的自动驾驶中,运动预测在自车规划中起着关键作用。然而,现有方法通常依赖于全局聚合的运动特征,忽视了规划决策主要受一小部分局部交互代理影响的事实。未能关注这些关键的局部交互可能会掩盖潜在风险并削弱规划的可靠性。在本研究中,我们提出了FocalAD,一种新的端到端自动驾驶框架,该框架专注于关键的局部邻居,并通过增强局部

2025-06-18 07:30:44 765

转载 对VLA的RL最新进展的梳理~

为了避免传统的机器人RL训练中稀疏的二元奖励带来的问题,作者决定给训练轨迹中划分一些稠密的伪奖励,来指示当前状态/动作序列片段朝着任务完成的有效进展程度,从而用它们训练一个专门的奖励模型(Robotic Process Reward Model)。RIPT-VLA主要是采用LOOP算法的online RL,给出了开源代码。实验上主要在Simpler-Env和LIBERO环境中,使用open-VLA和它的原始检查点、SFT、每一step level的DPO以及Octo的SFT对比,超过了它们的表现。

2025-06-18 07:30:44 26

转载 VLA/端到端/3DGS/具身智能!自动驾驶之心业务合伙人招募~

如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们;自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发;更多欢迎添加微信咨询,备注“ 机构/公司 + 自动驾驶合作咨询 ”。QS200以内高校,硕士及以上学历,手握顶会的大佬优先。自动驾驶资源共享(求职、读博、出国留学推荐等);创业项目合作与推荐;

2025-06-17 16:44:06 19

转载 浙大最新!X-Scene:具有高保真度和灵活可控性的大规模驾驶场景生成!

将BEV车道投影至前视图(FV)图像空间,提取对应FV特征并与BEV车道查询融合,结合位置编码(PE)对齐空间关系,解决BEV车道与FV交通元素(如红绿灯、标志)的空间表征差异问题。创新点 :提出物理感知动作标记化 (Physical Action Tokenization),将动作空间(如加速度、转向角)离散化为可学习的标记,确保生成轨迹的物理可行性。融合车道特征(MLP生成的前驱/后继嵌入)与几何距离特征(端点到起点距离的MLP编码),构建高维L2L关系嵌入(GL2L),降低对微小感知误差的敏感性。

2025-06-17 16:44:06 54

转载 正在整理了!原来大家都对这个感兴趣

除此之外,还和数十家自动驾驶公司建立了1v1内推渠道,简历直达!星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;

2025-06-17 10:23:00 49

转载 UniVLA:高效利用多源异构数据,构建通用可扩展的机器人动作空间

在这个“中间表征”上统一训练与泛化策略,不仅可以有效解决上述瓶颈,同时也能够以更低的计算资源消耗实现更优的效果。核心创新在于构建了以任务为中心的潜在动作空间(Task-Centric Latent Action Space),彻底抛弃了对动作标签的依赖,让模型可以从海量无标签视频中也可以学习任务相关且高效泛化的动作表示,只在人类视频数据(Ego4D)上预训练,也可以在 LIBERO 仿真平台上达到 SOTA 级别效果。(包括人类视频),实现跨动作空间和场景的知识迁移。等任务,实现了通用的动作学习。

2025-06-17 10:23:00 30

转载 CVPR 2025 最佳论文!Meta&牛津VGGT:高效3D视觉新范式~

有趣的是,研究团队还意外发现,利用模型预测的深度图与相机参数反投影生成的点云,其质量甚至超过直接回归的点图,这一现象揭示了模型对几何一致性内在规律的自发学习能力。其博士工作聚焦于端到端几何推理框架的创新,曾主导开发PoseDiffusion、VGGSfM,以及本次提出的通用3D基础模型VGGT,相关成果均发表于CVPR、ICCV等顶级会议,推动了数据驱动式3D重建技术的演进。视觉重建作为所有 3D 任务的核心,VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的,基础模型的时代。

2025-06-17 07:30:21 416

原创 世界模型SOTA!华科&小米Genesis:跨模态时空一致性,更真实更可用!

具体而言,首先构建包含车道段、人体姿态关键点和3D车辆边界框的结构化BEV布局,将其投影到各视角2D图像平面形成语义控制图,再通过Control-DiT模块的交叉注意力机制在每个去噪时间步融入这些结构化先验,实现对生成过程的引导。此外,与大多数现有的多模态生成方法一样,目前的方法通常依赖于有限的语义监督,通常以粗略标签或通用标题模型的形式而没有充分利用现代视觉语言模型 (VLM) 的细粒度描述能力。统一的多模态生成架构。通过改变场景级条件,本文的方法可以生成与同一基础地图和物体布局对齐的一致多视图视频。

2025-06-17 07:30:21 981

转载 上交最新!助力部署,EfficientVLA:免训练加速和压缩的VLA模型

EfficientVLA使用基于相似度的重要性度量来针对语言模块的主要内存瓶颈及其观察到的深度方向冗余(图1(b)),采用基于相似度的重要性度量来剪除功能上无关紧要的层,从而在不重新训练的情况下减少模型深度和内存需求。这种协同的、结构化的方法比孤立的优化更全面地缓解了GPU计算和内存瓶颈。提出了EfficientVLA,这是一种新颖的免训练、结构化推理加速框架,它基于信息影响协同修剪语言模块中的冗余层,并通过考虑VLA任务相关性和固有图像特征多样性,策略性地选择紧凑的、以任务为中心的视觉token子集。

2025-06-16 16:50:06 40

转载 图解大模型微调系列之:大模型低秩适配器LoRA(原理篇)

在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。这里也推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。多模态大模型当下应用的瓶颈在哪里?大模型高效微调已经成为业界关注的焦点,无论是通用大模型,还是智驾大模型,如何通过轻量微调变成各个不同领域的专业模型,成为讨论的热点。

2025-06-16 07:31:26 23

原创 超越DiffusionDrive!华科提出ReCogDrive:结合强化学习的三阶段VLA训练框架~

ReCogDrive的结构主要由驾驶多模态大模型和基于扩散模型的规划器组成,推理时,将前视图以及导航指令,历史轨迹,任务指令输入给多模态大模型,多模态大模型输出隐藏特征作为Diffusion的Condition,Diffusion从噪声中逐步去噪生成最终轨迹。最后,我们引入仿真辅助的强化学习,将通过多轨迹探索获得的泛化驾驶认知整合进扩散规划器中。在本工作中,我们提出了 ReCogDrive,一个端到端的自动驾驶系统,集成了视觉语言大模型与基于扩散模型的轨迹规划器,并采用了三阶段的训练范式。

2025-06-16 07:31:26 943

转载 数据闭环的核心 - 千万级静态元素自动标注方案分享

老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。在这一章都会有答案!调研下来,原来业内已经在完整的3D场景中展开标注了,这样统一的时空下,利用位姿就可以投影到每一帧上,保证位姿的准确性就可以,并且在俯视图上车道线标注的难度大大降低,非常适合大规模铺开。:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;

2025-06-15 16:03:09 37

转载 字节BridgeVLA:基于VLM的输入-输出对齐高效 3D 操作学习

现有整合 3D 信息到 VLM 以开发 3D VLA 模型的工作,常将动作转为无空间结构的标记序列进行预测,未像高效 3D 策略那样对齐观察与动作的统一空间,且 3D 输入与 VLM 预训练的 2D 图像输入存在分布偏移,导致样本效率低,因此亟待开发兼具 VLA 有效性与 3D 策略效率的统一 3D VLA 模型。该预训练策略输出具备空间意识的 2D 热图,区别于先前工作中基于标记序列的预测方式,且可利用关键点检测、语义分割等任何可转化为热图预测任务的视觉 - 语言数据集,具有高度可扩展性。

2025-06-15 16:03:09 61

转载 DriveAction: 面向VLA模型的人类化驾驶决策基准

依赖开源数据集(如nuScenes、Waymo),覆盖场景单一,关键场景(匝道汇入、施工区、行人交互)代表性弱。:模型在车道定位(Navigation Position)任务准确率仅66.8-71.3%(Table 4)。:移除视觉输入平均精度下降3.3%,移除语言输入下降4.1%,同时移除下降8.0%(Table 3)。:在V-L-A模式下,o1模型精度达93.56%(Table 3),但该优势在信息缺失时减弱。:匹配端到端大模型输出粒度,体现人类决策的离散性特征(对比Table 1的Label列)。

2025-06-15 00:01:39 36

转载 分层端到端VLA和纯端到端VLA有什么区别?

这类端到端的范式依赖于先前广泛的研究先验,通过不同架构(diffusion/ transformer/dit),不同的模型大小,不同的应用场景(2d/3d),不同的任务需求(从头训/下游微调),产生了各类不同的方案,取得了不错的性能。无论是显示端到到VLA,还是隐式/分层端到端VLA,其中涉及到的模块、细节众多。隐式端到端VLA,则不同于前者,更加关注工作的可解释性,旨在利用当前的video diffusion模型实现未来状态的预测,再根据未来的状态通过逆运动学规律生成未来可执行的动作。

2025-06-15 00:01:39 37

转载 谢赛宁开炮,现场打脸CVPR评审?!

时间来到2025年,当OpenAI在发布最新版o3和o4-mini的时候,不仅在模型评测中加入了基于V*的视觉搜索基准,而且还将基于图像的思考能力作为重中之重,直接放在了标题上。而当他人也达成了与我同样的理解——那一刻,我便获得了一种满足感,一种深刻的归属感。就在几个月后,CVPR评审又被打脸了:Stable Diffusion 3发布,直接表明「结合了DiT架构和流匹配技术」,也就是基于SiT。然而,就是这样一篇神作,当初却因「缺乏创新性」的理由,直接被CVPR 2023拒了,还一连被多个大公司拒绝。

2025-06-15 00:01:39 58

转载 一文盘点完全端到端的主流方法

多目标多头蒸馏模块:我们看到轨迹模仿学习之后的轨迹还过了其他的MLP,这就是其他头,它的目标也是不一样的,第一个是跟碰撞相关的,第二个是跟行驶区域相关的,第三个是跟舒适度相关的,也就是说不同的评判指标都有一个teacher,之前的模仿学习就是人类的teacher,那么这些teacher是怎么来的呢?体现出了监督的有限性,而且没考虑到监督的安全、交通规则、舒适、效率。本文作者提出的新的范式,就是规划模块是多模的输出,同时,目标也是多样性的,即不仅是GT的轨迹也同时引入了更多的正样本,由不同的专家给出的。

2025-06-15 00:01:39 68

转载 大幅降低内存开销!BitVLA:首个面向机器人操作的1-bit VLA模型

点击下方卡片,关注“具身智能之心”公众号作者丨Hongyu Wang等编辑丨具身智能之心本文只做学术分享,如有侵权,联系删文>>点击进入→具身智能之心技术交流群更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。昨天还在和具身智能之心星球内部的童鞋讨论VLA模型的部署问题,觉得领域关注的还不够,甚至说没有时间去处理部署,因为现在具身还有很多问题没有很好解决,昨天看到了一篇BitVLA,关于部署的,觉得蛮有意思,和大家分享下。更多干货,欢迎加入我们的具身圈子,和

2025-06-14 00:01:35 47

转载 给自己一个机会!欢迎加入自动驾驶之心业务合伙人~

如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们;自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发;更多欢迎添加微信咨询,备注“ 机构/公司 + 自动驾驶合作咨询 ”。QS200以内高校,硕士及以上学历,手握顶会的大佬优先。自动驾驶资源共享(求职、读博、出国留学推荐等);创业项目合作与推荐;

2025-06-13 16:10:59 16

转载 元戎启行周光:携手火山引擎,基于豆包大模型打造物理世界Agent

搭载VLA模型的AI 汽车不仅能 “看见” 道路标识,更能 “读懂” 文字背后的通行规则,解析复杂路况里蕴含的路况信息,让复杂路况决策如 “开卷考试” 般从容。例如,在通过无红绿灯的路口时,VLA模型能提前识别到“注意横穿,减速慢行”的指示牌,即使公交车通行造成动态盲区,VLA也会结合公交车的动作去做出准确的决策。vla模型是一个超级学霸,它通过互联网迅速获取知识并转换成自己的经验,有自己的驾驶“知识库”,对驾驶过程中出现的各类障碍物了如指掌,准确判断潜在危险因素,行驶更安全。语音交互控车:驾驶“应答灵”

2025-06-13 07:30:46 28

转载 也谈Diffusion扩散模型 - 从图像生成到端到端轨迹规划~

条件扩散模型(Conditional Diffusion Models, CDMs)是一类基于扩散过程的生成模型,在生成过程中引入了额外的条件信息,从而能够生成更为符合特定需求的样本,例如生成符合特定文本描述、类别标签或其他先验信息的图像。这里的drift就是头文字D里面的飘移,在极限情况下的飘移动作(横向滑动),该模型能通过基于物理信息的数据驱动动态模型的参数多模态分布,捕捉复杂数据集中的轨迹分布。在常见的扩散模型中,比如基于高斯分布假设的扩散模型,每一层(时间步)的条件概率分布通常都被建模为高斯分布。

2025-06-13 07:30:46 27

原创 端到端SOTA!中山大学GaussianFusion:高斯建模让自动驾驶感知-规划一体化效率飙升~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群论文作者 | Shuai Liu等等编辑 | 自动驾驶之心中山大学团队的工作,开闭环的效果都还不错。利用高斯表征和扩散端到端的方法结合在一起,最终效果比DiffusionDrive要好一些。多传感器融合对于提高端到端自动驾驶系统的性能和鲁棒性至关重要。现有方法主要采用基于注意力的扁平化融合或通过几何变换的鸟瞰图融合。然而,这些方法通常在可解释性上有限或计算开销较大。本文中,

2025-06-12 07:30:29 576

转载 RoboRefer:面向机器人空间推理参照的三维感知视觉语言模型~

尽管预训练视觉语言模型(VLMs)已展现出强大的跨模态理解能力,但现有方法在处理三维场景时仍存在两大局限:一是缺乏对深度信息的有效整合,二是难以应对多步空间推理任务。当前多数研究集中于单步空间理解,如识别物体的相对位置或距离,但对"先定位最近的桌子,再将苹果沿原行列对齐放置"这类需要多阶段推理的任务支持不足。采用分离的RGB和深度编码器,避免共享编码器导致的模态干扰。深度编码器基于SigLIP模型初始化,专门处理深度图中的距离、远近关系等三维线索,在保留RGB编码器预训练能力的同时,增强三维空间感知精度。

2025-06-12 07:30:29 23

转载 马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值。。。

于是Milan Kovac右脚还没迈出大楼,就被工程副总裁拉斯·莫拉维等拦了下来,一起喝了点小酒后,Milan Kovac平息下来,后来缩减了PPT数量,再度向马斯克汇报。在他的离职信中,他首先回顾了自己在特斯拉的十年工作经历,包括连续几代Autopilot计算机和相关软件的迭代升级,以及Optimus成立伊始时的艰难。2022年升任Optimus项目负责人,在他的领导下,特斯拉的人形机器人从概念发展为一款功能齐全的第二代双足机器人,并能在特斯拉工厂中自主工作。没想到的是,这种“灾难”还在继续。

2025-06-12 07:30:29 21

转载 PRCV‘25空间智能与具身智能视觉感知挑战赛正式启动!

定义为:对于成功完成的任务,位姿误差为0,而对于失败的任务,位姿误差为物体最终位置与正确位置范围之间的最短归一化欧氏距离。各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的测试数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,组织方保留追究法律责任的权利。竞赛期间,组委会坚持公开、公平、公正的原则。各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。

2025-06-12 07:30:29 40

转载 PRCV‘25空间智能与具身智能视觉感知挑战赛正式启动!

定义为:对于成功完成的任务,位姿误差为0,而对于失败的任务,位姿误差为物体最终位置与正确位置范围之间的最短归一化欧氏距离。各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的测试数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,组织方保留追究法律责任的权利。竞赛期间,组委会坚持公开、公平、公正的原则。各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。

2025-06-12 07:30:29 21

转载 这份“技术地图“让你3秒锁定核心干货

星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;这么多的领域问题,需要行业最专业的回答。

2025-06-11 21:47:25 44

转载 【PRCV 2025】空间智能与具身智能视觉感知挑战赛,正式启动!

定义为:对于成功完成的任务,位姿误差为0,而对于失败的任务,位姿误差为物体最终位置与正确位置范围之间的最短归一化欧氏距离。各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的测试数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,组织方保留追究法律责任的权利。竞赛期间,组委会坚持公开、公平、公正的原则。各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。

2025-06-11 15:02:18 149

转载 港科技GVPO:理解GRPO,超越GRPO

DPO其实不一定具有唯一的最优解,换句话说KL约束的reward最大化的解可能只是DPO众多最优解中的一个。DR: 我们提出了GVPO,优势:(1)唯一最优解恰好是KL约束的reward最大化最优解(2)支持多样化采样分布,避免on-policy和重要性采样带来的各种问题。解耦带来的优势:一方面避免了on-policy样本利用率低的缺点,另一方面也避免了现有off-policy方法的重要性采样带来的缺点。GVPO与DPO一样,都利用到了KL约束的reward最大化的解析解。

2025-06-11 07:31:04 58

原创 新一代世界模型!GeoDrive:显式注入空间结构信息,问鼎SOTA(北大&理想)

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『世界模型』技术交流群论文作者 | Anthony Chen等编辑 | 自动驾驶之心由北京大学、伯克利人工智能研究院(BAIR)与理想汽车(Li Auto)联合出品,GeoDrive 是一款面向自动驾驶的新一代世界模型系统。针对现有方法普遍依赖二维建模、缺乏三维空间感知,从而导致轨迹不合理、动态交互失真的问题,GeoDrive 首创性地将三维点云渲染过程纳入生成范式,在每一帧生成中显式注入空间结构信息

2025-06-11 07:31:04 690

转载 车道线论文:Maptr v1/LaneGAP/Maptr v2/Map QR

在自动驾驶场景中,构建矢量化高清地图需要同时关注地图元素的整体结构(如行人过道的轮廓、车道线的走向)以及组成这些结构的精确点集(例如每个地图元素的关键点)。过去传统车道线检测算法一般是基于分割,得到一系列散点,再利用模型进行后处理,将散点组成不同的车道线,通常需要聚类,匹配等算法,这个过程后处理一般比较重,往往需要2-3个全职的工程师维护这个过程,还伴随着很多的超参数,通常需要很大的维护量。然后,通过一些启发式的后处理步骤(如细化算法)从分割图中提取车道的骨架,最后将这些细化后的像素骨架连接成车道图。

2025-06-11 07:31:04 51

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除