- 博客(154)
- 收藏
- 关注
原创 VLA 论文精读(三十三)A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
这篇论文是一篇比较新的(2025年07月02日发表) VLA 领域综述,原文一共 70 页内容,主要是从 Action Tokenization 角度出发进行了一次全面的总结,可以直接将其当作一个字典,其中的表格整理的非常清晰直观。
2025-07-21 12:10:18
530
2
原创 VLA 论文精读(三十二)ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy
这篇论文是一篇用 RL 提升 VLA 性能的文章,核心是利用强化学习对 VLA 进行高效微调,主要分为两个阶段:离线微调和在线微调。根据论文的描述,其可以仅通过 40~60 分钟的视频演示就能将 VLA 模型微调到一个比较好的效果。但并没有在常见的 VLA 模型如 pi0、OpenVLA、DP 等方案上进行测试。
2025-07-15 19:15:21
315
原创 MLLM 论文精读(一)ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding
这篇论文是一篇有关图片转3D mesh并理解对象的模型,其最大的创新点在于用了一种新的方法对体素的表达进行压缩,大幅度减少了 token 消耗,仅用 1024 个离散 token 就能表示一个 3D 对象。从生成的表现来看优于目前的 SOTA 并且模型对 3D 对象的理解能力也保留了下来。就是训练对 GPU 的消耗很大,用了 48 块 H100,和其基座模型 Qwen-2.5-vl-7B-Instruct 不成比。
2025-07-12 16:40:48
915
原创 VideoLLM 论文精读(一) Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Und
这篇论文是一篇关于 videoLLM 的基准测试报告,作者首先开源了一个 benchmark,然后基于此对来源和商业的共计 23 个 SOTA 模型进行了测试,主要测试目的是考察模型对 真实、安全、鲁棒、隐私、公平 这几个方面的能力。从综合结果来看,由于商业模型用了更丰富的数据集,因此在大盘面上是要由于开源模型的。
2025-07-12 13:05:08
712
原创 VLA 论文精读(三十一)SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
这篇论文是 Hugging Face 出品的一个 VLA 领域论文,其核心在于提出了一个能在消费级 GPU(文章中只说用了4块,以及 30K小时的GPU时,但没有提用的是哪款GPU)上训练的模型、一个异步推理机制、一台低成本机械臂上达到了和 Pi0 同等的效果。虽然作者在简单任务上验证了他们的模型,但在复杂任务上的实验并没有展开,我貌似也没有看见双臂的实验,因此后续的人可以从这里入手使用他们的方式构建模型。
2025-07-11 16:39:29
367
原创 VLA 论文精读(三十)MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for
这篇论文是一篇有关 VLA 领域的论文,其创新点在于退出了一个时空感知路由,配合蒸馏的方式动态选择大模型的功能层进行激活,以此来实现推理加速,模型的参数总量并没有减少。
2025-07-11 13:24:04
351
原创 WorldModel 论文精读(一)A Survey: Learning Embodied Intelligence from Physical Simulators and World Models
这篇论文是具身智能领域中一个有关世界模型的综述,因为出的时间比较新(2025年07月01日),所以总体而言是相当全面的,特别是其原图 2、3 直接对比了仿真器支持的功能和渲染能力,图 4 对比了仿真器对关节的支持性等。此外,在方法和效果上也是言简意赅,可以当作一个速查手册。
2025-07-10 21:23:33
1074
原创 VLA 论文精读(二十九)VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion
这篇论文提出了一个基于 3DGS 的 Real-to-Sim-to-Real 框架,目的在于让策略从仿真到真实世界中更有效地进行迁移。总体上来说创新点比较有限,如果你之前在 3DGS 和 RGBD 重建有基础的话这篇文章读起来并不难。
2025-07-09 13:02:27
730
原创 VLA 论文精读(二十八)RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization
这篇论文是之前著名 RoboTwin 的续集,2025年06月22日出了第一个预印版,截止当前(2025年07月08日)半个月就在 Github 上获得了 1.2K 个 Star,作者团队也是相当的顶。VLA 领域发展太快,从业者必须时刻跟上前沿进度,所以 Paper 不能停。
2025-07-08 20:02:46
1297
原创 VLA 论文精读(二十七)RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete
这篇论文是北大和北京智源研究院(不是上海智元机器人)共同发表的一篇具身大脑的 VLA 论文。智源研究院作为国内在 VLA 领域中科研实力强劲的一个机构,其发表的论文还是相当有技术水平和思想的,值得阅读。
2025-07-07 21:00:46
931
原创 VLA 论文精读(二十六)FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
这篇博客是一篇有关康养 VLA 的论文,目的在于设计了一套安全、个性化、透明的具身机器人。作者在人机交互方面有一些自己的想法,特别是对行动不便人士真实需求的理解上有一些表达。当大家都聚焦机器人能代替流水线工人时,也需要考虑一下机器人能为社会弱势群体做一些什么。
2025-07-07 16:37:40
817
原创 LLM 论文精读(八)Towards Efficient Generative Large Language Model Serving: A Survey from
这篇论文讲的是 LLM 推理加速的综述,比较全面地讲述了在推理加速领域中从算法到硬件上当前取得的进展以及存在的问题,在文章发表的时候(2023年)多模态大模型还没出现爆炸性增长,单单处理自然语言的话推理加速其实没有那么紧切,但现在(2025年)随着多模态模型的井喷,一张图像输入就可能消耗掉几千几万个 token,推理加速就变得非常重要,这也是很多公司 CTO 和 CIO 的共识。现在再回头看这篇综述,可以说是准确预言了大模型正在面对的困难。
2025-07-06 14:15:44
833
原创 VLA 论文精读(二十五)Gemini Robotics: Bringing AI into the Physical World
这篇论文是 Google DeepMind 发布的一个能够在端侧机器人部署的 VLA 模型,并提供了开源 SDK 和仿真环境的代码仓库。与其说这是个论文不如说这是一个技术报告,整体篇幅达到 68 页,中心思想是基于 Gemini 的模型无论在性能还是开箱即用上都碾压当前的SOTA。
2025-07-03 19:42:06
805
原创 VLA 论文精读(二十四)ALOHA Unleashed: A Simple Recipe for Robot Dexterity
这篇论文是 Google DeepMind 在 2024 年 10 月发表的论文,基于 Aloha2 机器人硬件实现了系鞋带、悬挂衣服等工作。因为近期工作原因需要对这部分进行研究,所以有了此篇 Paper Reading 的创作,这篇论文其实得到了几个非常重要的结论。
2025-06-30 13:15:00
816
原创 Model 复现系列(三)π0 -- Physical Intelligence Pi-zero(Pi0)
这篇博客就是复现 Physical Intelligence 的 π0 即 Pi0,虽然 PI 已经推出了这个模型的进化版本 Pi0.5,但复现 Pi0 仍然有很重要的意义(主要是很多公司还在基于 Pi0 进行微调,只能说 PI 速度太快了),因此这篇博客先复现 Pi0 后面会再去复现 Pi0.5。
2025-06-22 21:41:26
2100
5
原创 Model 复现系列(二)ACT-Plus-Plus Mobile ALOHA
这篇博客用来复现 VLA 中的模型 ACT,这个模型可以算得上是整个 VLA 领域的鼻祖,尽管模型非常小也没使用到非常新颖的模块,但这是第一个在 VLA 领域中有实际作用的模型,也是大家能在很短时间内复现的模型,且对 GPU 的现存要求也不高。但要注意,源码中有很多工程的部分做的不是很好,建议按照这篇博客的顺序来。
2025-06-18 22:44:45
1388
3
原创 VLA 论文精读(二十三)π0: A Vision-Language-Action Flow Model for General Robot Control
这篇博客是一篇迟到的博客,也是在写 Pi-0 模型复现博客时才发现之前只写了 Pi-0.5 而忘了写 Pi-0 的论文精读,因此在这里给补上。虽然 Pi-0.5 无论从效果还是泛化性上已经将 Pi-0 进行了大幅度的超越,但作为前者的基石还是很有必要进行一次论文精读。
2025-06-18 12:39:33
472
原创 Swift 6 学习笔记(三)Basic Operators
这篇笔记也是同步 Swift 6 官方教程中的第三篇 《Basic Operators》,主要Swift中涉及到的基础运算符,如果你已经有了其他语言的编程基础,那么理解这一章节的难度很小。
2025-06-13 01:05:50
665
原创 UE5 学习系列(九)光照系统介绍
这篇博客介绍了 UE5 中的光照系统,UE5 相比较于其他游戏引擎甚至 UE4 的最大优势就是他的光照系统,其提供了非常拟真的光照解决方案,因此这部分内容是非常重要的。
2025-06-12 21:53:42
1240
原创 Swift 6 学习笔记(二)The Basics
这篇笔记也是同步 Swift 6 官方教程中的第二篇 《The Basics》,这篇博客中的大部分内容在第一篇中已经涉及,这篇可以被认为是基础类型的的补充篇,多了很多说明信息。
2025-06-12 01:40:58
990
原创 UE5 学习系列(七)导入bridge资产包
这篇博客是有关资产导入导出的最后一部分,介绍了如何导入 bridge 资产包,这个包在前面的几篇博客中时常提及但一直没有正真用上,这篇博客中就会用到。但需要注意的是因为 Editor 和 Bridge 的版本变动很大, 所以原始视频中的一些操作已经失效了,这里记录的是是我当前使用的软件版本。
2025-06-11 18:23:35
1345
原创 UE5 学习系列(六)导入资产包
这篇博客记录了 UE5 教学视频中导入资产包,包括从 Epic 商城中下载、本地文件复制、从其他已经打开的项目中导出再导入。总体来说比较简单,需要注意的是期间涉及到的文件路径。
2025-06-11 17:20:01
1451
原创 UE5 学习系列(五)导入贴图资产
这篇博客记录了 UE5 教学视频中导入贴图资产的部分,介绍了一个贴图资源网站 Polyhaven 和将贴图素材导入到 UE Editor 中需要注意的选项,整体而言内容不多。
2025-06-11 15:13:14
1224
原创 UE5 学习系列(四)导入模型资产
这篇博客是该系列的第四篇,主要介绍如何在 UE 中导入模型资产,其间涉及到一些 Maya 的操作,因为我电脑上没有安装这个软件就不配这部分的图了,你可以直接从博客中的网盘链接里下载素材然后跳过相应章节;
2025-06-11 13:09:33
1215
原创 Swift 6 学习笔记(一)A Swift Tour
这个坑是新开的一个有关 swift 6 的学习笔记系列,因为我近期需要在 Apple Vision OS 上进行具身遥操作应用的开发,需要用到 swift 和 swiftUI 这两个开发语言,在此之前我完全没有接触过 swift,也没有在 iOS 平台上进行过开发,因此这个系列博客是我个人的一个纯零基础笔记,和其他的几个系列博客相比,可能中间存在一些错误。
2025-06-11 00:27:35
699
原创 UE5 学习系列(三)创建和移动物体
这篇博客是该系列的第三篇,是在之前两篇博客的基础上展开,主要介绍如何在操作界面中创建和拖动物体,以及自定义的一个小屋
2025-06-10 22:03:14
1661
原创 UAV 论文精读(二)A Simple Detector with Frame Dynamics is a Strong Tracker
这篇论文是 2025 年 CVRP 在反无人机领域的 Best Paper,也是一篇有源码的论文,其算法在 Track 1 和 Track 2 比赛中分别获得了第一和第二名。后面我会找机会在 AirSim 上对其进行复现。
2025-06-10 02:11:43
843
原创 UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容,主要介绍了操作界面中的基本功能和按钮分布,在最后用了一个第三人称游戏模式作为结尾
2025-06-09 22:30:23
1535
原创 UE5 学习系列(一)创建一个游戏工程
这个系类笔记用来记录学习 UE 过程中遇到的一些问题与解决方案。整个博客的动机是在使用 AirSim 中遇到了不少性能瓶颈,因此想要系统性地去学一下 UE ,这个系列博客主要是跟着 B 站大佬 欧酱 和 GenJi是真想教会你 的系列视频 《500 分钟学会UE》
2025-06-09 20:17:00
926
原创 AirSim/Cosys-AirSim 游戏开发(四)外部固定位置监控相机
这个博客介绍了如何通过 `settings.json` 文件添加一个无人机外的 **固定位置监控相机**,因为在使用过程中发现 Airsim 对外部监控相机的描述模糊,而 Cosys-Airsim 在官方文档中没有提供外部监控相机设置,最后在源码示例中找到了,所以感觉有必要记录下。
2025-06-09 13:10:37
1516
5
原创 AirSim/Cosys-AirSim 游戏开发(三)打包可执行文件
之前两篇博客介绍了如何在 AirSim 中使用自定义的场景并在 UE Editor 中运行,但这种方式其实生成的是 Debug 版,包含了很多调试使用的符号连接,在后面追求性能的时候会成为瓶颈,这篇博客介绍如何将第二篇博客中使用的场景编译成 Shipping。
2025-06-06 21:39:38
1219
原创 AirSim/Cosys-AirSim 游戏开发(二)使用自定义场景
在实际的开发过程中很少会只用 AirSim 自带的 Blocks 场景,通常需要用到自定义的一些环境和模型,依托于强大的 UE 引擎可以较为逼真地完成场景渲染。这篇博客记录了如何从头开始导入一个自定义场景并加载 AirSim 插件。
2025-06-05 22:04:44
1193
原创 AirSim/Cosys-AirSim 游戏开发(一)XBox 手柄 Windows + python 连接与读取
这个系列用来记录在开发 AirSim 应用过程中遇到的一些问题和解决方案,由于 AirSim 已经停止维护了,因此我实际的开发平台是 Cosys-AirSim,但这个 fork 在编译和部署的时候有不少坑,后续我会找机会补上。
2025-06-04 13:17:42
674
原创 UAV 论文精读(一)Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future
这是一篇有关 UAV 领域的论文精读,因为近期工作涉及到无人机反制(简称:反无),所以还是需要阅读几篇和该领域相关的论文。总体来说这篇文站是一篇十分精炼的综述,没有过多的废话,直接点名了不同无人机监测、识别、跟踪方案之间的优劣。
2025-06-03 20:49:00
799
原创 Mujoco 学习系列(十一)官方教程 The differentiable physics tutorial trains locomotion policies with
这篇博客是 mujoco 学习系列中跟随官方教程的第 6 篇《The differentiable physics tutorial trains locomotion policies with analytical gradients automatically derived from MuJoCo's physics step》。主要介绍了基于 MJX 的可微物理仿真,虽然官方文档中写了可以在 CPU 上运行,但为了今后的博客能够连续,还是建议在 GPU 上练习。
2025-05-30 19:01:49
1121
原创 Mujoco 学习系列(十)官方教程 The MJX tutorial provides usage examples of MuJoCo XLA, a branch of
这篇博客是 mujoco 官方教程文档中的第 5 篇 《The MJX tutorial provides usage examples of MuJoCo XLA, a branch of MuJoCo written in JAX》,此处我跳了一下最小二乘法那篇,因为那篇有些过于偏实际应用了,计划在下下一篇博客中介绍那篇文章。这篇博客刚好赶上该系列的番外一,在部署完成 JAX 之后趁热打铁介绍下使用 MJX 和纯 CPU 直接的差异。
2025-05-28 21:53:53
709
原创 Mujoco 学习系列(番外一)MJX 部署与配置
这篇笔记是 mujoco 系列的番外第一篇,主要介绍如何在电脑上配置 JAX 和 MJX(Muojco + JAX),之所以介绍这方面内容是因为在实际使用中发现模型推理可能只消耗 0.05s,但 mujoco 仿真环境模拟一步有时就需要消耗 15s,如果你的问题本身不大的话造成这种情况的原因通常是因为没有开启加速或者没有选对积分器导致的。
2025-05-28 14:31:12
835
原创 Mujoco 学习系列(九)官方教程 The LQR tutorial synthesizes a linear-quadratic controller, balancing a humanoid
这篇文章是追随 Mujoco Github 仓库中官方教程的第三篇 《The LQR tutorial synthesizes a linear-quadratic controller, balancing a humanoid on one leg》,涉及到一些最优化控制 LQR 的内容。
2025-05-27 20:41:03
742
原创 Mujoco 学习系列(八) 官方教程 The rollout tutorial shows how to use the multithreaded rollout module
这篇文章是追随 Mujoco Github 仓库中官方教程的第三篇 《**The rollout tutorial shows how to use the multithreaded rollout module**》:
2025-05-27 13:25:12
979
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人