点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
3D视觉工坊很荣幸邀请到马萨诸塞大学阿默斯特分校博士生甄昊宇,为大家着重分享他们团队的工作:TesserAct
。如果您有相关工作需要分享,欢迎文末联系我们。
TesserAct: Learning 4D Embodied World Models
论文:https://arxiv.org/abs/2504.20995
主页:https://tesseractworld.github.io
代码:https://github.com/UMass-Embodied-AGI/TesserAct
直播信息
时间
2025年06月30日(周一)10:30
主题
ICCV 2025 | TesserAct: 首个通用4D世界模型
直播平台
3D视觉工坊哔哩哔哩
扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播
主讲嘉宾
甄昊宇
马萨诸塞大学阿默斯特分校博士生
马萨诸塞大学阿默斯特分校博士生,师从Chuang Gan教授,与Yilun Du教授合作开展研究。研究方向聚焦于具身智能、3D/4D世界模型与通用感知模型。他是TesserAct、3D-VLA、3D-LLM等工作的主要作者,论文发表于NeurIPS、ICML、ICCV等国际顶会。本科毕业于上海交通大学人工智能专业,期间曾在MIT等机构访问交流,实习于NVIDIA与Meshy。
个人主页:https://haoyuzhen.com/
直播大纲
TesserAct 是我们提出的首个通用四维具身世界模型,可从图像与指令出发,生成具有物理一致性的 RGB、深度(Depth)与法线(Normal)视频,重建具身环境中的动态场景,并指导机器人完成复杂操作。它不仅仅是视频生成,更是一个时空一致的四维场景,帮助机器人理解场景、预见未来、学习策略。
3D/4D基础模型研究动机
人类行为启发3DLLM、3DVLA如何与世界交互
世界模型定义
TeaserAct 4D世界模型架构
TeaserAct 能力与潜在应用
当前模型的局限性
未来后续工作
参与方式

注:3D视觉工坊很荣幸邀请到马萨诸塞大学阿默斯特分校博士生甄昊宇,为大家着重分享他们团队的工作:TesserAct
。如果您有相关工作需要分享,欢迎联系微信:cv3d009 请备注:直播宣传,则不予通过。