物理 AI

NVIDIA Cosmos

开发推动物理 AI 发展的世界基础模型。

概览

NVIDIA Cosmos 是什么?

NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM) 先进分词器、护栏以及用于加速数据处理和管理的高效工作流的集成平台。该技术为世界模型训练提供支持,并加速智能汽车(AV)机器人物理 AI 开发。

NVIDIA 发布全新 Omniverse 库、Cosmos 物理 AI 模型及 AI 计算基础设施

探索 Cosmos Transfer-2 等 NVIDIA Cosmos 模型的新版本如何助力世界生成以及多场景仿真环境强化。

NVIDIA 发布全新的 AI 模型和开发者工具,推动汽车行业生态系统发展

全新的 Cosmos Predict-2 WFM 和物理 AI 数据集通过加强未来世界状态预测能力来加速智能汽车的训练,从而生成高质量的合成数据。

模型

Cosmos 基础世界模型

一系列预训练多模态模型,开发者可以开箱即用,用于世界生成和推理,或进行后训练以开发专用的物理 AI 模型。

Cosmos Predict

高性能基础模型,根据单个图像和文本提示生成 30 秒的预测世界状态视频。

Cosmos Predict-2 现已推出,可实现更快、更出色的世界生成,并支持多帧速率和分辨率。

Cosmos Transfer

多控制模型可跨各种环境和光照条件快速扩展单个模拟或空间视频。

通过将 Cosmos Transfer 与物理模拟器和 NVIDIA Omniverse™、CARLA 等平台结合使用,加速可控合成数据的生成

Cosmos Reason

完全可定制的推理视觉语言模型,使用视频和图像的结构化推理,在理解物理世界方面表现出色。

该平台可在运行时为视频分析 AI 智能体提供支持,使其能够从时空角度理解城市和工业运营,或为机器人和智能汽车整理训练数据。

工具

后训练 Cosmos 基础世界模型

Cosmos 为开发者提供开放式的高性能数据管护工作流、标记器、训练框架和训练后脚本。凭借这些,开发者能快速、轻松地构建各类专用世界模型,诸如用于具身 AI 的策略模型和视觉语言动作 (VLA) 模型等。

高效地对视频数据进行标记化

使用 Cosmos 标记器以更高的压缩率生成图像或视频标记,以实现可扩展、稳健且高效的大世界模型的开发。选择高分辨率或低分辨率变体,将 Cosmos WFM 后训练为专用 AI 模型。

加速数据管护

借助 CUDA-X™ 的 NVIDIA NeMo™ Curator 工作流和用于处理超过 100PB 数据的 NVIDIA AI 加速工具,将数据处理速度提高 20 倍。它提供开箱即用的优化,可更大限度地降低总体拥有成本 (TCO) ,并缩短上市时间。

后训练脚本

使用 PyTorch 脚本为下游物理 AI 用例自定义 Cosmos WFM。后训练模型以生成动作或文本,或修改长度、精度、视图和摄像头控制,以匹配现实世界的场景和要求。

数据管护

借助 Cosmos Curate,开发者可以快速处理大量传感器数据,创建满足模型需求的定制数据集。

加速高效的视频分割、注释、过滤、重复数据删除和数据集生成。

硬件

借助 NVIDIA AI 实现卓越性能

Cosmos WFM 已针对 NVIDIA 最新的 Blackwell 架构 GPU 进行了进行全面优化。

在 NVIDIA Blackwell 上运行

对于运行 Cosmos 世界基础模型等大规模自定义多模态模型的企业,NVIDIA Blackwell 架构 GPU 可为数十亿多个参数的工作负载提供行业领先的速度和可扩展性。访问 NVIDIA DGX Cloud,开发新一代 AI 超级集群和大规模物理 AI 应用。

物理 AI 开发者可以利用搭载 NVIDIA RTX PRO Blackwell GPU 和 DGX Cloud 的服务器和工作站平台,使用 NVIDIA Omniverse 和 Cosmos 加速合成数据生成。这种组合可让您快速生成基于物理的良好合成数据。这有助于先进的机器人、智能汽车和仿真工作流程。


用例

开发者如何使用 NVIDIA Cosmos

加速下游基础模型开发,通过合成数据生成和后训练推动视觉 AI 和具身 AI 的发展。

机器人训练

机器人需要大量不同的训练数据,才能有效感知环境并与之交互。借助 Cosmos WFM,开发者可以生成可控的高保真合成数据,以训练机器人感知和策略模型。

智能汽车训练

多样化、高保真的传感器数据对于安全的训练、测试和验证智能汽车至关重要。通过在车辆数据上进行后训练的 Cosmos WFM,开发者能够丰富现有数据的多样性,添加新的天气、光照和地理位置条件,或扩展至多传感器视角——从而大幅节省时间与成本,也可利用 Cosmos 中的数据管护工具整理数据。

视频分析 AI 智能体

这些 AI 智能体可以分析、总结实时或录制的视频流,并与之进行交互,以提高工业和城市环境的自动化水平、安全性和运营效率。

Cosmos Reason 是一种可定制的视觉语言模型 (VLM) ,可为视频分析 AI 智能体提供先进的物理世界视觉理解和时空推理能力。这些 AI 智能体提供实时问答、快速警报和丰富的情境洞察,为边缘端和云端的部署中提供更智能、响应更灵敏的系统支持。

我们的承诺

为物理 AI 社区普及可信 AI

Hugging Face 和 GitHub 上提供 Cosmos 模型、护栏和标记器,并提供资源来解决训练物理 AI 模型时的数据稀缺问题。我们致力于推动 Cosmos 向前发展——透明、开放,并面向所有人。

AI Infrastructure

Get the Best Performance With NVIDIA Blackwell

NVIDIA RTX PRO 6000 Blackwell Series Servers accelerate physical AI development for robots, autonomous vehicles, and AI agents across training, synthetic data generation, simulation, and inference.

Unlock peak performance for Cosmos world foundation models on NVIDIA Blackwell GB200 for industrial post-training and inference workloads.

生态系统

已被领先的物理 AI 创新者广泛应用

来自机器人、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。

下一步

准备好开始了吗?

使用 NVIDIA API 目录下基础世界模型试驾,或开始使用 NVIDIA Cosmos 构建您的世界模型。

WFM 后训练

Cosmos WFM 专为后训练而构建,可解锁强大的下游世界模型,加速物理 AI 开发。

为世界模型策划视频数据

利用由 NVIDIA NeMo Curator 提供支持的加速数据处理和管护工作流,该工作流针对 NVIDIA 数据中心 GPU 进行了优化。

资源

Cosmos 开发者的最新动态

常见问题解答

文档入手。Cosmos 世界基础模型在 Hugging Face 上公开提供,并可在 GitHub 上获取推理和后训练脚本。开发者还可以在 GitHub 和 Hugging Face 上的 /NVIDIA/cosmos-tokenizer 下载 Cosmos tokenizer。

Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。

PyTorch 脚本可供所有 Cosmos 模型用于后训练。请阅读文档,获取有关后训练的分步指南。

可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以首先使用 NeMo Curator 进行视频数据预处理。 然后使用 Cosmos tokenizer 对数据进行压缩和解码。处理完数据后,您可以使用 NVIDIA NeMo 训练或微调模型。

借助 NVIDIA NIM™ 微服务,您可以轻松将物理 AI 模型集成到云、数据中心和工作站的应用中。

您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。

这三个模型都是具有不同角色的世界基础模型:

  • Cosmos Predict 可以根据文本、图像或视频提示生成多样化的视频场景,非常适合用于机器人或智能汽车等主题的微调训练。
  • Cosmos Transfer 支持多重控制风格迁移,可对基于物理的视频 (通常在 NVIDIA Omniverse 等模拟器中生成) 进行光照和环境的变化。
  • Cosmos Reason 通过视频输入推理来回答文本查询。

Cosmos Reason 还可以基于一个起始视频,为 Cosmos Predict 生成全新且多样的文本提示,或对 Predict 和 Transfer 生成的合成数据进行评估和批判。

Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。

开发者可以将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控的逼真合成数据。

Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。

详细了解 NVIDIA Omniverse