物理 AI
开发推动物理 AI 发展的世界基础模型。
概览
NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM) 先进分词器、护栏以及用于加速数据处理和管理的高效工作流的集成平台。该技术为世界模型训练提供支持,并加速智能汽车(AV) 和机器人的物理 AI 开发。
模型
一系列预训练多模态模型,开发者可以开箱即用,用于世界生成和推理,或进行后训练以开发专用的物理 AI 模型。
高性能基础模型,根据单个图像和文本提示生成 30 秒的预测世界状态视频。
Cosmos Predict-2 现已推出,可实现更快、更出色的世界生成,并支持多帧速率和分辨率。
多控制模型可跨各种环境和光照条件快速扩展单个模拟或空间视频。
通过将 Cosmos Transfer 与物理模拟器和 NVIDIA Omniverse™、CARLA 等平台结合使用,加速可控合成数据的生成。
完全可定制的推理视觉语言模型,使用视频和图像的结构化推理,在理解物理世界方面表现出色。
该平台可在运行时为视频分析 AI 智能体提供支持,使其能够从时空角度理解城市和工业运营,或为机器人和智能汽车整理训练数据。
借助 Cosmos Curate,开发者可以快速处理大量传感器数据,创建满足模型需求的定制数据集。
加速高效的视频分割、注释、过滤、重复数据删除和数据集生成。
加速下游基础模型开发,通过合成数据生成和后训练推动视觉 AI 和具身 AI 的发展。
机器人需要大量不同的训练数据,才能有效感知环境并与之交互。借助 Cosmos WFM,开发者可以生成可控的高保真合成数据,以训练机器人感知和策略模型。
多样化、高保真的传感器数据对于安全的训练、测试和验证智能汽车至关重要。通过在车辆数据上进行后训练的 Cosmos WFM,开发者能够丰富现有数据的多样性,添加新的天气、光照和地理位置条件,或扩展至多传感器视角——从而大幅节省时间与成本,也可利用 Cosmos 中的数据管护工具整理数据。
这些 AI 智能体可以分析、总结实时或录制的视频流,并与之进行交互,以提高工业和城市环境的自动化水平、安全性和运营效率。
Cosmos Reason 是一种可定制的视觉语言模型 (VLM) ,可为视频分析 AI 智能体提供先进的物理世界视觉理解和时空推理能力。这些 AI 智能体提供实时问答、快速警报和丰富的情境洞察,为边缘端和云端的部署中提供更智能、响应更灵敏的系统支持。
Hugging Face 和 GitHub 上提供 Cosmos 模型、护栏和标记器,并提供资源来解决训练物理 AI 模型时的数据稀缺问题。我们致力于推动 Cosmos 向前发展——透明、开放,并面向所有人。
来自机器人、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。
从文档入手。Cosmos 世界基础模型在 Hugging Face 上公开提供,并可在 GitHub 上获取推理和后训练脚本。开发者还可以在 GitHub 和 Hugging Face 上的 /NVIDIA/cosmos-tokenizer 下载 Cosmos tokenizer。
Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。
PyTorch 脚本可供所有 Cosmos 模型用于后训练。请阅读文档,获取有关后训练的分步指南。
可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以首先使用 NeMo Curator 进行视频数据预处理。 然后使用 Cosmos tokenizer 对数据进行压缩和解码。处理完数据后,您可以使用 NVIDIA NeMo 训练或微调模型。
借助 NVIDIA NIM™ 微服务,您可以轻松将物理 AI 模型集成到云、数据中心和工作站的应用中。
您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。
这三个模型都是具有不同角色的世界基础模型:
Cosmos Reason 还可以基于一个起始视频,为 Cosmos Predict 生成全新且多样的文本提示,或对 Predict 和 Transfer 生成的合成数据进行评估和批判。
Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。
开发者可以将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控的逼真合成数据。
Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。
详细了解 NVIDIA Omniverse。