基于Embodied Chain-of-Thought的开源项目教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00238/article/details/147384480

基于Embodied Chain-of-Thought的开源项目教程

embodied-CoT Embodied Chain of Thought: A robotic policy that reason to solve the task. 项目地址: https://gitcode.com/gh_mirrors/em/embodied-CoT

1. 项目介绍

Embodied Chain-of-Thought (ECoT) 是一种新颖的机器人政策训练方法。该方法通过训练一个视觉-语言-行动模型，使其能够针对指令和图像生成推理步骤，然后再选择机器人行动，从而实现更好的性能、可解释性和泛化能力。本项目基于OpenVLA构建，为研究者和开发者提供了深入理解和应用ECoT算法的途径。

2. 项目快速启动

为了快速启动本项目，您需要遵循以下步骤：

首先，确保您已经安装了必要的依赖项。以下是项目所需的Python库：

pip install torch transformers

接下来，您可以使用以下代码加载ECoT政策并进行推理：

from transformers import AutoModelForVision2Seq, AutoProcessor
import torch

# 设置设备为CUDA（如果可用）
device = "cuda"

# 指定模型路径
path_to_hf = "Embodied-CoT/ecot-openvla-7b-bridge"

# 加载处理器
processor = AutoProcessor.from_pretrained(path_to_hf, trust_remote_code=True)

# 加载模型
vla = AutoModelForVision2Seq.from_pretrained(path_to_hf, torch_dtype=torch.bfloat16).to(device)

# 准备观察和指令
observation = "<ROBOT IMAGE OBSERVATION HERE>"
instruction = "<YOUR INSTRUCTION HERE>"

# 创建提示
prompt = "一个好奇的用户和人工智能助手之间的对话。\n助手给出详尽、礼貌的答案来回应用户的问题。\n用户：机器人应该采取什么行动来完成{instruction.lower()}？助手：任务："

# 处理输入
inputs = processor(prompt, image=observation).to(device, dtype=torch.bfloat16)

# 生成行动
action, generated_ids = vla.predict_action(**inputs, unnorm_key="bridge_orig", max_new_tokens=1024)

# 解码生成的文本
generated_text = processor.batch_decode(generated_ids)[0]

# 输出生成的行动
print(generated_text)

请替换<ROBOT IMAGE OBSERVATION HERE>和<YOUR INSTRUCTION HERE>为实际的机器人的观察数据和您希望机器人执行的指令。