Verifiers - 可验证环境中的LLM强化学习工具集

最新推荐文章于 2025-07-16 19:54:25 发布

EAI工程笔记

最新推荐文章于 2025-07-16 19:54:25 发布

阅读量270

点赞数 5

CC 4.0 BY-SA版权

分类专栏： # AI 开源项目文章标签： Verifiers 强化学习工具集

本文链接：https://blog.csdn.net/lovechris00/article/details/148841749

AI 开源项目专栏收录该内容

230 篇文章

订阅专栏

文章目录

一、关于 Verifiers

1、项目概览

该代码库提供了一套在可验证环境中使用大语言模型（LLM）进行强化学习的工具集。

警告： 当前代码应视为研究性代码，不保证训练结果的稳定性或最优性。建议使用7B以上模型和至少8块GPU以获得最佳效果。

注意： 若无需多轮工具调用或智能体交互，建议直接使用TRL（或Unsloth/Axolotl）进行GRPO训练。本项目主要面向多轮LLM强化学习场景。

2、相关链接资源

GitHub仓库：https://github.com/willccbb/verifiers
PyPI包（即将发布）：https://pypi.org/project/verifiers/
TRL文档参考：https://huggingface.co/docs/trl/main/en/grpo_trainer#trl.GRPOTrainer

二、安装配置

git clone https://github.com/willccbb/verifiers.git
cd verifiers
uv sync
uv pip install flash-attn --no-build-isolation
source .venv/bin/activate

环境准备：

需预先配置wandb和huggingface-cli登录
如遇版本问题，请先确认能运行verifiers/examples/trl_grpo.py示例

三、使用示例

1、多GPU训练（GRPO多轮训练）

参考verifiers/examples/math_train.py示例（使用ToolEnv环境+Python工具）：

启动推理服务：

CUDA_VISIBLE_DEVICES=0,1,2,3 python verifiers/inference/vllm_serve.py \
  --model "Qwen/Qwen2.5-7B-Instruct" \
  --tensor_parallel_size 4 \
  --max_model_len 8192 \
  --gpu_memory_utilization 0.9 \
  --enable_prefix_caching True

启动训练：

CUDA_VISIBLE_DEVICES=4,5,6,7 accelerate launch \
  --num-processes 4 \
  --config-file configs/zero3.yaml \
  verifiers/examples/math_train.py

支持特性：

多节点训练（通过SLURM）
自定义推理主机IP/端口配置

2、离线评估

使用MultiTurnEnv环境类进行多轮工具调用的离线评估，参考 verifiers/examples/math_eval.py 示例。

3、自定义环境

继承MultiTurnEnv并实现以下方法即可创建自定义环境：

def is_completed(self, messages: List[Dict[str, str]], **kwargs: Any) -> bool:
    pass

def env_response(self, messages: List[Dict[str, str]], **kwargs: Any) -> Dict[str, str]:
    pass