一、关于 Verifiers
1、项目概览
该代码库提供了一套在可验证环境中使用大语言模型(LLM)进行强化学习的工具集。
警告: 当前代码应视为研究性代码,不保证训练结果的稳定性或最优性。建议使用7B以上模型和至少8块GPU以获得最佳效果。
注意: 若无需多轮工具调用或智能体交互,建议直接使用TRL(或Unsloth/Axolotl)进行GRPO训练。本项目主要面向多轮LLM强化学习场景。
2、相关链接资源
- GitHub仓库:https://github.com/willccbb/verifiers
- PyPI包(即将发布):https://pypi.org/project/verifiers/
- TRL文档参考:https://huggingface.co/docs/trl/main/en/grpo_trainer#trl.GRPOTrainer
二、安装配置
git clone https://github.com/willccbb/verifiers.git
cd verifiers
uv sync
uv pip install flash-attn --no-build-isolation
source .venv/bin/activate
环境准备:
- 需预先配置
wandb
和huggingface-cli
登录 - 如遇版本问题,请先确认能运行
verifiers/examples/trl_grpo.py
示例
三、使用示例
1、多GPU训练(GRPO多轮训练)
参考verifiers/examples/math_train.py
示例(使用ToolEnv环境+Python工具):
启动推理服务:
CUDA_VISIBLE_DEVICES=0,1,2,3 python verifiers/inference/vllm_serve.py \
--model "Qwen/Qwen2.5-7B-Instruct" \
--tensor_parallel_size 4 \
--max_model_len 8192 \
--gpu_memory_utilization 0.9 \
--enable_prefix_caching True
启动训练:
CUDA_VISIBLE_DEVICES=4,5,6,7 accelerate launch \
--num-processes 4 \
--config-file configs/zero3.yaml \
verifiers/examples/math_train.py
支持特性:
- 多节点训练(通过SLURM)
- 自定义推理主机IP/端口配置
2、离线评估
使用MultiTurnEnv
环境类 进行多轮工具调用的离线评估,参考 verifiers/examples/math_eval.py
示例。
3、自定义环境
继承MultiTurnEnv
并实现以下方法即可创建自定义环境:
def is_completed(self, messages: List[Dict[str, str]], **kwargs: Any) -> bool:
pass
def env_response(self, messages: List[Dict[str, str]], **kwargs: Any) -> Dict[str, str]:
pass
四、功能特性
- 环境模块
- 支持
DoubleCheckEnv
、CodeEnv
、ToolEnv
、SmolaToolEnv
等多种环境
- 支持
- 多轮工具调用
- 在
ToolEnv
、SmolaToolEnv
、CodeEnv
中实现
- 在
- 数据处理
- 数据集格式化+XML解析器
- 评估体系
- 数学/代码正确性+格式化的基础评估标准
- 预设配置
- 提供GRPO、模型、分词器等默认配置
伊织 xAI 2025-05-28