1. pip安装
pip install vllm
下载模型在huggingface.co
注意在modelscope上的这个opt-125m好像不行了,我git不下来报错
启动服务
vllm serve opt-125m --model opt-125m --port 8888
第一个opt-125m是名字,可以在vllm支持的模型中查到,第二个是模型存放文件夹及其路径
也可以
python -m vllm.entrypoints.openai.api_server --model=opt-125m --port 8888
客户端
curl http://localhost:8888/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "opt-125m",
"prompt": "San Francisco is a",
"max_tokens": 7,
"temperature": 0
}'
或者从
git clone https://www.modelscope.cn/OpenBMB/miniCPM-bf16.git
然后启动
python -m vllm.entrypoints.openai.api_server --mod