Jetson AGX Orin 配置LLM Deepseek-R1 7B模型

  测试环境:

     硬件 : AGX ORIN 32G 套件

    软件: Jetpack6.2 ,R36.4.3

    按照官方测试数据,AGX ORIN 64套件可以跑70B 模型,为什么测试7B ,测试机器是AGX ORIN 32G 内存套件,图方便 直接使用内部64G EMMC 存储,不想麻烦去挂载SSD盘,存储空间大小限制,64G EMMC存储空间刚好只能满足7B模型运行大小, 同样方法在ORIN NANO/NX 套件也是可以运行,内存不够时候需要释放相关的内存,如关闭系统桌面

sudo init 3     # stop the desktop

采用方式是英伟达官方提供适配测试demo方式,参考链接如下,

https://www.jetson-ai-lab.com/models.html

    上次听Jeff 老师课程之后,尝试按照NVIDIA 方式在AGX orin 平台适配和运行Deepseek,折腾几天,发现很多时候总是链接报错,猜测原因是NVIDIA  方式Docker 采用NIM 微服务调用方式,对接open-ai和huggingface 平台,这两个鬼佬的平台对国内访问不友好,最后折腾出来能跑起来模型,   对遇到问题总结下,

        国内用户不能科学上网方式,建议用ollma 方式适配deepseek和其他大模型简单快捷,在国内别折腾了

1. Docker 安装

参考链接

🔖 SSD + Docker - NVIDIA Jetson AI Lab

sudo apt update
sudo apt install -y nvidia-container curl
curl https://get.docker.com | sh && sudo systemctl --now enable docker
sudo nvidia-ctk runtime configure --runtime=docker

sudo systemctl restart docker
sudo usermod -aG docker $USER
newgrp docker

sudo apt install -y jq
sudo jq '. + {"default-runtime": "nvidia"}' /etc/docker/daemon.json | \
  sudo tee /etc/docker/daemon.json.tmp && \
  sudo mv /etc/docker/daemon.json.tmp /etc/docker/daemon.json

sudo systemctl daemon-reload && sudo systemctl restart docker

2. 参考官方docker 运行脚本,了解模型需要资源

3. 提前从huggingface 找到和下载模型到本地(git  clone ),后续不需要在docker 里面再访问huggingface.co下载,huggingface 资源访问需要科学上网才能获取


 

git clone https://huggingface.co/dusty-nv/DeepSeek-R1-Distill-Qwen-7B-q4f16_ft-MLC

 3.  机器安装openai,  需要科学上网

 pip install openai

 4.拷贝模型文件到指定目录下在面,这个目录对应后面 docker -v 路径参数

cecport@ubuntu:~$ ls -l /home/cecport/cache/mlc_llm/dusty-nv/DeepSeek-R1-Distill-Qwen-7B-q4f16_ft-MLC/
total 3805012
-rwxrwxrwx 1 cecport cecport   9855032  3月 25 00:26 aarch64-cu126-sm87.so
-rw-r--r-- 1 root    root         1977  3月 27 21:44 mlc-chat-config.json
-rw-r--r-- 1 root    root       134600  3月 27 21:44 ndarray-cache.json
-rwxrwxrwx 1 cecport cecport 272498688  3月 25 00:27 params_shard_0.bin
-rwxrwxrwx 1 cecport cecport  33947648  3月 24 23:57 params_shard_10.bin
-rwxrwxrwx 1 cecport cecport  29605888  3月 25 00:26 params_shard_11.bin
-rwxrwxrwx 1 cecport cecport  67895296  3月 25 00:16 params_shard_12.bin
-rwxrwxrwx 1 cecport cecport  33947648  3月 24 23:57 params_shard_13.bin
-rwxrwxrwx 1 cecport cecport  67895296  3月 25 00:16 params_shard_14.bin

 5.运行docker 模型相关的服务 ,需要下载 llm server 镜像和启动相关容器

    由于国内网络访问Huggingface受限,我们需要通过镜像网站 : https://hf-mirror.com 下载模型和相关的资源,增加参数

     -e HF_ENDPOINT=https://hf-mirror.com \

docker run -it --rm \
  --name llm_server \
  --gpus all \
  -p 9000:9000 \
  -e DOCKER_PULL=always --pull always \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e HF_HUB_CACHE=/root/.cache/huggingface \
  -v /home/cecport/cache:/root/.cache \
  dustynv/mlc:r36.4.0 \
    sudonim serve \
      --model dusty-nv/DeepSeek-R1-Distill-Qwen-7B-q4f16_ft-MLC \
      --quantization q4f16_ft \
      --max-batch-size 1 \
      --chat-template deepseek_r1_qwen \
      --host 0.0.0.0 \
      --port 9000

启动正常结果,其实这个也是报错,访问hugging face 433端口失败,国内网络原因,折腾很多方式会有失败信息,之前模型下载本地关联起来,最后模型还是能挂载起来,

写一个 open-ai.py 测试脚本

# use 'pip install openai' before running this
from openai import OpenAI

client = OpenAI(
  base_url = 'http://0.0.0.0:9000/v1',
  api_key = 'foo' # not enforced
)

chat = [{
  'role': 'user',
  'content': 'ni hao'
}]

completion = client.chat.completions.create(
  model='default', # not enforced
  messages=chat,
  temperature=0.2,
  top_p=0.7,
  stream=True
)

for chunk in completion:
  if chunk.choices[0].delta.content is not None:
    print(chunk.choices[0].delta.content, end='')

 执行之后得到deepseek 回复,说明搭建模型环正常运行,

cecport@ubuntu:~/deepseek$ python open-ai.py
<think>

</think>

你好!很高兴能为你提供帮助。请告诉我你需要什么类型的帮助,我会尽力为你提供详细的解答。

cecport@ubuntu:~/deepseek$
 

6. 安装OPEN-WEBUI

需要网页浏览窗口 ,方便与deepseek 模型对话操作

cecport@ubuntu:~$ docker run -it --rm \
  --name open-webui \
  --network=host \
  -e PORT=8080 \
  -e ENABLE_OPENAI_API=True \
  -e ENABLE_OLLAMA_API=False \
  -e OPENAI_API_BASE_URL=0.0.0.0:9000/v1 \
  -e OPENAI_API_KEY=foo \
  -e AUDIO_STT_ENGINE=openai \
  -e AUDIO_TTS_ENGINE=openai \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e AUDIO_STT_OPENAI_API_BASE_URL=0.0.0.0:8990/v1 \
  -e AUDIO_TTS_OPENAI_API_BASE_URL=0.0.0.0:8995/v1 \
  -v /home/cecport/cache/open-webui:/app/backend/data \
  -e DOCKER_PULL=always --pull always \
  -e HF_HUB_CACHE=/root/.cache/huggingface \
  -v /home/cecport/cache:/root/.cache \
  ghcr.io/open-webui/open-webui:mai

open webui 运行成功之后显示图片

7. 通过PC端 网页访问 登陆open webui IP地址:端口,输入账号,邮箱,密码(务必记住,后续登陆需正确信息才能进入)。

   最后发现页面里面没有发现大模型,这个问题很奇怪,到腾研究下也找不到原因,通过open webui错误信息判断是open webui 访问失败,明明通过网页可以访问http://0.0.0.0:9000/v1/models,猜测是open webui 本身程序或者软件版本兼任有问题

错误地方日志:

 |INFO     | open_webui.routers.openai:get_all_models:379 - get_all_models() - {}
 | ERROR    | open_webui.routers.openai:send_get_request:78 - Connection error: 0.0.0.0:9000/v1/models - {}

8. 参考网上 高人方法,在open -webui 设置选项里面 --外部链接 ,把模型相关的链接信息添加进去,发现可以把模型加载近来,

 9. 先问一个问题测试下deepseek,感觉回答还算可以

如果想更完美回复,可以上传一些本地知识库文件上去,回答会更完美些

 

对话模式下,CPU ,GPU和 内存 运行状态

10.

遗留问题,benchmark 跑分总是有错误,找不到原因,可能还是网络原因导致有些文件下载失败,缺失导致,

 docker run -it --rm \
  --name llm_server \
  --network=host \
  --runtime=nvidia \
  --gpus all \
  -p 9000:9000 \
  -e DOCKER_PULL=always --pull always \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e HF_HUB_CACHE=/root/.cache/huggingface \
  -v /home/cecport/cache:/root/.cache \
  dustynv/mlc:r36.4.0 \
  sudonim bench stop \
--model dusty-nv/DeepSeek-R1-Distill-Qwen-7B-q4f16_ft-MLC \
--quantization q4f16_ft \
--max-batch-size 1 \
--chat-template deepseek_r1_llama \
--host 0.0.0.0 \
--port 9000

错误信息如下

/usr/local/lib/python3.10/dist-packages/transformers/utils/hub.py:128: FutureWarning: Using `TRANSFORMERS_CACHE` is deprecated and will be removed in v5 of Transformers. Use `HF_HOME` instead.
  warnings.warn(
[2025-03-29 11:55:31] INFO request_processor.py:47: Fixing number of concurrent requests: 2
[2025-03-29 11:55:38] INFO request_processor.py:279: Warmup with 3 request(s)...
  0%|                                                                                                                                                                                                              | 0/3 [00:00<?, ?it/s][2025-03-29 11:55:38] INFO api_endpoint.py:279: API endpoint errored when sending request: Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/aiohttp/connector.py", line 1115, in _wrap_create_connection
    sock = await aiohappyeyeballs.start_connection(
  File "/usr/local/lib/python3.10/dist-packages/aiohappyeyeballs/impl.py", line 104, in start_connection
    raise first_exception
  File "/usr/local/lib/python3.10/dist-packages/aiohappyeyeballs/impl.py", line 82, in start_connection
    sock = await _connect_sock(
  File "/usr/local/lib/python3.10/dist-packages/aiohappyeyeballs/impl.py", line 174, in _connect_sock
    await loop.sock_connect(sock, address)
  File "/usr/lib/python3.10/asyncio/selector_events.py", line 501, in sock_connect
    return await fut
  File "/usr/lib/python3.10/asyncio/selector_events.py", line 541, in _sock_connect_cb
    raise OSError(err, f'Connect call failed {address}')
ConnectionRefusedError: [Errno 111] Connect call failed ('0.0.0.0', 9000)

The above exception was the direct cause of the following exception:

下载过程访问错误解决

(1) docker: Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

(2)iptables failed: iptables --wait -t raw -A PREROUTING -p tcp
-d 172.19.0.2 --dport 9000 ! -i br-de7b322f65f3 -j DROP: iptables v1.8.7 (legacy): can't initialize
iptables table `raw': Table does not exist (do you need to insmod?)

修改 /etc/docker/daemon.json

cecport@ubuntu:~$ cat /etc/docker/daemon.json
{
  "runtimes": {
    "nvidia": {
      "args": [],
      "path": "nvidia-container-runtime"
    }
  },
  "default-runtime": "nvidia",
  "iptables": false,
  "registry-mirrors": ["https://docker.registry.cyou",
"https://docker-cf.registry.cyou",
"https://dockercf.jsdelivr.fyi",
"https://docker.jsdelivr.fyi",
"https://dockertest.jsdelivr.fyi",
"https://mirror.aliyuncs.com",
"https://dockerproxy.com",
"https://mirror.baidubce.com",
"https://docker.m.daocloud.io",
"https://docker.nju.edu.cn",
"https://docker.mirrors.sjtug.sjtu.edu.cn",
"https://docker.mirrors.ustc.edu.cn",
"https://mirror.iscas.ac.cn",
"https://docker.rainbond.cc"]

}

### 在 Jetson AGX Orin 上使用 TensorRT 部署 YOLOv7 要在 Jetson AGX Orin 上通过 TensorRT 部署 YOLOv7,可以按照以下方式实现: #### 1. 环境准备 确保已经安装了适用于 Jetson AGX Orin 的必要软件包和库。这包括但不限于 PyTorch 和 torchvision 的正确版本配置[^3]。如果尚未完成此操作,则可以通过 Conda 创建一个新的虚拟环境并克隆已有的 Torch 环境来简化设置过程。 ```bash conda create --name yolov7_tensorrt --clone torch3.8 ``` 接着激活新创建的环境,并验证其是否正常工作。 #### 2. 安装 TensorRT 及相关依赖项 为了支持 TensorRT 加速推理功能,在目标设备上需先安装最新版 TensorRT SDK。可以从 NVIDIA 开发者网站获取适合 Jetpack 版本对应的 TensorRT 软件包。此外还需确认 CUDA 工具链以及 cuDNN 库均已就绪[^2]。 #### 3. 修改 `requirements.txt` 文件 进入 YOLOv7 源码目录后编辑 `requirements.txt` ,加入对 ONNX 导出器的支持以及其他可能需要用到的 Python 扩展模块。例如添加如下几行内容到文件末尾: ```plaintext onnx==1.10.2 onnx-simplifier>=0.3.6,<0.4 tensorrt>=8.0.0,<9.0.0 ``` 保存更改后的清单文档以便后续 pip 自动解析这些新增需求。 #### 4. 将模型转换成 ONNX 格式 利用官方脚本或者自定义逻辑把训练好的权重参数导出为通用中间表示形式——ONNX Model。通常情况下执行命令类似于这样子的形式: ```python import torch from models.experimental import attempt_load device = 'cuda' if torch.cuda.is_available() else 'cpu' model = attempt_load('weights/best.pt', map_location=device) # 加载预训练模型 dummy_input = torch.randn(1, 3, 640, 640).to(device) torch.onnx.export( model, dummy_input, "yolov7.onnx", opset_version=11, do_constant_folding=True, input_names=['input'], output_names=['output'] ) print("Exported to ONNX successfully!") ``` 上述代码片段展示了如何基于原始框架实例化网络结构并将之序列化至磁盘作为 `.onnx` 文件存储下来[^1]。 #### 5. 构建 TRT Engine 最后一步就是借助 TensorRT API 来加载先前生成的那个静态图描述符进而编译成为高效的运行时引擎对象供实际预测调用。这里推荐参考开源项目 **TensorRT-Alpha** 提供的一系列示范程序学习具体实践细节: ```cpp #include <NvInfer.h> // ... other includes ... int main(int argc, char *argv[]) { // Initialize logger and builder objects. nvinfer1::ILogger gLogger; auto builder = nvinfer1::createInferBuilder(gLogger); // Set max workspace size (e.g., 1GB). const uint64_t MAX_WORKSPACE_SIZE = 1 << 30; IBuilderConfig* config = builder->createBuilderConfig(); config->setMaxWorkspaceSize(MAX_WORKSPACE_SIZE); // Load the ONNX file into memory... std::ifstream onnxFile("yolov7.onnx", std::ios::binary); assert(onnxFile.good()); std::vector<char> buffer((std::istreambuf_iterator<char>(onnxFile)), std::istreambuf_iterator<char>()); // Build engine from parsed network definition. IParseNetworkDefinition parseNetDef(buffer.data(), buffer.size()); ICudaEngine* engine = builder->buildCudaEngine(parseNetDef.get()); // Serialize & save serialized engine data for future reuse without recompilation. void* ptr; size_t sz = engine->serialize(&ptr); ofstream outFile("yolov7.trt"); outFile.write(reinterpret_cast<const char*>(ptr), sz); } ``` 以上 C++ 示例说明了怎样读取之前产生的 ONNX 描述并通过 TensorRT Builder 接口构建最终可部署的目标产物即所谓的 “TRT Engine”。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值