llama.cpp部署 DeepSeek-R1 模型

Stestack

已于 2025-02-14 21:04:53 修改

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

文章标签： llama

于 2025-02-14 19:21:17 首次发布

本文链接：https://blog.csdn.net/Stestack/article/details/145640226

一、llama.cpp 介绍

使用纯 C/C++推理 Meta 的LLaMA模型（及其他模型）。主要目标llama.cpp是在各种硬件（本地和云端）上以最少的设置和最先进的性能实现 LLM 推理。纯 C/C++ 实现，无任何依赖项Apple 芯片是一流的——通过 ARM NEON、Accelerate 和 Metal 框架进行了优化AVX、AVX2、AVX512 和 AMX 支持 x86 架构1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，可加快推理速度并减少内存使用用于在 NVIDIA GPU 上运行 LLM 的自定义 CUDA 内核（通过 HIP 支持 AMD GPU，通过 MUSA 支持 Moore Threads MTT GPU）Vulkan 和 SYCL 后端支持CPU+GPU 混合推理，部分加速大于 VRAM 总容量的模型。

Github 地址：https://github.com/ggerganov/llama.cpp
下载地址：https://github.com/ggerganov/llama.cpp/releases