Gemma 2 是 Google 最新发布的开源大语言模型。它有两种规模:90 亿(9B)参数和 270 亿(27B)参数,分别具有基础(预训练)和指令调优版本,拥有 8K Tokens 的上下文长度:
- Gemma-2-9b: 90 亿参数基础模型版本
- Gemma-2-9b-it: 90 亿参数基础模型的指令调优版本
- Gemma-2-27B: 270 亿参数基础模型版本
- Gemma-2-27B-it: 270 亿参数基础模型的指令调优版本
Gemma 2 模型的训练数据量约为其第一代的两倍,总计 13 万亿 Tokens(270 亿模型)和 8 万亿 Tokens(90 亿模型)的网页数据(主要是英语)、代码和数学数据。同时,相比较第一代,Gemma 2 的推理性能更高、效率更高,并在安全性方面取得了重大进步。
许可协议: Gemma 2 与第一代使用相同的许可证,这是一个允许再分发、微调、商业用途和衍生作品的宽松许可证。
性能优异: Gemma 2 27B 版本在同规模级别中性能最佳,甚至比两倍于其尺寸的机型更具竞争力。9B 版本的性能在同类产品中也处于领先地位,超过了 Llama 3 8B 和其他同规模的开放模型。
其他关于 Gemma 2 的介绍信息,可以参见 Google 官方博客:https://blog.google/technology/developers/google-gemma-2/
Google 重磅发布产品,我们肯定需要体验以下。今天,老牛同学就和大家一起,分别通过 2 种方式在个人笔记本电脑本地部署和体验 Gemma2-9B 大模型。
方式一:通过 Ollama 部署大模型
关于 Ollama 是什么以及它的使用方式,老牛同学前面的博文中有介绍,本文不在赘述,感兴趣的朋友可以看一下之前的博文。
Ollama 管理和维护 Gemma 2 比较简单,主要流程如下:
- 下载并安装 Ollama 软件(Windows/Linux/MacOS 均支持):https://ollama.com/download
- 通过 Ollama 下载并启动 Gemma 2 大模型:
ollama run gemma2:9b
模型文件大小为 5.4GB 左右,需要耐心等待模型下载完成。下载完成之后,Ollama 自动启动模型,就可以通过 Ollama 进行对话了:
如果觉得通过控制台的方式对话体验不好,可以部署 WebUI 的方式与模型对话。WebUI 的部署方式,可以参见老牛同学之前的博文:https://mp.weixin.qq.com/s/P_ufvz4MWVSqv_VM-rJp9w,主要部署步骤:
- 下载并安装 Node.js 工具:https://nodejs.org/zh-cn
- 下载
ollama-webui
工程代码:git clone https://github.com/ollama-webui/ollama-webui-lite ollama-webui
- 切换
ollama-webui
代码的目录:cd ollama-webui
- 设置 Node.js 工具包镜像源(下载提速):
npm config set registry http://mirrors.cloud.tencent.com/npm/
- 安装 Node.js 依赖的工具包:
npm install
- 最后,启动 Web 可视化界面:
npm run dev
然后,通过浏览器打开 WebUI 对话界面了:http://localhost:3000/
方式二:通过 GGUF 部署大模型
GGUF模型文件格式是为了快速推理和优化内存使用而设计的,支持更复杂的令牌化过程和特殊令牌处理,能更好地应对多样化的语言模型需求。GGUF就一个文件,也简化了模型交换和部署的过程,它对促进模型的普及和应用有着积极作用。
GGUF 模型文件列表