AutoGPTQ项目快速入门指南：模型量化与推理实践-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01138/article/details/148508534

AutoGPTQ项目快速入门指南：模型量化与推理实践

AutoGPTQ An easy-to-use LLMs quantization package with user-friendly apis, based on GPTQ algorithm. 项目地址: https://gitcode.com/gh_mirrors/au/AutoGPTQ

项目概述

AutoGPTQ是一个基于GPTQ算法的模型量化工具库，它提供了用户友好的API接口，能够帮助开发者轻松实现大语言模型的量化压缩。通过该工具，开发者可以将庞大的预训练模型转换为更小、更高效的量化版本，同时保持较好的模型精度。

环境安装

基础安装

安装AutoGPTQ非常简单，只需执行以下pip命令即可完成基础安装：

pip install auto-gptq

可选组件

Triton加速支持（仅限Linux系统）：如需使用Triton进行推理加速，可安装triton扩展：
```
pip install auto-gptq[triton]
```
Llama模型支持：如需支持Llama架构模型但不想升级Transformers版本，可安装：
```
pip install auto-gptq[llama]
```

CUDA扩展控制

默认情况下，如果检测到CUDA和PyTorch环境，安装时会自动构建CUDA扩展。如需禁用此功能：

Linux系统：

BUILD_CUDA_EXT=0 pip install auto-gptq

Windows系统：

set BUILD_CUDA_EXT=0 && pip install auto-gptq

核心功能实践

主要组件介绍

AutoGPTQ主要提供两个核心类：

AutoGPTQForCausalLM：用于加载和量化因果语言模型
BaseQuantizeConfig：量化配置类，定义量化参数

模型量化实战

准备阶段：首先加载预训练模型和分词器，并配置量化参数：

from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
from transformers import AutoTokenizer

pretrained_model_name = "facebook/opt-125m"
quantize_config = BaseQuantizeConfig(bits=4, group_size=128)
model = AutoGPTQForCausalLM.from_pretrained(pretrained_model_name, quantize_config)
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name)

准备量化样本：准备代表性文本作为量化校准数据，样本数量越多通常效果越好：

examples = [
    tokenizer(
        "auto-gptq is an easy-to-use model quantization library with user-friendly apis, based on GPTQ algorithm."
    )
]

执行量化：调用quantize方法开始量化过程：

model.quantize(examples)

保存量化模型：将量化后的模型保存到指定目录：

quantized_model_dir = "opt-125m-4bit-128g"
model.save_quantized(quantized_model_dir)

保存内容包括：

量化模型文件（默认.bin格式，可设置为.safetensors）
原始模型配置文件（config.json）
量化配置文件（quantize_config.json）

量化模型推理

加载量化模型：使用专用方法加载量化模型到指定设备：

device = "cuda:0"
model = AutoGPTQForCausalLM.from_quantized(quantized_model_dir, device=device)

创建推理管道：结合Transformers的文本生成管道进行推理：

from transformers import TextGenerationPipeline

pipeline = TextGenerationPipeline(model=model, tokenizer=tokenizer, device=device)
print(pipeline("auto-gptq is")[0]["generated_text"])