基于AIACC加速器快速实现LLaMA-7B指令微调

本文链接：https://blog.csdn.net/segwyang/article/details/143107284

本文基于Alpaca提供了一套LLaMA-7B模型在阿里云ECS上进行指令微调的训练方案，最终可以获得性能更贴近具体使用场景的语言模型。

背景信息

LLaMA（Large Language Model Meta AI ）是Meta AI在2023年2月发布的开放使用预训练语言模型（Large Language Model， LLM），其参数量包含7B到65B的集合，并仅使用完全公开的数据集进行训练。LLaMA的训练原理是将一系列单词作为“输入”并预测下一个单词以递归生成文本。

LLM具有建模大量词语之间联系的能力，但是为了让其强大的建模能力向下游具体任务输出，需要进行指令微调，根据大量不同指令对模型部分权重进行更新，使模型更善于遵循指令。指令微调中的指令简单直观地描述了任务，具体的指令格式如下：

{
  "instruction": "Given the following input, find the missing number",
  "input": "10, 12, 14, __, 18",
  "output": "16"
}

Alpaca是一个由LLaMA-7B模型进行指令微调得到的模型，其训练过程中采用的通过指令对LLaMA-7B模型进行小规模权重更新的方式，实现了模型性能和训练时间的平衡。

本文基于Alpaca提供了一套LLaMA-7B模型，基于DeepSpeed进行指令微调训练，并使用AIACC加速训练。AIACC包括ACSpeed和AGSpeed两个加速器。

加速器	说明	相关文档
ACSpeed	AIACC-ACSpeed（简称ACSpeed）是阿里云自研的AI训练加速器，在AI框架层、集合算法层和网络层上分别实现了与开源主流分布式框架的充分兼容，并实现了软硬件结合的全面优化。ACSpeed具有其显著的性能优势，在提高训练效率的同时能够降低使用成本，可以实现无感的分布式通信性能优化。	什么是AI分布式训练通信优化库AIACC-ACSpeed
AGSpeed	AIACC-AGSpeed（简称AGSpeed）是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器，用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能，可以实现计算优化。	什么是计算优化编译器AIACC-AGSpeed