问题:在使用官网介绍的博客,进行安装,比较顺利。只不过,在需要推理加速时,UI界面上,给出的选项所支持的FlashAttention-2和Unsloth,不好实现。在进行一系列的调整,总结如下:
想要同时实现FlashAttention-2和Unsloth推理加速的环境安装方式:
以Ubuntu22.04 RTX4090 24GB为例:
1. 系统配置:CUDA版本选择12.2.x,因为高版本的flash-attn库不提供12.1版本的安装包:
## cuda
export PATH=/usr/local/cuda-12.2/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.2/lib64
2. 虚拟环境创建:python版本选择3.10.x,使用官方推荐的安装方式:
conda create -n llama_factory python=3.10 -y
3. 首先安装LLaMA-Factory官方提供的环境安装内容:
pip install -e .[torch,metrics,bitsandbytes]
备注:torch版本为2.3.x,后续根据变化调整为对应版本
4. 然后安装flash-attn库,版本号含有cu122torch2.3cxx11abiFALSE:
pip in