WSL环境下使用LlamaFactory实战记录,从0手把手开始

环境信息

系统版本

# 输入命令
$ uname -m && cat /etc/*release

# 输出结果
x86_64
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=22.04
DISTRIB_CODENAME=jammy
DISTRIB_DESCRIPTION="Ubuntu 22.04.5 LTS"
PRETTY_NAME="Ubuntu 22.04.5 LTS"
NAME="Ubuntu"
VERSION_ID="22.04"
VERSION="22.04.5 LTS (Jammy Jellyfish)"
VERSION_CODENAME=jammy
ID=ubuntu
ID_LIKE=debian
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
UBUNTU_CODENAME=jammy

系统概要

  • 架构:x86_64
  • 系统:Ubuntu 22.04.5 LTS (Jammy Jellyfish)
  • 环境:WSL (Windows Subsystem for Linux)

CUDA 安装

1. 检查GPU支持

  • GPU型号:NVIDIA GeForce RTX 4060
  • CUDA支持检查:https://developer.nvidia.com/cuda-gpus

2. 检查GCC版本

# 输入命令
$ gcc --version

# 输出结果
gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
Copyright (C) 2021 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

说明:系统安装的是gcc 11.4.0版本,这是Ubuntu 22.04 LTS的标准gcc版本,完全满足CUDA安装的要求。

3. CUDA安装

3.1 检查当前CUDA状态
# 输入命令:检查CUDA编译器版本
$ nvcc -V

# 输入命令:检查NVIDIA驱动和CUDA运行时版本
$ nvidia-smi

# 输入命令:检查CUDA环境变量
$ echo $CUDA_HOME
$ echo $LD_LIBRARY_PATH

说明

  • 如果nvcc -V命令不存在,说明未安装CUDA工具包
  • 如果nvidia-smi命令不存在,说明未安装NVIDIA驱动或WSL未正确配置GPU支持
  • 环境变量未设置不一定意味着CUDA未安装,但需要正确配置才能使用
3.2 卸载已有CUDA版本(如果需要)
# 方法1:使用卸载工具(如果之前是用安装包安装的)
$ sudo /usr/local/cuda-X.Y/bin/cuda-uninstaller
# 注意:将X.Y替换为实际的CUDA版本号,如cuda-11.8

# 方法2:直接删除CUDA目录
$ sudo rm -rf /usr/local/cuda*
$ sudo apt clean && sudo apt autoclean

# 方法3:使用apt卸载(如果是通过apt安装的)
$ sudo apt-get --purge remove "cuda*"
$ sudo apt-get autoremove

说明

  • 建议在安装新版本前完全卸载旧版本,避免冲突
  • 卸载后最好重启系统,确保清理完全
  • 记得备份重要的CUDA项目和配置文件
3.3 安装CUDA 12.2
准备工作
# 输入命令:切换到指定conda环境
$ conda activate llaf_py310

# 输入命令:检查CUDA是否已安装
$ nvcc

# 输出结果
Command 'nvcc' not found, but can be installed with:
sudo apt install nvidia-cuda-toolkit

说明:确认系统中尚未安装CUDA工具包。

下载安装包
# 输入命令:下载CUDA 12.2安装包
$ wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run

# 输出结果
--2025-03-23 01:16:49--  https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run
Resolving developer.download.nvidia.com (developer.download.nvidia.com)... 2.23.227.213, 2.23.227.222
Connecting to developer.download.nvidia.com (developer.download.nvidia.com)|2.23.227.213|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://developer.download.nvidia.cn/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run [following]
--2025-03-23 01:16:50--  https://developer.download.nvidia.cn/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run
Resolving developer.download.nvidia.cn (developer.download.nvidia.cn)... 112.90.90.91, 42.237.113.75, 61.133.50.154, ...
Connecting to developer.download.nvidia.cn (developer.download.nvidia.cn)|112.90.90.91|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4315928767 (4.0G) [application/octet-stream]
Saving to: 'cuda_12.2.0_535.54.03_linux.run'

cuda_12.2.0_535.54.03_linux.run    100%[==============================================================>]   4.02G  14.3MB/s    in 4m 57s

2025-03-23 01:21:48 (13.8 MB/s) - 'cuda_12.2.0_535.54.03_linux.run' saved [4315928767/4315928767]

说明

  • 安装包大小约4.02GB
  • 下载速度平均13.8 MB/s
  • 下载用时约4分57秒
  • 文件已完整下载
执行安装
# 输入命令:赋予安装包执行权限
$ chmod +x cuda_12.2.0_535.54.03_linux.run

# 输入命令:运行安装程序
$ sudo sh cuda_12.2.0_535.54.03_linux.run

安装界面选项

┌──────────────────────────────────────────────────────────────────────────────┐
│ CUDA Installer                                                               │
│ + [X] CUDA Toolkit 12.2                                                      │
│   [X] CUDA Demo Suite 12.2                                                   │
│   [X] CUDA Documentation 12.2                                                │
│ - [ ] Kernel Objects                                                         │
│      [ ] nvidia-fs                                                           │
│   Options                                                                    │
│   Install                                                                    │
└──────────────────────────────────────────────────────────────────────────────┘

组件说明

  1. CUDA Toolkit 12.2

    • CUDA的核心工具包
    • 包含编译器、库文件和开发工具
    • 必须安装,建议保持选中[X]
  2. CUDA Demo Suite 12.2

    • CUDA示例程序和演示代码
    • 用于学习和测试CUDA功能
    • 建议安装,便于后续验证[X]
  3. CUDA Documentation 12.2

    • CUDA开发文档
    • 包含API参考、编程指南等
    • 建议安装,方便离线查阅[X]
  4. Kernel Objects

    • Linux内核相关组件
    • 包含nvidia-fs子选项
    • 在WSL环境中可以不安装[ ]
  5. nvidia-fs

    • NVIDIA GPUDirect Storage功能
    • 用于GPU直接访问存储设备
    • WSL环境中通常不需要[ ]

安装结果

===========
= Summary =
===========

Driver:   Not Selected
Toolkit:  Installed in /usr/local/cuda-12.2/

Please make sure that
 -   PATH includes /usr/local/cuda-12.2/bin
 -   LD_LIBRARY_PATH includes /usr/local/cuda-12.2/lib64, or, add /usr/local/cuda-12.2/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.2/bin
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 535.00 is required for CUDA 12.2 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
    sudo <CudaInstaller>.run --silent --driver
3.4 配置环境变量
# 输入命令:编辑环境配置文件
$ sudo nano ~/.bashrc

# 在文件末尾添加以下内容
export CUDA_HOME=/usr/local/cuda-12.2
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH

# 输入命令:使环境变量生效
$ source ~/.bashrc
3.5 验证安装
# 输入命令:检查CUDA版本
$ nvcc -V

# 输出结果
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Jun_13_19:16:58_PDT_2023
Cuda compilation tools, release 12.2, V12.2.91
Build cuda_12.2.r12.2/compiler.32965470_0

# 输入命令:检查环境变量
(llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ echo $CUDA_HOME
/usr/local/cuda-12.2

(llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ echo $LD_LIBRARY_PATH
/usr/local/cuda-12.2/lib64:

# 输入命令:检查GPU状态
(llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ nvidia-smi
Sun Mar 23 01:47:53 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.133.07             Driver Version: 572.83         CUDA Version: 12.8     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4060        On  |   00000000:09:00.0  On |                  N/A |
|  0%   45C    P0            N/A  /  115W |     802MiB /   8188MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

验证说明

  1. CUDA编译器

    • 已成功安装
    • 版本为12.2.91,符合预期
    • 环境变量配置正确(能够直接调用nvcc命令)
  2. 环境变量配置

    • CUDA_HOME正确设置为 /usr/local/cuda-12.2
    • LD_LIBRARY_PATH包含CUDA库路径
    • 环境变量配置生效
  3. GPU状态

    • GPU型号:NVIDIA GeForce RTX 4060
    • 显存:8188MiB
    • 驱动版本:572.83
    • CUDA版本:12.8
    • GPU温度:45°C
    • GPU使用率:0%
    • 显存使用:802MiB / 8188MiB

下一步

  • 继续验证CUDA示例程序
  • 开始LLaMA-Factory的安装

LLaMA-Factory 安装

1. 基础安装

# 克隆仓库
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

# 进入目录
cd LLaMA-Factory

# 安装依赖
pip install -e ".[torch,metrics]"

# 如果出现冲突,使用以下命令
# pip install --no-deps -e .

安装命令说明
pip install -e ".[torch,metrics]"

  1. 什么是 -e 参数?

    • -e--editable 的简写,表示"可编辑模式"
    • 打个比方:这就像是在Word中用"追踪修订"模式编辑文档
    • 你可以随时修改代码,改动立即生效,不需要重新安装
    • 这对于开发和调试特别有用
  2. 为什么用 .

    • . 表示"当前目录"
    • 就是告诉pip:“请安装我现在所在文件夹里的这个项目”
    • 这里指的就是LLaMA-Factory的根目录
  3. [torch,metrics] 是什么意思?

    • 这是选择安装的"依赖组"
    • 就像点餐时可以选择"套餐A"或"套餐B"
    • 这里选择了两个基础套餐:
      • torch:核心的深度学习框架,就像厨房里的炉灶
      • metrics:评估工具,就像是菜品品质检测工具
  4. 为什么只选这两个?

    • 这是最基础的配置,保证基本功能可用
    • 其他功能(比如分布式训练、量化等)可以后续按需安装
    • 避免一次安装太多不需要的组件,就像不会一次买下超市所有东西
  5. 其他可选的依赖组:

    • deepspeed:用于分布式训练,让模型训练更快
    • bitsandbytes:用于模型量化,让模型变得更小
    • vllm:提供高速推理服务
    • swanlab:提供训练过程的可视化界面
  6. 如果安装出现问题:

    • 可以使用 pip install --no-deps -e .
    • 这相当于"清洁安装",避免依赖冲突
    • 之后可以根据需要手动安装所需的依赖

2. 安装验证

# 输入命令:验证安装
(llaf_py310) yuuu@DESKTOP-M32KRCT:~/LLaMA-Factory$ llamafactory-cli version

# 输出结果
----------------------------------------------------------
| Welcome to LLaMA Factory, version 0.9.3.dev0           |
|                                                        |
| Project page: https://github.com/hiyouga/LLaMA-Factory |
----------------------------------------------------------

验证说明

  • LLaMA-Factory安装成功
  • 当前版本为0.9.3.dev0
  • 命令行工具可以正常使用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值