简介
公司购置了一批国产GPU服务器开展大模型训练与研究,下面分享一下麒麟操作系统上安装曙光DCU Z100L驱动详细教程。
环境
- 服务器:中科曙光国产芯片服务器 X745-H30,2Hygon C86 7285 32-core Processor,Hygon DCU Z1004
- CPU:Hygon C86 7285 32-core Processor
- GPU:Hygon DCU Z100*4
- 操作系统:麒麟的v10sp2
- 云平台:国产云平台,底层虚拟化用的是KVM,管理平台是基于OpenStack封装优化的,整个架构是超融合架构
安装驱动步骤
驱动安装分三步,首先是安装依赖包,然后是安装驱动,最后是重启机器
1.1 安装依赖包:
centos:yum install -y rpm-build gcc-c++ cmake automake elfutils-libelf-devel libdrm libdrm-devel pciutils
ubuntu:apt install -y gcc g++ cmake automake libelf-dev libdrm_amdgpu1 libtinfo5 pciutils
Centos:yum install -y kernel-devel-`uname -r`
ubuntu:apt install -y linux-he