Please enable Javascript to view the contents

NVIDIA GPU 驱动安装

 ·  ☕ 3 分钟

1. 安装驱动

1.1 查看系统是否识别显卡

1
2
3
4
lspci | grep -i vga

03:00.0 VGA compatible controller: NVIDIA Corporation GP102 [TITAN X] (rev a1)
0a:00.0 VGA compatible controller: Matrox Electronics Systems Ltd. G200eR2 (rev 01)

识别出显卡为 NVIDIA 的 TITAN X。

1.2 禁用 nouveau

1
lsmod | grep nouveau

如果有输出,说明 nouveau 已经加载,需要禁用。如果没有输出,则可以跳过此操作。

  • Ubuntu 系统
  1. 关闭自动更新
1
sed -i.bak 's/1/0/' /etc/apt/apt.conf.d/10periodic

编辑配置文件:

1
vim /etc/apt/apt.conf.d/50unattended-upgrades

去掉以下内容的注释

1
2
3
4
Unattended-Upgrade::Package-Blacklist {
    "linux-image-*";
    "linux-headers-*";
};
  1. 编辑系统 blacklist
1
vim /etc/modprobe.d/blacklist-nouveau.conf

添加以下配置禁用 nouveau

1
2
blacklist nouveau
options nouveau modeset=0
  1. 更新 initramfs
1
update-initramfs -u
  1. 重启系统
1
reboot
  • CentOS 系统
  1. 编辑系统 blacklist
1
vim /etc/modprobe.d/blacklist-nouveau.conf

添加配置禁用 nouveau

1
2
blacklist nouveau
options nouveau modeset=0
  1. 更新 initramfs
1
2
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)
  1. 重启系统
1
reboot
  • 验证是否禁用成功
1
lsmod | grep nouveau

此时不应该有输出。

1.3 安装驱动

  • 下载驱动

访问 https://www.nvidia.cn/Download/index.aspx 选择对应的驱动版本下载。这里以 Linux 64-bit 的 TITAN X 驱动为例:

1
wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/535.146.02/NVIDIA-Linux-x86_64-535.146.02.run
  • 安装驱动
1
2
chmod +x NVIDIA-Linux-x86_64-535.146.02.run
./NVIDIA-Linux-x86_64-535.146.02.run
  • 重启系统
1
reboot
  • 验证是否安装成功
1
nvidia-smi

2. 安装 nvidia-container-runtime

2.1 安装 nvidia-container-runtime

  • Ubuntu 系统,参考[1]
1
2
3
4
5
6
curl -s -L https://nvidia.github.io/nvidia-container-runtime/gpgkey | \
  sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-runtime.list
sudo apt-get update
1
apt-get install -y nvidia-container-runtime
  • CentOS 系统
1
2
3
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \
  sudo tee /etc/yum.repos.d/nvidia-container-runtime.repo
1
yum install -y nvidia-container-runtime

2.2 Docker 配置

  • 更新 Docker 配置

配置 Docker 开启 GPU 支持

1
vim /etc/docker/daemon.json

添加以下内容:

1
2
3
4
5
6
7
8
9
{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "/usr/bin/nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}
  • 重启 Docker
1
2
systemctl daemon-reload
systemctl restart docker
  • 验证安装结果
1
docker run --rm --gpus all ubuntu nvidia-smi

此时可以看到输出的 GPU 信息。

2.3 Containerd 配置

  • 更新 Containerd 配置
1
vim /etc/containerd/config.toml

在与 plugins."io.containerd.grpc.v1.cri".containerd.runtimes 中添加:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
          privileged_without_host_devices = false
          runtime_engine = ""
          runtime_root = ""
          runtime_type = "io.containerd.runc.v2"
          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
            BinaryName = "/usr/bin/nvidia-container-runtime"
            CriuImagePath = ""
            CriuPath = ""
            CriuWorkPath = ""
            IoGid = 0
            IoUid = 0
            NoNewKeyring = false
            NoPivotRoot = false
            Root = ""
            ShimCgroup = ""
            SystemdCgroup = true

将默认的 runtime 设置为 nvidia

1
2
    [plugins."io.containerd.grpc.v1.cri".containerd]
      default_runtime_name = "nvidia"
  • 重启 Containerd
1
2
systemctl daemon-reload
systemctl restart containerd
  • 验证安装结果
1
nerdctl run --rm --gpus all registry-1.docker.io/library/ubuntu nvidia-smi

3. 安装 CUDA Toolkit

CUDA 是 NVIDIA 推出的通用并行计算架构,用于在 GPU 上进行通用计算。CUDA Toolkit 是 CUDA 的开发工具包,包含了编译器(NVCC)、库、调试器等工具。

3.1 检查系统是否支持

参考 https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#system-requirements 有最新的 CUDA 对 CPU 架构、操作系统、GCC 版本、GLIBC 版本的依赖要求。

  • 检查系统版本
1
uname -m && cat /etc/os-release
  • 检查 GCC 版本
1
gcc --version

Ubuntu 下可以使用以下命令安装 GCC 9

1
2
apt install build-essential gcc-9 g++-9
update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 90 --slave /usr/bin/g++ g++ /usr/bin/g++-9 --slave /usr/bin/gcov gcov /usr/bin/gcov-9
  • 检查 GLIBC 版本
1
ldd --version

3.2 兼容性说明

使用 nvidia-smi 命令可以看到一个 CUDA 的版本号,但这个版本号是 CUDA driver libcuda.so 的版本号,不是 CUDA Toolkit 的版本号。

如上图 CUDA driver 是向后兼容的,即支持之前的 CUDA Toolkit 版本。

如上图,CUDA driver 支持向前的次要版本兼容,即大版本号相同就支持。参考[2]。

3.3 安装 CUDA

  • 下载 CUDA

前往 https://developer.nvidia.com/cuda-downloads 选择对应的版本下载。这里以 Ubuntu 20.04 的 runfile(local) 为例:

1
wget https://developer.download.nvidia.com/compute/cuda/12.3.1/local_installers/cuda_12.3.1_545.23.08_linux.run
  • 安装 CUDA
1
sh cuda_12.3.1_545.23.08_linux.run
  • 添加环境变量
1
vim ~/.bashrc

增加以下内容:

1
2
3
export PATH=$PATH:$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda

使环境变量立即生效:

1
source ~/.bashrc
  • 验证安装结果
1
nvcc -V

4. 安装 cuDNN

cuDNN 是 NVIDIA 基于 CUDA 开发的深度神经网络加速库。

  • 检查 cuDNN 依赖

前往 https://docs.nvidia.com/deeplearning/cudnn/support-matrix/index.html 查看 cuDNN 与 CUDA、Driver、操作系统的兼容性是否满足要求。

  • 下载 cudnn

前往 https://developer.nvidia.com/rdp/cudnn-archive 下载对应的版本,选择 Local Installer for Linux x86_64 (Tar) ,会得到一个 tar.xz 的压缩包。

  • 解压 cudnn
1
tar -xvf cudnn-linux-*-archive.tar.xz
  • 安装 cudnn
1
2
3
cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

5. 参考

  1. https://nvidia.github.io/nvidia-container-runtime/
  2. https://tianzhipeng-git.github.io/2023/11/21/cuda-version.html

微信公众号
作者
微信公众号