GPU
Kubernetes 下开源的 GPU 虚拟化项目
· ☕ 4 分钟
1. k8s-device-plugin https://github.com/NVIDIA/k8s-device-plugin 是 NVIDIA 官方提供的 Kubernetes 设备插件,用于在 Kubernetes 集群中管理和分配 NVIDIA GPU 资源。 k8s-device-plugin 通过与 kubelet 的交互,自动发现和注册 GPU 设备,并将其作为资源提供给 Kubernetes 调度器。它支持多种 GPU 型号,并能够处理 GPU 的分片和共享。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 apiVersion: v1 kind: Pod metadata: name: gpu-pod spec: restartPolicy: Never containers: - name: cuda-container

NVIDIA 环境变量配置
· ☕ 2 分钟
NVIDIA_VISIBLE_DEVICES 指定程序可见的 GPU 设备 1 CUDA_VISIBLE_DEVICES=0,1 可用值: 1,2,以逗号分隔的 GPU UUID 或索引列表 all,所有 GPU none,加载驱动,但无法访问 GPU void,不加载驱动 NVIDIA_DRIVER_CAPABILITIES 控制哪些驱动程序库/二进制文件将被安装在容器内 1 NVIDIA_DRIVER_CAPABILITIES=compute,utility 可用值: compute,CUDA 和 OpenCL 应用程序所需。 co

GPU 主机如何开启 GDS
· ☕ 5 分钟
1. 什么是 GDS(GPUDirectStorage) GDS 允许 RDMA 网卡直接访问 GPU 内存,有助于增加 GPU 应用读写文件的 IO 带宽,减少 IO 时延,并降低其 CPU 负载。 客户端在开启 GDS 特性后,文件将以 O_DIRECT 方式打开,客户端不会再缓存文件数据。应用层读写文件时,客户端通过 nvidia-fs.ko 将

NVIDIA GPU 核心与架构演进史
· ☕ 8 分钟
1. 产品线 GeForce 面向游戏玩家,提供强大的图形处理能力、先进的游戏技术。 常见的有 NVIDIA GTX 系列、高端的 RTX 系列、Titan 系列。 Quadro 面向专业市场,如设计师、工程师、科学家和内容创作者。 常见的有 Quadro P 系列,高端的 Quadro RTX 系列 Tesla 面向数据中心和高性能计算(HPC)市场,

常用 GPU 运维及故障处理
· ☕ 8 分钟
处理故障时,参考或者记录下的内容,持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码,可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障,下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问