GPU 主机如何开启 GDS📅 2024年09月11日 · ☕ 5 分钟1. 什么是 GDS(GPUDirectStorage) GDS 允许 RDMA 网卡直接访问 GPU 内存,有助于增加 GPU 应用读写文件的 IO 带宽,减少 IO 时延,并降低其 CPU 负载。 客户端在开启 GDS 特性后,文件将以 O_DIRECT 方式打开,客户端不会再缓存文件数据。应用层读写文件时,客户端通过 nvidia-fs.ko 将
NVIDIA GPU 核心与架构演进史📅 2024年08月25日 · ☕ 8 分钟1. 产品线 GeForce 面向游戏玩家,提供强大的图形处理能力、先进的游戏技术。 常见的有 NVIDIA GTX 系列、高端的 RTX 系列、Titan 系列。 Quadro 面向专业市场,如设计师、工程师、科学家和内容创作者。 常见的有 Quadro P 系列,高端的 Quadro RTX 系列 Tesla 面向数据中心和高性能计算(HPC)市场,
常用 GPU 运维及故障处理📅 2024年03月18日 · ☕ 9 分钟处理故障时,参考或者记录下的内容,持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码,可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障,下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问
nvidia-smi 基本使用📅 2024年02月01日 · ☕ 5 分钟1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface,是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library,提供了一组 C API,用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率 活动计算进程 时钟和 PState 温度和风扇速度 电
如何添加 NVIDIA GPU 节点到 Kubernetes 集群📅 2023年12月28日 · ☕ 6 分钟1. 磁盘处理 1.1 查看磁盘 查看新磁盘 1 fdisk -l Disk /dev/nvme0n1: 3.91 TiB, 4294967296000 bytes, 8388608000 sectors 1.2 组建 RAID0 如果有多块小盘,更好的方式是组建一个 RAID0,这样不仅能获得更大的存储目录,还能获得更快的速度。 创建 RAID 1 mdadm --create --verbose /dev/md0 --level=0 --raid-devices=3 /dev/nvme1n1 /dev/nvme2n1 /dev/nvme3n1 查看 RAID 1 mdadm --detail /dev/md0 1.3 挂载磁盘 创建文件系统 1 mkfs.xfs -f /dev/nvme0n1 xfs 适合大文件