NVIDIA
Pod 的健康检查耗尽 /run 存储空间,差点卷铺盖走人
· ☕ 3 分钟
使用 nvidia-container-runtime 的朋友可以重点关注下,特别是还有 JuiceFS 的情况。 1. 突然收到告警,我慌了 周末,学习 TensorRT LLM,顺便给线上最大的正式集群安装了一下 Dragonfly,然后就去买菜了。 下午发现有个节点的 Dragonfly Daemon 没起来,一直告警,就去所在节点重启了下 Kubelet。 大约

NVIDIA GPU 驱动安装
· ☕ 5 分钟
1. 格式化磁盘 查看新磁盘 1 fdisk -l Disk /dev/nvme0n1: 3.91 TiB, 4294967296000 bytes, 8388608000 sectors 创建文件系统 1 mkfs.xfs -f /dev/nvme0n1 xfs 适合大文件处理, ext4 适合中小文件处理。 创建挂载目录 1 mkdir -p /data 获取 UUID 1 2 UUID=$(blkid -s UUID -o value /dev/nvme0n1) echo $UUID 配置 fstab 1 grep -q "$UUID" /etc/fstab || echo "UUID=$UUID /data xfs defaults,nofail 0 2" >> /etc/fstab 挂载存储 1 mount -a 查看挂载点 1 2 3 df -h |grep data /dev/nvme0n1 4.0T 28G 3.9T 1% /data 2. 安装