NVIDIA
使用 TensorRT 加速模型推理
· ☕ 5 分钟
1. 什么是 TensorRT TensorRT 是一个 C++ 库,主要用在 NVIDIA GPU 进行高性能的推理加速上,提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe,TensorRT 可以直接读取 prototxt 格式 TensorFlow,需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch,需要将 PyTorch 的 pth 格式转

nvidia-smi 基本使用
· ☕ 5 分钟
1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface,是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library,提供了一组 C API,用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率 活动计算进程 时钟和 PState 温度和风扇速度 电

Pod 的健康检查耗尽 /run 存储空间,差点卷铺盖走人
· ☕ 3 分钟
使用 nvidia-container-runtime 的朋友可以重点关注下,特别是还有 JuiceFS 的情况。 1. 突然收到告警,我慌了 周末,学习 TensorRT LLM,顺便给线上最大的正式集群安装了一下 Dragonfly,然后就去买菜了。 下午发现有个节点的 Dragonfly Daemon 没起来,一直告警,就去所在节点重启了下 Kubelet。 大约

NVIDIA GPU 驱动安装
· ☕ 5 分钟
1. 格式化磁盘 查看新磁盘 1 fdisk -l Disk /dev/nvme0n1: 3.91 TiB, 4294967296000 bytes, 8388608000 sectors 创建文件系统 1 mkfs.xfs -f /dev/nvme0n1 xfs 适合大文件处理, ext4 适合中小文件处理。 创建挂载目录 1 mkdir -p /data 获取 UUID 1 2 UUID=$(blkid -s UUID -o value /dev/nvme0n1) echo $UUID 配置 fstab 1 grep -q "$UUID" /etc/fstab || echo "UUID=$UUID /data xfs defaults,nofail 0 2" >> /etc/fstab 挂载存储 1 mount -a 查看挂载点 1 2 3 df -h |grep data /dev/nvme0n1 4.0T 28G 3.9T 1% /data 2. 安装