NVIDIA
使用 TensorRT 加速模型推理
· ☕ 5 分钟
1. 什么是 TensorRT TensorRT 是一个 C++ 库,主要用在 NVIDIA GPU 进行高性能的推理加速上,提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe,TensorRT 可以直接读取 prototxt 格式 TensorFlow,需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch,需要将 PyTorch 的 pth 格式转

nvidia-smi 基本使用
· ☕ 5 分钟
1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface,是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library,提供了一组 C API,用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率 活动计算进程 时钟和 PState 温度和风扇速度 电

Pod 的健康检查耗尽 /run 存储空间,差点卷铺盖走人
· ☕ 3 分钟
使用 nvidia-container-runtime 的朋友可以重点关注下,特别是还有 JuiceFS 的情况。 1. 突然收到告警,我慌了 周末,学习 TensorRT LLM,顺便给线上最大的正式集群安装了一下 Dragonfly,然后就去买菜了。 下午发现有个节点的 Dragonfly Daemon 没起来,一直告警,就去所在节点重启了下 Kubelet。 大约

NVIDIA GPU 驱动安装
· ☕ 3 分钟
1. 安装驱动 1.1 查看系统是否识别显卡 1 2 3 4 lspci | grep -i vga 03:00.0 VGA compatible controller: NVIDIA Corporation GP102 [TITAN X] (rev a1) 0a:00.0 VGA compatible controller: Matrox Electronics Systems Ltd. G200eR2 (rev 01) 识别出显卡为 NVIDIA 的 TITAN X。 1.2 禁用 nouveau 1 lsmod | grep nouveau 如果有输出,说明 nouveau 已经加载,需要禁用。如果没有输出,则可以跳过此操作。 Ubuntu 系统 关闭自动更新 1 sed -i.bak 's/1/0/' /etc/apt/apt.conf.d/10periodic 编辑配置