GPU – 陈少文的网站

常用 GPU 运维及故障处理

📅 2024年03月18日 · ☕ 10 分钟

处理故障时，参考或者记录下的内容，持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码，可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障，下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问

使用 TensorRT 加速模型推理

📅 2024年02月06日 · ☕ 5 分钟

1. 什么是 TensorRT TensorRT 是一个 C++ 库，主要用在 NVIDIA GPU 进行高性能的推理加速上，提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe，TensorRT 可以直接读取 prototxt 格式 TensorFlow，需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch，需要将 PyTorch 的 pth 格式转

容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理

📅 2024年02月03日 · ☕ 8 分钟

1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介使用 TensorRT 时，通常需要将模型转换为 ONNX 格式，再将 ONNX 转换为 TensorRT 格式，然后在 TensorRT、Triton Server 中进行推理。但这个转换过程并不简单，经常会遇到各种报错，需要对模型结构、平台算子有一定的掌握，具备转换和调试能力。而 TensorRT-LLM 的目标

nvidia-smi 基本使用

📅 2024年02月01日 · ☕ 5 分钟

1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface，是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library，提供了一组 C API，用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率活动计算进程时钟和 PState 温度和风扇速度电

如何添加 NVIDIA GPU 节点到 Kubernetes 集群

📅 2023年12月28日 · ☕ 7 分钟

1. 磁盘处理 1.1 查看磁盘查看新磁盘 1 fdisk -l Disk /dev/nvme1n1: 3.91 TiB, 4294967296000 bytes, 8388608000 sectors 1.2 组建 RAID0 如果有多块小盘，更好的方式是组建一个 RAID0，这样不仅能获得更大的存储目录，还能获得更快的速度。创建 RAID 1 mdadm --create --verbose /dev/md0 --level=0 --raid-devices=3 /dev/nvme1n1 /dev/nvme2n1 /dev/nvme3n1 查看 RAID 1 mdadm --detail /dev/md0 1.3 挂载磁盘创建文件系统 1 mkfs.xfs -f /dev/nvme1n1 xfs 适合大文件