NVIDIA

使用 Volcano 运行 nccl-test

📅 2024年08月11日 · ☕ 2 分钟

1. 制作 nccl-test 镜像查看 CUDA 版本 1 2 3 nvidia-smi | grep "CUDA Version" | awk '{print $9}' 12.2 编写 Dockerfile 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 cat > Dockerfile << EOF FROM nvidia/cuda:12.1.0-cudnn8-devel-ubuntu22.04 ENV DEBIAN_FRONTEND=noninteractive ARG CONDA_VERSION WORKDIR /workspace ENV DEBIAN_FRONTEND=noninteractive RUN apt-get update && apt install -y openmpi-bin libopenmpi-dev ssh openssh-server net-tools vim git iputils-ping nfs-common RUN git clone https://github.com/NVIDIA/nccl-tests.git && \ cd nccl-tests && \ make MPI=1 MPI_HOME=/usr/lib/x86_64-linux-gnu/openmpi EOF 编译 nccl-test 镜像 1 docker build -t shaowenchen/nccl-test:12.1.0-ubuntu22.04 -f Dockerfile . 推送 nccl-test 镜像 1 docker push shaowenchen/nccl-test:12.1.0-ubuntu22.04 2. 运行 Volcano Job 给测试节点打

使用 TensorRT 加速模型推理

📅 2024年02月06日 · ☕ 5 分钟

1. 什么是 TensorRT TensorRT 是一个 C++ 库，主要用在 NVIDIA GPU 进行高性能的推理加速上，提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe，TensorRT 可以直接读取 prototxt 格式 TensorFlow，需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch，需要将 PyTorch 的 pth 格式转

nvidia-smi 基本使用

📅 2024年02月01日 · ☕ 5 分钟

1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface，是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library，提供了一组 C API，用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率活动计算进程时钟和 PState 温度和风扇速度电

Pod 的健康检查耗尽 /run 存储空间，差点卷铺盖走人

📅 2024年01月23日 · ☕ 3 分钟

使用 nvidia-container-runtime 的朋友可以重点关注下，特别是还有 JuiceFS 的情况。 1. 突然收到告警，我慌了周末，学习 TensorRT LLM，顺便给线上最大的正式集群安装了一下 Dragonfly，然后就去买菜了。下午发现有个节点的 Dragonfly Daemon 没起来，一直告警，就去所在节点重启了下 Kubelet。大约

如何添加 NVIDIA GPU 节点到 Kubernetes 集群

📅 2023年12月28日 · ☕ 6 分钟

1. 磁盘处理 1.1 查看磁盘查看新磁盘 1 fdisk -l Disk /dev/nvme1n1: 3.91 TiB, 4294967296000 bytes, 8388608000 sectors 1.2 组建 RAID0 如果有多块小盘，更好的方式是组建一个 RAID0，这样不仅能获得更大的存储目录，还能获得更快的速度。创建 RAID 1 mdadm --create --verbose /dev/md0 --level=0 --raid-devices=3 /dev/nvme1n1 /dev/nvme2n1 /dev/nvme3n1 查看 RAID 1 mdadm --detail /dev/md0 1.3 挂载磁盘创建文件系统 1 mkfs.xfs -f /dev/nvme1n1 xfs 适合大文件