硬件
如何查看服务器上的设备信息
· ☕ 1 分钟
1. 查看 CPU 查看 CPU 型号 1 lscpu 查看指令集 1 cat /proc/cpuinfo | grep -iE "flags|instruction set" 2. 查看内存 内存使用及大小 1 free -h 内存条型号 1 dmidecode -t memory 3. 查看磁盘 查看磁盘挂载 1 lsblk -o NAME,TYPE,SIZE,MODEL,UUID,MOUNTPOINT 查看磁盘使用率 1 df -H | grep -vE '^Filesystem|tmpfs|cdrom|loop|udev' | awk '{ print $5 "/" $2 " " $1 }' |grep " "/ 查看磁盘速度 1 hdparm -t /dev/sda3 查看硬盘温度等 1 apt install smartmontools 1 (for disk in /dev/sd?; do sudo smartctl

Ascend NPU 驱动安装
· ☕ 3 分钟
1. 安装驱动 创建 HwHiAiUser 用户 1 2 groupadd -g 1000 HwHiAiUser useradd -g HwHiAiUser -u 1000 -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash 添加目录权限 1 2 chown -R HwHiAiUser /usr/local/Ascend chmod -R 755 /usr/local/Ascend 下载驱动、固件 前往 https://www.hiascend.ru/hardware/firmware-drivers/community?product=1&model=30&cann=All&driver=1.0.26.alpha 找到对应的驱动和固件。 1 wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Ascend%20HDK/Ascend%20HDK%2024.1.RC2.2/Ascend-hdk-910b-npu-driver_24.1.rc2.2_linux-x86-64.run 1 wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Ascend%20HDK/Ascend%20HDK%2024.1.RC2.2/Ascend-hdk-910b-npu-firmware_7.3.0.2.220.run 安装驱动 1 bash ./Ascend-hdk-910b-npu-driver_24.1.rc2.2_linux-x86-64.run --full --install-for-all 安装固件 1 bash ./Ascend-hdk-910b-npu-firmware_7.3.0.2.220.run --full 2. 安装 ascend-docker-runtime 下载 ascend-docker-runtime 前往 https://gitee.com/ascend/ascend-docker-runtime/releases/tag/v5.0.0-RC3.2 找到对应架构的下载链接。 1 wget https://gitee.com/ascend/ascend-docker-runtime/releases/download/v5.0.0-RC3.2/Ascend-docker-runtime_5.0.RC3.2_linux-x86_64.run 安装 ascend-docker-runtime 1 bash ./Ascend-docker-runtime_5.0.RC3.2_linux-x86_64.run --install 3.

npu-smi 基本使用
· ☕ 5 分钟
1. 什么是 npu-smi npu-smi 是华为提供的一个命令行工具,专门用于管理和监控华为昇腾(Ascend)系列神经网络处理器(NPU)的状态和性能,似于 NVIDIA 的 nvidia-smi。 2. npu-smi 字段含义 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 npu-smi info +------------------------------------------------------------------------------------------------+ | npu-smi 23.0.2.1 Version: 23.0.2.1 | +---------------------------+---------------+----------------------------------------------------+ | NPU Name |

AI 芯片高速互连方案
· ☕ 6 分钟
最近在研习模型训练相关的基础设施,发现 AI 芯片互连拓扑决定着训练集群任务的调度和资源分配,因此花了一点时间整理了一下常见的 AI 芯片互连方案。 1. 点对点互连 传统的 PCIe 系统下, AI 芯片与 AI 芯片之间的数据传输是通过 PCIe 传输,无法满足大规模数据传输的要求。 1.1 NVLink

常用 GPU 运维及故障处理
· ☕ 10 分钟
处理故障时,参考或者记录下的内容,持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码,可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障,下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问