Please enable Javascript to view the contents

Ascend DMI 工具使用指南

 ·  ☕ 2 分钟

1. 安装 MindCluster ToolBox

MindCluster ToolBox 是一套面向集群运维与硬件管理的系统级工具集,主要用于设备监控、性能测试、日志收集等运维操作。

MindCluster ToolBox 中包括 Ascend DMI 工具、日志收集工具和 Ascend Cert 工具。

MindCluster ToolBox 工具的原理是,通过调用底层 DCMI(设备控制管理接口)以及 AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现。

  • 查看产品系列
1
dmidecode -s system-product-name
1
Atlas 900 RCK A2 Compute Node
  • 查看操作系统
1
uname -m && cat /etc/*release
1
2
aarch64
BigCloud Enterprise Linux For Euler release 21.10 (LTS-SP2)
  • 检查是否支持当前环境

前往 https://www.hiascend.com/document/detail/zh/mindx-dl/600/toolbox/ascenddmi/toolboxug_0003.html

1.1 安装 toolkit

  • 下载 toolkit

toolbox 依赖 Ascend Toolkit 提供的库 libascendcl.so 。

前往 https://www.hiascend.com/developer/download/community/result?module=dl%2Bcann 下载 MindCluster ToolKit 的安装包。这里以 Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run 为例。

  • 安装 toolkit
1
chmod +x Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run
1
./Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run --install --quiet
  • 设置 toolkit 环境变量
1
2
echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> ~/.bashrc
source ~/.bashrc
  • 验证安装
1
cat /usr/local/Ascend/ascend-toolkit/latest/version.cfg

1.2 安装 toolbox

  • 下载 toolbox

前往 https://www.hiascend.com/developer/download/community/result?module=dl%2Bcann 下载 MindCluster ToolBox 的安装包。这里以 Ascend-mindx-toolbox_7.0.RC1_linux-aarch64.run 为例。

  • 安装 toolBox
1
chmod +x Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run
1
./Ascend-mindx-toolbox_7.0.RC1_linux-aarch64.run --install --install-for-all --quiet
  • 设置 toolbox 环境变量
1
2
echo "source /usr/local/Ascend/toolbox/set_env.sh" >> ~/.bashrc
source ~/.bashrc

1.3 验证安装

1
ascend-dmi --version
1
ascend-dmi version: 7.0.RC1

这样就可以使用了。

2. 信息查询

  • 查看所有 NPU 实时状态
1
ascend-dmi --info

可以参考显存使用率、温度、功耗等信息。

  • 检测 HCCS/PCIe 信号质量
1
ascend-dmi --sq

正常范围是

1
2
3
4
5
Normal range:
B (bottom) <= -17
T (top)    >= 17
L (left)   <= -3
R (right)  >= 3

3. 性能测试

使用 -d 指定设备 ID,默认为 0。使用 --all 测试所有设备。

  • 验证算力是否达标
1
ascend-dmi --flops --quiet
  • 测试 host-device 带宽
1
ascend-dmi --bw -t h2d --quiet
  • 测试 device-host 带宽
1
ascend-dmi --bw -t d2h --quiet
  • 测试 device-device 带宽
1
ascend-dmi --bw -t p2p --ds 0 --dd 1 --quiet
  • 测试每一个到其他设备的带宽
1
ascend-dmi --bw -t p2p --quiet

4. 故障诊断

  • 健康检查

针对 CANN/驱动/Device/NetWork/SignalQuality/片上内存

1
ascend-dmi --dg --se healthCheck --quiet

会出现 driver、device、network、signalQuality、hbm、cann 等检查项。

  • 性能规格

针对 BandWidth/Aiflops

1
ascend-dmi --dg --se performanceCheck --quiet
  • 压测

针对 Aicore/片上内存(全量压测)/P2P 压测/功耗压测

1
ascend-dmi --dg --se stressTest --quiet

5. NPU 环境恢复

当发生电压异常或者掉卡时,用来恢复 NPU 环境。使用 -d 指定设备 ID,默认为全部设备。

1
ascend-dmi --reset

微信公众号
作者
微信公众号