1. 安装依赖
MindCluster ToolBox 是一套面向集群运维与硬件管理的系统级工具集,主要用于设备监控、性能测试、日志收集等运维操作。
MindCluster ToolBox 中包括 Ascend DMI 工具、日志收集工具和 Ascend Cert 工具。
MindCluster ToolBox 工具的原理是,通过调用底层 DCMI(设备控制管理接口)以及 AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现。
| 1
 | dmidecode -s system-product-name
 | 
| 1
 | Atlas 900 RCK A2 Compute Node
 | 
| 1
 | uname -m && cat /etc/*release
 | 
| 1
2
 | aarch64
BigCloud Enterprise Linux For Euler release 21.10 (LTS-SP2)
 | 
前往 https://www.hiascend.com/document/detail/zh/mindx-dl/600/toolbox/ascenddmi/toolboxug_0003.html
toolbox 依赖 Ascend Toolkit 提供的库 libascendcl.so 。
前往 https://www.hiascend.com/developer/download/community/result?module=dl%2Bcann 下载 MindCluster ToolKit 的安装包。这里以 Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run 为例。
| 1
 | chmod +x Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run
 | 
| 1
 | ./Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run --install --quiet
 | 
| 1
2
 | echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> ~/.bashrc
source ~/.bashrc
 | 
| 1
 | cat /usr/local/Ascend/ascend-toolkit/latest/version.cfg
 | 
前往 https://www.hiascend.com/developer/download/community/result?module=dl%2Bcann 下载 MindCluster ToolBox 的安装包。这里以 Ascend-mindx-toolbox_7.0.RC1_linux-aarch64.run 为例。
| 1
 | chmod +x Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run
 | 
| 1
 | ./Ascend-mindx-toolbox_7.0.RC1_linux-aarch64.run --install --install-for-all --quiet
 | 
| 1
2
 | echo "source /usr/local/Ascend/toolbox/set_env.sh" >> ~/.bashrc
source ~/.bashrc
 | 
1.3 验证安装
| 1
 | ascend-dmi version: 7.0.RC1
 | 
这样就可以使用了。
2. 信息查询
可以参考显存使用率、温度、功耗等信息。
正常范围是
| 1
2
3
4
5
 | Normal range:
B (bottom) <= -17
T (top)    >= 17
L (left)   <= -3
R (right)  >= 3
 | 
3. 性能测试
使用 -d 指定设备 ID,默认为 0。使用 --all 测试所有设备。
| 1
 | ascend-dmi --flops --quiet
 | 
| 1
 | ascend-dmi --bw -t h2d --quiet
 | 
| 1
 | ascend-dmi --bw -t d2h --quiet
 | 
| 1
 | ascend-dmi --bw -t p2p --ds 0 --dd 1 --quiet
 | 
| 1
 | ascend-dmi --bw -t p2p --quiet
 | 
4. 故障诊断
针对 CANN/驱动/Device/NetWork/SignalQuality/片上内存
| 1
 | ascend-dmi --dg --se healthCheck --quiet
 | 
会出现 driver、device、network、signalQuality、hbm、cann 等检查项。
针对 BandWidth/Aiflops
| 1
 | ascend-dmi --dg --se performanceCheck --quiet
 | 
针对 Aicore/片上内存(全量压测)/P2P 压测/功耗压测
| 1
 | ascend-dmi --dg --se stressTest --quiet
 | 
5. NPU 环境恢复
当发生电压异常或者掉卡时,用来恢复 NPU 环境。使用 -d 指定设备 ID,默认为全部设备。