MindCluster ToolBox 是一套面向集群运维与硬件管理的系统级工具集,主要用于设备监控、性能测试、日志收集等运维操作。
MindCluster ToolBox 中包括 Ascend DMI 工具、日志收集工具和 Ascend Cert 工具。
MindCluster ToolBox 工具的原理是,通过调用底层 DCMI(设备控制管理接口)以及 AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现。
1
| dmidecode -s system-product-name
|
1
| Atlas 900 RCK A2 Compute Node
|
1
| uname -m && cat /etc/*release
|
1
2
| aarch64
BigCloud Enterprise Linux For Euler release 21.10 (LTS-SP2)
|
前往 https://www.hiascend.com/document/detail/zh/mindx-dl/600/toolbox/ascenddmi/toolboxug_0003.html
toolbox 依赖 Ascend Toolkit 提供的库 libascendcl.so 。
前往 https://www.hiascend.com/developer/download/community/result?module=dl%2Bcann 下载 MindCluster ToolKit 的安装包。这里以 Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run
为例。
1
| chmod +x Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run
|
1
| ./Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run --install --quiet
|
1
2
| echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> ~/.bashrc
source ~/.bashrc
|
1
| cat /usr/local/Ascend/ascend-toolkit/latest/version.cfg
|
前往 https://www.hiascend.com/developer/download/community/result?module=dl%2Bcann 下载 MindCluster ToolBox 的安装包。这里以 Ascend-mindx-toolbox_7.0.RC1_linux-aarch64.run
为例。
1
| chmod +x Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run
|
1
| ./Ascend-mindx-toolbox_7.0.RC1_linux-aarch64.run --install --install-for-all --quiet
|
1
2
| echo "source /usr/local/Ascend/toolbox/set_env.sh" >> ~/.bashrc
source ~/.bashrc
|
1.3 验证安装
1
| ascend-dmi version: 7.0.RC1
|
这样就可以使用了。
2. 信息查询
可以参考显存使用率、温度、功耗等信息。
正常范围是
1
2
3
4
5
| Normal range:
B (bottom) <= -17
T (top) >= 17
L (left) <= -3
R (right) >= 3
|
3. 性能测试
使用 -d
指定设备 ID,默认为 0。使用 --all
测试所有设备。
1
| ascend-dmi --flops --quiet
|
1
| ascend-dmi --bw -t h2d --quiet
|
1
| ascend-dmi --bw -t d2h --quiet
|
1
| ascend-dmi --bw -t p2p --ds 0 --dd 1 --quiet
|
1
| ascend-dmi --bw -t p2p --quiet
|
4. 故障诊断
针对 CANN/驱动/Device/NetWork/SignalQuality/片上内存
1
| ascend-dmi --dg --se healthCheck --quiet
|
会出现 driver、device、network、signalQuality、hbm、cann 等检查项。
针对 BandWidth/Aiflops
1
| ascend-dmi --dg --se performanceCheck --quiet
|
针对 Aicore/片上内存(全量压测)/P2P 压测/功耗压测
1
| ascend-dmi --dg --se stressTest --quiet
|
5. NPU 环境恢复
当发生电压异常或者掉卡时,用来恢复 NPU 环境。使用 -d
指定设备 ID,默认为全部设备。