运维
多机多盘 MinIO 集群在不同纠删码配置下的性能测试
· ☕ 29 分钟
1. 纠删码配置 默认的纠删位配置如下: Erasure Set Size Default Parity (EC:M) 1 EC:0 2-3 EC:1 4-5 EC:2 6 - 7 EC:3 8 - 16 EC:4 Parity 最大值是 ERASURE_SET_SIZE/2,也就是校验位不能超过数据位。 参考 https://docs.min.io/enterprise/aistor-object-store/reference/aistor-server/settings/storage-class/ 2. minio 集群环境 2.1 创建 minio 集群 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

MinIO 多节点多盘部署与运维
· ☕ 8 分钟
1. 环境准备 1.1 数据盘准备 查看数据盘 1 lsblk -d -o NAME,SIZE,TYPE | grep nvme 1 2 3 4 nvme0n1 745.2G disk nvme1n1 745.2G disk nvme2n1 745.2G disk nvme3n1 745.2G disk 准备存储目录 1 2 3 for i in {0..3}; do mkdir -p /mnt/data${i} done 格式化数据盘 1 2 3 for i in {0..3}; do mkfs.xfs -f /dev/nvme${i}n1 done 挂载数据盘 1 2 3 for i in {0..3}; do mount /dev/nvme${i}n1 /mnt/data${i} done 清空数据盘 1 2 3 4 for i in {0..3}; do rm -rf /mnt/data${i}/* rm -rf /mnt/data${i}/.minio.sys done 查看挂载情况

如何升级 Kubernetes 节点的 cgroup 版本
· ☕ 2 分钟
1. cgroup v1 与 v2 接口路径差别 v1 1 2 3 4 /sys/fs/cgroup/cpu/cpu.cfs_quota_us /sys/fs/cgroup/cpu/cpuacct.usage /sys/fs/cgroup/memory/memory.limit_in_bytes /sys/fs/cgroup/memory/memory.usage_in_bytes v2 1 2 3 4 /sys/fs/cgroup/cpu.max /sys/fs/cgroup/cpu.stat /sys/fs/cgroup/memory.max /sys/fs/cgroup/memory.current cgroup v2 是 v1 的升级版本,具有更统一的资层级管理、精准的资源隔离等优点。但也导致了,写代码时,读取相关接口文件时路径不一样,需要做兼容处理。另外,一个思路就是,统一到一个 cgroup 版本。 Kubernetes 默认支持

常用 NPU 运维及故障处理
· ☕ 1 分钟
处理故障时,参考或者记录下的内容,持续更新中 1. 容器挂载设备 1 export IMAGE=ascendai/pytorch:2.1.0 1 2 3 4 5 6 7 8 9 10 nerdctl run --rm -it --ipc=host \ --device=/dev/davinci7 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ ${IMAGE} \ /bin/bash 2. 创建 Pod 1 2 export IMAGE=ascendai/pytorch:2.1.0 export NodeName= 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 kubectl create -f - <<EOF apiVersion: v1 kind: Pod metadata: name: test-ascend-pod namespace: default spec: restartPolicy: Never nodeName: ${NodeName} containers: - name:

NVIDIA DCGM 使用指南
· ☕ 9 分钟
1. 什么是 DCGM DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集,提供了以下功能: GPU 行为监控 GPU 配置管理 GPU 策略监督 GPU 健康和诊断 GPU 计费和进程统计 NVSwitch 配置和监控 2. 安装 DCGM 2.1 安装 libnvidia-nscq 一般都是 NVLink 连接 GPU,可以通过 nvidia-smi topo -m 查看是否有 NVSwitch 字样输出判断是否需要安