博文
Volcano 使用基础
· ☕ 5 分钟
1. Volcano 简介 Volcano 是华为开源的一个基于 Kubernetes 的资源调度系统,相较于原生的调度器,具有的显著特点有: 支持 gang scheduling 对于批量作业的调度,容易碰到死锁的问题,比如两个作业都需要同时运行 10 个 Pod 才能启动,当两个作业同时提交时,可能都只有部分 Pod 被调度,两个作业都无法正常

npu-smi 基本使用
· ☕ 5 分钟
1. 什么是 npu-smi npu-smi 是华为提供的一个命令行工具,专门用于管理和监控华为昇腾(Ascend)系列神经网络处理器(NPU)的状态和性能,似于 NVIDIA 的 nvidia-smi。 2. npu-smi 字段含义 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 npu-smi info +------------------------------------------------------------------------------------------------+ | npu-smi 23.0.2.1 Version: 23.0.2.1 | +---------------------------+---------------+----------------------------------------------------+ | NPU Name |

AI 芯片高速互连方案
· ☕ 6 分钟
最近在研习模型训练相关的基础设施,发现 AI 芯片互连拓扑决定着训练集群任务的调度和资源分配,因此花了一点时间整理了一下常见的 AI 芯片互连方案。 1. 点对点互连 传统的 PCIe 系统下, AI 芯片与 AI 芯片之间的数据传输是通过 PCIe 传输,无法满足大规模数据传输的要求。 1.1 NVLink

用了一个月,终于找到点写 AI Agent 的思路
· ☕ 9 分钟
1. 不断尝试落地 AI 应用端 基于对运维的认知,我开发了一个开源的运维工具 https://github.com/shaowenchen/ops 。 Ops 工具将运维操作划分为脚本执行、文件分发两类,而运维对象主机和 Kubernetes 集群分别都实现了这两种运维操作。 Ops 对外提供的能力有,Ops Cli 命令行终端,Ops Server 服务端 API 接口,Ops Controller 集群

在 Kubernetes 下创建后端为 JuiceFS 的 PVC(企业版)
· ☕ 2 分钟
本篇主要记录创建企业版 JuiceFS PVC 的脚本,方便快速配置。 1. 设置环境变量 1.1 基础配置 1 2 3 export NAMESPACE= export PVC_NAME= export JUICEFS_VOLUME= 1.2 JuiceFS 认证信息 1 2 3 export TOKEN= export ACCESS_KEY= export SECRET_KEY= 1.3 JuiceFS 服务配置 1 2 export BASE_URL=http://x.x.x.x:8080/static export CFG_URL=http://x.x.x.x:8080/volume/%s/mount 1.4 镜像配置 1 2 3 4 export JUICEFS_IMAGE=juicedata/mount export JUICEFS_IMAGE_TAG=ee-5.2.13-7a0eb79 export DEMO_IMAGE=ubuntu 1.5 Worker 配置 1 2 3 export WORKER_REPLICAS=1 export NODE_SELECTOR_KEY= export NODE_SELECTOR_VALUE="true" 1.6 缓存配置 1 2 3 export CACHE_GROUP="${PVC_NAME}-cache-group" export CACHE_PATH=/data/jfs-cache export CACHE_QUOTA=2Ti 不同网络分区