AI – 陈少文的网站

Ascend DMI 工具使用指南

📅 2025年06月17日 · ☕ 2 分钟

1. 安装依赖 MindCluster ToolBox 是一套面向集群运维与硬件管理的系统级工具集，主要用于设备监控、性能测试、日志收集等运维操作。 MindCluster ToolBox 中包括 Ascend DMI 工具、日志收集工具和 Ascend Cert 工具。 MindCluster ToolBox 工具的原理是，通过调用底层 DCMI（设备控制管理接口）以及 AscendCL（Ascen

Kubernetes 下开源的 GPU 虚拟化项目

📅 2025年06月14日 · ☕ 4 分钟

1. k8s-device-plugin https://github.com/NVIDIA/k8s-device-plugin 是 NVIDIA 官方提供的 Kubernetes 设备插件，用于在 Kubernetes 集群中管理和分配 NVIDIA GPU 资源。 k8s-device-plugin 通过与 kubelet 的交互，自动发现和注册 GPU 设备，并将其作为资源提供给 Kubernetes 调度器。它支持多种 GPU 型号，并能够处理 GPU 的分片和共享。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 apiVersion: v1 kind: Pod metadata: name: gpu-pod spec: restartPolicy: Never containers: - name: cuda-container

3FS 关键技术和设计

📅 2025年03月24日 · ☕ 3 分钟

1. Direct IO Direct IO 绕过了操作系统的页缓存(page cache)，直接与硬件设备进行数据交互。 Direct IO 的特点：新数据多，不需要缓存内存占用少大文件顺序读写对于超过阈值(默认 1MB)的同步读取操作，3FS 的客户端会将其转为 AIO (以 Direct IO 方式打开文件)操作以提高

容器化部署 DeepSeek 3FS 存储系统

📅 2025年03月15日 · ☕ 7 分钟

1. 部署方案在开始容器化部署之前，先提几点要求: 为了简化交付，只需要一个镜像为了可靠性，尽可能多副本部署通过不同的参数启动不同的服务通过环境变量注入配置，渲染到配置文件中下面是 DeepSeek 3FS 的部署方案: 需要部署: 一个 Monitor 用来收集监控数据，数据存储在 ClickHouse 中一

3FS 的一些性能测试

📅 2025年03月11日 · ☕ 4 分钟

1. 硬件测试有两块 NVMe SSD SAMSUNG MZQL27T6HBLA-00A07，两个节点组成的 3FS 集群，每个节点有 4 个 IB 网口。 1.1 单线程磁盘 FIO 128 K，读 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=read -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [R(1)][100.0%][r=2211MiB/s][r=17.7k IOPS][eta 00m:00s] 磁盘 FIO 128 K，写 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=write -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [W(1)][100.0%][w=3703MiB/s][w=29.6k IOPS][eta 00m:00s] 磁盘 FIO 4 M，