AI – 陈少文的网站

Kubernetes 下开源的 GPU 虚拟化项目

📅 2025年06月14日 · ☕ 4 分钟

1. k8s-device-plugin https://github.com/NVIDIA/k8s-device-plugin 是 NVIDIA 官方提供的 Kubernetes 设备插件，用于在 Kubernetes 集群中管理和分配 NVIDIA GPU 资源。 k8s-device-plugin 通过与 kubelet 的交互，自动发现和注册 GPU 设备，并将其作为资源提供给 Kubernetes 调度器。它支持多种 GPU 型号，并能够处理 GPU 的分片和共享。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 apiVersion: v1 kind: Pod metadata: name: gpu-pod spec: restartPolicy: Never containers: - name: cuda-container

3FS 关键技术和设计

📅 2025年03月24日 · ☕ 3 分钟

1. Direct IO Direct IO 绕过了操作系统的页缓存(page cache)，直接与硬件设备进行数据交互。 Direct IO 的特点：新数据多，不需要缓存内存占用少大文件顺序读写对于超过阈值(默认 1MB)的同步读取操作，3FS 的客户端会将其转为 AIO (以 Direct IO 方式打开文件)操作以提高

容器化部署 DeepSeek 3FS 存储系统

📅 2025年03月15日 · ☕ 7 分钟

1. 部署方案在开始容器化部署之前，先提几点要求: 为了简化交付，只需要一个镜像为了可靠性，尽可能多副本部署通过不同的参数启动不同的服务通过环境变量注入配置，渲染到配置文件中下面是 DeepSeek 3FS 的部署方案: 需要部署: 一个 Monitor 用来收集监控数据，数据存储在 ClickHouse 中一

3FS 的一些性能测试

📅 2025年03月11日 · ☕ 4 分钟

1. 硬件测试有两块 NVMe SSD SAMSUNG MZQL27T6HBLA-00A07，两个节点组成的 3FS 集群，每个节点有 4 个 IB 网口。 1.1 单线程磁盘 FIO 128 K，读 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=read -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [R(1)][100.0%][r=2211MiB/s][r=17.7k IOPS][eta 00m:00s] 磁盘 FIO 128 K，写 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=write -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [W(1)][100.0%][w=3703MiB/s][w=29.6k IOPS][eta 00m:00s] 磁盘 FIO 4 M，

在 Kubernetes 中使用 Fluid 挂载 3FS 存储及性能测试

📅 2025年03月09日 · ☕ 6 分钟

1. 为什么要将 3FS 对接到 Fluid 3FS 是 DeepSeek 开源的分布式存储系统，因其极优异的性能测试结果，而被津津乐道，star 量快速飙升。我所在的团队也对 3FS 展开了技术上的跟踪，寻找合适的应用场景，发挥 AI 硬件基础设施的最大价值。我们线上推理、训练服务使用的存储系统都是通