容器化部署 DeepSeek 3FS 存储系统📅 2025年03月15日 · ☕ 7 分钟1. 部署方案 在开始容器化部署之前,先提几点要求: 为了简化交付,只需要一个镜像 为了可靠性,尽可能多副本部署 通过不同的参数启动不同的服务 通过环境变量注入配置,渲染到配置文件中 下面是 DeepSeek 3FS 的部署方案: 需要部署: 一个 Monitor 用来收集监控数据,数据存储在 ClickHouse 中 一
3FS 的一些性能测试📅 2025年03月11日 · ☕ 4 分钟1. 硬件测试 有两块 NVMe SSD SAMSUNG MZQL27T6HBLA-00A07,两个节点组成的 3FS 集群,每个节点有 4 个 IB 网口。 1.1 单线程 磁盘 FIO 128 K,读 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=read -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [R(1)][100.0%][r=2211MiB/s][r=17.7k IOPS][eta 00m:00s] 磁盘 FIO 128 K,写 1 fio -numjobs=1 -fallocate=none -iodepth=2 -ioengine=libaio -direct=1 -rw=write -bs=128K --group_reporting -size=100M -time_based -runtime=30 -name=fio-test -directory=/data/fio 1 Jobs: 1 (f=1): [W(1)][100.0%][w=3703MiB/s][w=29.6k IOPS][eta 00m:00s] 磁盘 FIO 4 M,
在 Kubernetes 中使用 Fluid 挂载 3FS 存储及性能测试📅 2025年03月09日 · ☕ 6 分钟1. 为什么要将 3FS 对接到 Fluid 3FS 是 DeepSeek 开源的分布式存储系统,因其极优异的性能测试结果,而被津津乐道,star 量快速飙升。 我所在的团队也对 3FS 展开了技术上的跟踪,寻找合适的应用场景,发挥 AI 硬件基础设施的最大价值。 我们线上推理、训练服务使用的存储系统都是通
NVIDIA 环境变量配置📅 2025年01月20日 · ☕ 2 分钟NVIDIA_VISIBLE_DEVICES 指定程序可见的 GPU 设备 1 CUDA_VISIBLE_DEVICES=0,1 可用值: 1,2,以逗号分隔的 GPU UUID 或索引列表 all,所有 GPU none,加载驱动,但无法访问 GPU void,不加载驱动 NVIDIA_DRIVER_CAPABILITIES 控制哪些驱动程序库/二进制文件将被安装在容器内 1 NVIDIA_DRIVER_CAPABILITIES=compute,utility 可用值: compute,CUDA 和 OpenCL 应用程序所需。 co
Ascend 环境变量配置📅 2025年01月20日 · ☕ 3 分钟HCCL_IF_IP 配置 HCCL 的初始化 root 通信网卡 IP 。 环境变量 HCCL_IF_IP > 环境变量 HCCL_SOCKET_IFNAME > docker/lo 以外网卡(网卡名字典序升序) > docker 网卡 > lo 网卡。 1 export HCCL_IF_IP=10.10.10.1 HCCL_IF_BASE_PORT 指定 Host 网卡起始端口号,配置后系统默认占用以该端口起始的 16 个端口进行集群信息收集,取值范围为[1024,65520] 。 1 export HCCL_IF_BASE_PORT=50000 HCCL_SOCKET_IFNAME HCCL 可通