分布式
多机多盘 minio 集群不同纠删码配置在 IPoIB 下的性能测试
· ☕ 7 分钟
前面测试的发现瓶颈在网卡,本篇在 IPoIB 下进行补充测试。 1. minio 集群环境 1.1 创建 minio 集群 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 export CONTAINER_CLI=nerdctl export IMAGE=minio/minio:RELEASE.2025-04-22T22-12-26Z export ROOT_USER=minioadmin export ROOT_PASSWORD=minioadmin export MINIO_ERASURE_SET_DRIVE_COUNT=16 export MINIO_STORAGE_CLASS_STANDARD=EC:4 export POOL_0="http://minioib{1...4}/mnt/data{0...3}" $CONTAINER_CLI run -d \ --net host \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ --ulimit nofile=1048576:1048576 \ --memory-swappiness=0 \ --name minio \ -v /mnt/data0:/mnt/data0 \ -v /mnt/data1:/mnt/data1 \ -v /mnt/data2:/mnt/data2 \ -v /mnt/data3:/mnt/data3 \ -e "MINIO_ROOT_USER=$ROOT_USER" \ -e "MINIO_ROOT_PASSWORD=$ROOT_PASSWORD" \ -e "MINIO_ERASURE_SET_DRIVE_COUNT=$MINIO_ERASURE_SET_DRIVE_COUNT" \

MinIO 多节点多盘部署与运维
· ☕ 8 分钟
1. 环境准备 1.1 数据盘准备 查看数据盘 1 lsblk -d -o NAME,SIZE,TYPE | grep nvme 1 2 3 4 nvme0n1 745.2G disk nvme1n1 745.2G disk nvme2n1 745.2G disk nvme3n1 745.2G disk 准备存储目录 1 2 3 for i in {0..3}; do mkdir -p /mnt/data${i} done 格式化数据盘 1 2 3 for i in {0..3}; do mkfs.xfs -f /dev/nvme${i}n1 done 挂载数据盘 1 2 3 for i in {0..3}; do mount /dev/nvme${i}n1 /mnt/data${i} done 清空数据盘 1 2 3 4 for i in {0..3}; do rm -rf /mnt/data${i}/* rm -rf /mnt/data${i}/.minio.sys done 查看挂载情况

分布式计算框架 Ray
· ☕ 4 分钟
1. 什么是 Ray 2016 年,UC Berkeley 的 RISELab 发布了一个新的分布式计算框架 Ray。 2017 年,发布 Ray 相关论文之后,受到业内的广泛关注,国内主要是蚂蚁集团采用并贡献了 Ray。 2020 年,Ray 发布了 1.0 版本,引入 Placement Group 特性,增加了用户自定义任务编排的灵活性,为后续的 Ray AI Libraries 和 vLLM 等

MPI 通信原语及 Python 编程使用
· ☕ 5 分钟
1. 什么是 MPI MPI,Message Passing Interface 消息传递接口,是一种用于并行计算的通信协议。 MPI 提供了一组标准化的接口,用于在不同的计算节点之间传输数据,广泛应用于科学计算、机器学习、深度学习等领域。 MPI 有多个实现,常用实现有 MPICH 和 OpenMPI。MPICH

分布式训练中的数据并行架构
· ☕ 5 分钟
1. Parameter Server 架构 在 Parameter Server 架构中,集群中的节点被分为两类,参数服务器节点(Parameter Server)和工作服务器节点(Worker)。 1.1 Parameter Server Parameter Server 用于存放模型的参数。 每个参数服务器节点负责管理和更新模型的一部分参数,而每个工作节点则只处理与其对应