MPI 通信原语及 Python 编程使用
· ☕ 5 分钟
1. 什么是 MPI MPI,Message Passing Interface 消息传递接口,是一种用于并行计算的通信协议。 MPI 提供了一组标准化的接口,用于在不同的计算节点之间传输数据,广泛应用于科学计算、机器学习、深度学习等领域。 MPI 有多个实现,常用实现有 MPICH 和 OpenMPI。MPICH

Ops 发布 v1.0.0 版本
· ☕ 2 分钟
基于生产的真实需要,最近对 https://github.com/shaowenchen/ops 又进行了几个重要的更新,同时发布了 v1.0.0 版本。这里主要介绍一下这个版本的主要特性。 1. 多集群执行任务的支持 在实践中,建议: 将当前集群的主机创建为 Host 可以创建多个 Cluster,拥有的 Cluster 对象即为纳管的集群 Task、Pipe

常见的几种网络拓扑结构
· ☕ 3 分钟
1. Fat-Tree 1985 年 麻省理工学院的 Charles E. Leiserson 发明了 Fat-Tree 胖树网络。如下图,胖树网络是一颗二叉树,从更节点到叶子节点带宽逐步增加。 2008 年 8 月,加州大学圣地亚哥分校的一组计算机科学家发表了一个可扩展的网络架构设计,该设计采用受胖树拓扑启发的拓扑结构,实现了比以前的分

RDMA 技术
· ☕ 4 分钟
1. 什么是 RDMA RDMA(Remote Direct Memory Access,远程直接内存访问)是一种为了解决网络传输中服务器端数据处理延迟而产生的技术。 TCP/IP 传输时,数据经过网络堆栈,再经过网卡发送,接收端接收后,按照序列号组装数据。 DMA 传输时,可以直接在设备和内存之间传输数据,不需要经过网

SR-IOV 技术
· ☕ 4 分钟
1. 什么是 SR-IOV 技术 SR-IOV(Single Root I/O Virtualization)是一种虚拟化技术,它允许虚拟机、容器直接访问物理硬件资源,从而提高 I/O 性能,还能减少主机 CPU 消耗。 如上图,SR-IOV 将单个物理设备(例如网络接口卡,NIC)划分成多个虚