硬件
RAID 存储技术
· ☕ 2 分钟
1. 什么是 RAID RAID 技术将多个物理硬盘组合成一个逻辑硬盘,因此操作系统只会将其视为一个单一的存储设备。 实现 RAID 的方式有两种:硬件实现和软件实现。 硬件实现是指 RAID 控制器,它是一个独立的硬件设备,负责 RAID 的控制和管理。 软件实现是指 RAID 软件,它是一个软件,负责 RAID

常用 NPU 运维及故障处理
· ☕ 1 分钟
处理故障时,参考或者记录下的内容,持续更新中 1. 容器挂载设备 1 export IMAGE=ascendai/pytorch:2.1.0 1 2 3 4 5 6 7 8 9 10 nerdctl run --rm -it --ipc=host \ --device=/dev/davinci7 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ ${IMAGE} \ /bin/bash 2. 创建 Pod 1 2 export IMAGE=ascendai/pytorch:2.1.0 export NodeName= 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 kubectl create -f - <<EOF apiVersion: v1 kind: Pod metadata: name: test-ascend-pod namespace: default spec: restartPolicy: Never nodeName: ${NodeName} containers: - name:

RDMA 技术
· ☕ 4 分钟
1. 什么是 RDMA RDMA(Remote Direct Memory Access,远程直接内存访问)是一种为了解决网络传输中服务器端数据处理延迟而产生的技术。 TCP/IP 传输时,数据经过网络堆栈,再经过网卡发送,接收端接收后,按照序列号组装数据。 DMA 传输时,可以直接在设备和内存之间传输数据,不需要经过网

InfiniBand 网络及常用命令
· ☕ 5 分钟
1. InfiniBand 网络 InfiniBand(缩写 IB),是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand 也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。 InfiniBand

NVIDIA GPU 核心与架构演进史
· ☕ 8 分钟
1. 产品线 GeForce 面向游戏玩家,提供强大的图形处理能力、先进的游戏技术。 常见的有 NVIDIA GTX 系列、高端的 RTX 系列、Titan 系列。 Quadro 面向专业市场,如设计师、工程师、科学家和内容创作者。 常见的有 Quadro P 系列,高端的 Quadro RTX 系列 Tesla 面向数据中心和高性能计算(HPC)市场,