分布式
模型并行训练技术
· ☕ 3 分钟
1. 数据并行 训练步骤: master 设备加载模型,并将模型参数复制到每个 worker 设备 master 设备按照 batch 维度划分训练数据,将每个 batch 传递给每个 worker 设备 每个 worker 设备进行训练 master 设备汇总每个 worker 设备的梯度,更新模型参数 master 设备广播模型参数到每个 worker 设备,准备下一个 batch 训练 核心思想: 将训练

多集群下的 Tekton 流水线
· ☕ 6 分钟
1. 多集群构建 Tekton 的优势 借助于 Kubernetes, Tekton 已经具备很好的弹性, 能够支持大规模构建。同时, 开发 Task 主要使用 Yaml 和 Shell, 这扩大了 Tekton 的各种场景适配范围。 上面是一张 Tekton 在多集群下的示意图。为什么 Tekton 需要多集群执行流水线? 随时可变的 Kubernetes 集群。单一的 Kubernetes 集群, 无法满足运维的要求,