模型研发周期中的数据存储📅 2024年05月26日 · ☕ 3 分钟1. 基于对象存储的数据交付 如上图,在模型研发过程中,主要涉及三个子平台,分别是: 数据平台 数据平台主要负责数据相关的管理,比如: 数据接入、数据处理,最终生成训练所需的数据。 数据平台将原始数据存储到对象存储中,在处理时,从对象存储中获取数据,进行
对齐 Ops,使用新思路重写 Ops Copilot 已更新📅 2024年05月01日 · ☕ 7 分钟1. 让 Ops Copilot 成为 Ops Coilot 在 2023 年 09 月,我写过一版 Ops Copilot,也有文章发出 我在给 Ops 工具写 Copilot 。 实现的效果是这样的: 1 2 3 4 5 6 7 8 9 10 Opscli> 打开浏览器 Open a browser and navigate to 'https://www.google.com'. ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ import webbrowser webbrowser.open('https://www.google.com') ↑↑↑↑↑↑↑↑↑↑↑
什么是 MLOps📅 2024年04月27日 · ☕ 4 分钟1. 什么是 MLOps MLOps 是 Machine Learning Operations 的缩写,描述的是围绕模型研发整个生命周期过程的标准化和工程化。 MLOps 包括以下几个关键步骤: 数据管理,数据的存储、访问、清洗、转换 模型开发,算法开发、模型构建 模型训练与调优,使用数据训练模型,调整超参数优化模型,微调模型 模型评
模型并行训练技术📅 2024年04月04日 · ☕ 3 分钟1. 数据并行 训练步骤: master 设备加载模型,并将模型参数复制到每个 worker 设备 master 设备按照 batch 维度划分训练数据,将每个 batch 传递给每个 worker 设备 每个 worker 设备进行训练 master 设备汇总每个 worker 设备的梯度,更新模型参数 master 设备广播模型参数到每个 worker 设备,准备下一个 batch 训练 核心思想: 将训练
常用 AI 基础镜像及启动命令📅 2024年03月28日 · ☕ 2 分钟1. 镜像 Tag 标识的含义 base/cuda: 包括 CUDA 运行时 runtime: 在 base 的基础上,新增了 CUDA math 库和 NCCL、cuDNN 运行时 devel: 在 runtime 的基础上,新增了头文件和用于构建 CUDA 镜像的开发工具,对于多阶段构建特别有用 cuddn: 在上面基础上,新增了 cuDNN 神经网络加速库 py3: Python 3 环境 2. CUDA 镜像 镜像 AMD64 镜像大小 ARM64 镜