Posts

什么是 MLOps

📅 2024年04月27日 · ☕ 4 分钟

1. 什么是 MLOps MLOps 是 Machine Learning Operations 的缩写，描述的是围绕模型研发整个生命周期过程的标准化和工程化。 MLOps 包括以下几个关键步骤: 数据管理，数据的存储、访问、清洗、转换模型开发，算法开发、模型构建模型训练与调优，使用数据训练模型，调整超参数优化模型，微调模型模型评

1. 数据并行训练步骤: master 设备加载模型，并将模型参数复制到每个 worker 设备 master 设备按照 batch 维度划分训练数据，将每个 batch 传递给每个 worker 设备每个 worker 设备进行训练 master 设备汇总每个 worker 设备的梯度，更新模型参数 master 设备广播模型参数到每个 worker 设备，准备下一个 batch 训练核心思想: 将训练

常用 AI 基础镜像及启动命令

📅 2024年03月28日 · ☕ 2 分钟

1. 镜像 Tag 标识的含义 base/cuda: 包括 CUDA 运行时 runtime: 在 base 的基础上，新增了 CUDA math 库和 NCCL、cuDNN 运行时 devel: 在 runtime 的基础上，新增了头文件和用于构建 CUDA 镜像的开发工具，对于多阶段构建特别有用 cuddn: 在上面基础上，新增了 cuDNN 神经网络加速库 py3: Python 3 环境 2. CUDA 镜像镜像 AMD64 镜像大小 ARM64 镜

Conda 安装与使用

📅 2024年03月28日 · ☕ 1 分钟

1. 安装 miniconda macOS 1 brew install miniconda Linux 1 2 3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh rm -rf Miniconda3-latest-Linux-x86_64.sh 2. 修改默认配置 2.1 初始化 Shell 如果不进行初始化，激活环境时会报错 CondaError: Run 'conda init' before 'conda activate' 。 1 2 3 4 5 6 7 8 9 conda init --help usage: conda init [-h] [--all] [--user] [--no-user] [--system] [--reverse] [--json] [-v] [-q] [-d] [SHELLS ...] Initialize conda for shell interaction. positional arguments: SHELLS One or more shells to be initialized. If not given, the default value is 'bash' on unix and 'cmd.exe' & 'powershell' on Windows. Use the '--all' flag to

Argo Events 事件驱动工作流

📅 2024年03月27日 · ☕ 5 分钟

1. Argo Events 工作原理上面是 Argo Events 官方网站上的架构图，对于事件处理系统，有三个重要的组成事件源的接入，对应于 Event Source 事件的分发，对应于 Event Sensor 事件的消费，对应于 Event Trigger 事件消息存储在 EventBus 中，默认使用的 NATS。 2. 创建 ServiceAccount 给 Sensor 和 Workflow 创建 operate-workflow-sa operate-workflow-sa 用来授权 Sensor 操作 Workflow 。 1 2 3 4 5 6