Fluid 使用 Lustre Runtime 以及性能测试
· ☕ 4 分钟
1. 分析 Fluid 挂载 NFS 存储 查看 Fuse Pod 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 kubectl get pod nfs-demo-fuse-f9wg8 -oyaml apiVersion: v1 kind: Pod metadata: generateName: nfs-demo-fuse- spec: containers: - command: - /usr/local/bin/entrypoint.sh env: - name: FLUID_RUNTIME_TYPE value: thin - name: FLUID_RUNTIME_NS value: default - name: FLUID_RUNTIME_NAME value: nfs-demo - name: MOUNT_POINT value: /runtime-mnt/thin/default/nfs-demo/thin-fuse - name: MOUNT_OPTIONS value: ro image: fluidcloudnative/nfs:v0.1 imagePullPolicy: IfNotPresent lifecycle: preStop: exec: command: - sh - -c - umount /runtime-mnt/thin/default/nfs-demo/thin-fuse name: thin-fuse securityContext: privileged: true volumeMounts:

Fluid 使用 NFS Runtime 以及性能测试
· ☕ 3 分钟
1. 创建 Dataset 1 2 3 4 5 6 7 8 9 10 kubectl apply -f - <<EOF apiVersion: data.fluid.io/v1alpha1 kind: Dataset metadata: name: nfs-demo spec: mounts: - mountPoint: x.x.x.x:/x-x/ name: nfs-demo EOF 2. 创建 Runtime 1 2 3 4 5 6 7 8 9 10 11 12 13 14 kubectl apply -f - <<EOF apiVersion: data.fluid.io/v1alpha1 kind: ThinRuntimeProfile metadata: name: nfs spec: fileSystemType: nfs fuse: image: fluidcloudnative/nfs imageTag: v0.1 imagePullPolicy: IfNotPresent command: - "/usr/local/bin/entrypoint.sh" EOF 1 2 3 4 5 6 7 8 kubectl apply -f - <<EOF apiVersion: data.fluid.io/v1alpha1 kind: ThinRuntime metadata: name: nfs-demo spec: profileName: nfs EOF 3. 创建测试 Pod 1 2 3 4 5 6 7 8 9 10 11 12

对齐 Ops,使用新思路重写 Ops Copilot 已更新
· ☕ 7 分钟
1. 让 Ops Copilot 成为 Ops Coilot 在 2023 年 09 月,我写过一版 Ops Copilot,也有文章发出 我在给 Ops 工具写 Copilot 。 实现的效果是这样的: 1 2 3 4 5 6 7 8 9 10 Opscli> 打开浏览器 Open a browser and navigate to 'https://www.google.com'. ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ import webbrowser webbrowser.open('https://www.google.com') ↑↑↑↑↑↑↑↑↑↑↑

什么是 MLOps
· ☕ 4 分钟
1. 什么是 MLOps MLOps 是 Machine Learning Operations 的缩写,描述的是围绕模型研发整个生命周期过程的标准化和工程化。 MLOps 包括以下几个关键步骤: 数据管理,数据的存储、访问、清洗、转换 模型开发,算法开发、模型构建 模型训练与调优,使用数据训练模型,调整超参数优化模型,微调模型 模型评

模型并行训练技术
· ☕ 3 分钟
1. 数据并行 训练步骤: master 设备加载模型,并将模型参数复制到每个 worker 设备 master 设备按照 batch 维度划分训练数据,将每个 batch 传递给每个 worker 设备 每个 worker 设备进行训练 master 设备汇总每个 worker 设备的梯度,更新模型参数 master 设备广播模型参数到每个 worker 设备,准备下一个 batch 训练 核心思想: 将训练