Argo 核心组件介绍📅 2024年02月23日 · ☕ 5 分钟1. argo 介绍 Argo 是一个开源项目,它在 Kubernetes 上提供了一系列工具,用于构建和运行应用程序。Argo 的核心组件主要包括以下几个: Argo CD Argo CD 是一个基于 GitOps 的持续交付工具,它允许用户声明式地管理 Kubernetes 集群中的应用部署。Argo CD 通过与 Git 仓库同步,确保集群状态与 Git 仓库中
Ops 新增 Server 及 UI 服务📅 2024年02月14日 · ☕ 2 分钟1. 什么是 Ops 项目 我在之前的文章中介绍过一个常用的 Ops 工具。 Ops 的设计理念在于,运维工具的核心在于文本分发和脚本执行,实现了这两种能力就能够满足运维的功能诉求。 目前我主要的运维对象是 Host 主机、Kubernetes 集群,因此在 OpsObject 层实现了 Host 和 Cluster 对象,分别
kind 实用指南📅 2024年02月05日 · ☕ 2 分钟1. 项目简介 kind 是使用容器管理 Kubernetes 集群的工具。项目地址 https://github.com/kubernetes-sigs/kind 。 主要用在: 本地开发环境 学习时的临时环境 自动化测试 2. 安装 kind macOS 1 brew install kind Linux 1 2 curl -Lo /usr/local/bin/kind https://kind.sigs.k8s.io/dl/v0.21.0/kind-linux-amd64 chmod +x /usr/local/bin/kind 3. 创建 kind 集群 如果你本地配置有 PROXY,在创建之间建议重新设置一下环境变量: 1 2 export https_proxy=http://x.x.x.x:7890 export http_proxy=http://x.x.x.x:7890 本地代理通常设
容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理📅 2024年02月03日 · ☕ 8 分钟1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介 使用 TensorRT 时,通常需要将模型转换为 ONNX 格式,再将 ONNX 转换为 TensorRT 格式,然后在 TensorRT、Triton Server 中进行推理。 但这个转换过程并不简单,经常会遇到各种报错,需要对模型结构、平台算子有一定的掌握,具备转换和调试能力。而 TensorRT-LLM 的目标
nvidia-smi 基本使用📅 2024年02月01日 · ☕ 5 分钟1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface,是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library,提供了一组 C API,用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率 活动计算进程 时钟和 PState 温度和风扇速度 电