运维 – 陈少文的网站

Argo 核心组件介绍

📅 2024年02月23日 · ☕ 5 分钟

1. argo 介绍 Argo 是一个开源项目，它在 Kubernetes 上提供了一系列工具，用于构建和运行应用程序。Argo 的核心组件主要包括以下几个： Argo CD Argo CD 是一个基于 GitOps 的持续交付工具，它允许用户声明式地管理 Kubernetes 集群中的应用部署。Argo CD 通过与 Git 仓库同步，确保集群状态与 Git 仓库中

Ops 新增 Server 及 UI 服务

📅 2024年02月14日 · ☕ 2 分钟

1. 什么是 Ops 项目我在之前的文章中介绍过一个常用的 Ops 工具。 Ops 的设计理念在于，运维工具的核心在于文本分发和脚本执行，实现了这两种能力就能够满足运维的功能诉求。目前我主要的运维对象是 Host 主机、Kubernetes 集群，因此在 OpsObject 层实现了 Host 和 Cluster 对象，分别

1. 项目简介 kind 是使用容器管理 Kubernetes 集群的工具。项目地址 https://github.com/kubernetes-sigs/kind 。主要用在: 本地开发环境学习时的临时环境自动化测试 2. 安装 kind macOS 1 brew install kind Linux 1 2 curl -Lo /usr/local/bin/kind https://kind.sigs.k8s.io/dl/v0.21.0/kind-linux-amd64 chmod +x /usr/local/bin/kind 3. 创建 kind 集群如果你本地配置有 PROXY，在创建之间建议重新设置一下环境变量： 1 2 export https_proxy=http://x.x.x.x:7890 export http_proxy=http://x.x.x.x:7890 本地代理通常设

容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理

📅 2024年02月03日 · ☕ 8 分钟

1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介使用 TensorRT 时，通常需要将模型转换为 ONNX 格式，再将 ONNX 转换为 TensorRT 格式，然后在 TensorRT、Triton Server 中进行推理。但这个转换过程并不简单，经常会遇到各种报错，需要对模型结构、平台算子有一定的掌握，具备转换和调试能力。而 TensorRT-LLM 的目标

nvidia-smi 基本使用

📅 2024年02月01日 · ☕ 5 分钟

1. 什么是 nvidia-smi nvidia-smi 全称是 NVIDIA System Management Interface，是 NVIDIA 提供的管理和监控 GPU 的接口。 nvidia-smi 调用的是 NVML。NVML 全称是 NVIDIA Management Library，提供了一组 C API，用于 NVIDIA GPU 监控和管理的库。 1.1 可查询的状态 ECC 错误计数 GPU 利用率活动计算进程时钟和 PState 温度和风扇速度电

运维