监控 – 陈少文的网站

容器部署 VictoriaMetrics

📅 2026年07月11日 · ☕ 4 分钟

VictoriaMetrics（简称 VM）是兼容 Prometheus 生态的时序数据库，资源占用低于 Prometheus，支持单机版与集群版。单机版可直接替换 Prometheus 存储；集群版通过 vmstorage / vminsert / vmselect 拆分读写与存储，水平扩展能力更强。 1. VictoriaMetrics 单节点单机版（victoria-me

1. ClickHouse 单节点 1.1 配置环境变量 1 2 3 4 5 6 7 8 export CONTAINER_CLI=nerdctl export IMAGE=clickhouse/clickhouse-server:24 export CLICKHOUSE_INSTANCE_NAME=clickhouse export CH_DATA=/data/ops/clickhouse/$CLICKHOUSE_INSTANCE_NAME export CLICKHOUSE_PORT=9000 export CLICKHOUSE_PROMETHEUS_PORT=9363 export CLICKHOUSE_USER=default export CLICKHOUSE_PASSWORD=xxxxxx 1.2 生成配置文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 mkdir -p $CH_DATA/data $CH_DATA/log $CH_DATA/config.d cat > $CH_DATA/config.d/port.xml <<EOF <clickhouse> <tcp_port>$CLICKHOUSE_PORT</tcp_port> </clickhouse> EOF cat > $CH_DATA/config.d/prometheus.xml <<EOF <clickhouse> <listen_host>0.0.0.0</listen_host> <prometheus> <endpoint>/metrics</endpoint> <port>$CLICKHOUSE_PROMETHEUS_PORT</port> <metrics>true</metrics> <events>true</events> <asynchronous_metrics>true</asynchronous_metrics> </prometheus> </clickhouse> EOF cat > $CH_DATA/config.d/logger.xml <<EOF <clickhouse> <logger> <level>information</level> <console>true</console> <log remove="remove"/> <errorlog remove="remove"/> </logger> </clickhouse> EOF 1.3 启动

NVIDIA DCGM 使用指南

📅 2025年08月13日 · ☕ 9 分钟

1. 什么是 DCGM DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集，提供了以下功能: GPU 行为监控 GPU 配置管理 GPU 策略监督 GPU 健康和诊断 GPU 计费和进程统计 NVSwitch 配置和监控 2. 安装 DCGM 2.1 安装 libnvidia-nscq 一般都是 NVLink 连接 GPU，可以通过 nvidia-smi topo -m 查看是否有 NVSwitch 字样输出判断是否需要安

给 Node Exporter 添加抓取凭证

📅 2025年05月24日 · ☕ 1 分钟

1. 背景 Node Exporter 是 Prometheus 生态系统中用于收集主机指标的常用组件，但默认情况下不提供访问认证。本文介绍如何为 Kubernetes 环境中的 Node Exporter 添加基本认证，提高安全性。 2. Node Exporter 配置凭证 2.1 生成加密密码使用 htpasswd 工具生成加密密码： 1 htpasswd -nBC 12 "" | tr -d ':\n' 这里需要输入密码，生成的输出将是一个

部署 smokeping-prober 探测网络质量

📅 2025年05月11日 · ☕ 1 分钟

1. smokeping-prober 是什么 smokeping-prober 是一个用于探测网络质量的工具，它通过向目标节点发送 ICMP 请求来探测网络质量。 2. 部署 smokeping-prober 2.1 生成 smokeping-prober.yaml 配置文件 1 2 3 4 5 6 7 8 9 10 11 cat > smokeping_prober.yaml <<EOF --- targets: - hosts: - 1.2.3.4 interval: 1s # Duration, Default 1s. network: ip # One of ip, ip4, ip6. Default: ip (automatic IPv4/IPv6) protocol: icmp # One of icmp, udp. Default: icmp (Requires privileged operation) size: 56 # Packet data size in bytes. Default 56 (Range: 24 - 65535) tos:

监控