故障排查
推理应用故障排查清单
· ☕ 1 分钟
Pod 查看 1 号进程的子进程 1 ps --ppid 1 -f 查看 Time_Wait 连接 1 netstat -anp | grep TIME_WAIT Istio Ingress 1 kubectl -n istio-ingress logs -l app=istio-ingress |grep vlm-tag-v1 EastWestGateway 1 kubectl -n istio-ingress logs -l app=istio-eastwestgateway |grep vlm-tag-v1 Node 抓包 1 tcpdump -i bond0 -n -v -tttt 指定目标 IP 和端口 1 tcpdump -i bond0 -n -v -tttt host 10.10.10.10 AI 安装 Nodejs 1 2 3 4 5 6 7 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.3/install.sh | bash export NVM_DIR="$HOME/.nvm" [ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh" # This loads nvm [ -s "$NVM_DIR/bash_completion" ] && \. "$NVM_DIR/bash_completion" # This loads nvm bash_completion nvm install node 1

Elasticsearch troubleshooting
· ☕ 1 分钟
处理 Red 状态的 ES 索引 GET _cat/shards?v=true&h=index,shard,prirep,state,node,unassigned.reason&s=state 1 2 ops-pod-loggie-2026.06.11 0 p UNASSIGNED NODE_LEFT ops-pod-loggie-2026.06.11 0 r UNASSIGNED ALLOCATION_FAILED 尝试重新分配 1 POST _cluster/reroute?retry_failed=true 或者直接删除 1 DELETE ops-pod-loggie-2026.06.11 定时清理索引 全部索引仅保留 7 天 创建 ILM 策略 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 PUT _ilm/policy/ops-delete-after-7d { "policy": { "phases": { "hot": { "actions": {} }, "delete": { "min_age": "7d", "actions": { "delete": {} } } } } } 创建索引模板 1 2 3 4 5 6 7 8 9 10 PUT _index_template/ops-delete-after-7d

OpenClaw 运维 - 让飞轮转起来
· ☕ 2 分钟
1. 生产案例 清理节点 重启节点 删除异常 Pod 巡检集群 2. 两步快速配置 第一步,配置 mcp 将这段配置丢给 OpenClaw,OpenClaw 会帮你配置好。 1 2 3 4 5 6 7 8 { "mcpServers": { "ops-mcp-server": { "baseUrl": "http://ops-mcp-server/mcp", "headers": { "Authorization": "Bearer xxx" } } } } 第二步,安装 skills 告诉 OpenClaw 安装一个 ops-mcp-server 的 skills。 1 clawhub install ops-mcp-server 这样

如何升级 Kubernetes 节点的 cgroup 版本
· ☕ 2 分钟
1. cgroup v1 与 v2 接口路径差别 v1 1 2 3 4 /sys/fs/cgroup/cpu/cpu.cfs_quota_us /sys/fs/cgroup/cpu/cpuacct.usage /sys/fs/cgroup/memory/memory.limit_in_bytes /sys/fs/cgroup/memory/memory.usage_in_bytes v2 1 2 3 4 /sys/fs/cgroup/cpu.max /sys/fs/cgroup/cpu.stat /sys/fs/cgroup/memory.max /sys/fs/cgroup/memory.current cgroup v2 是 v1 的升级版本,具有更统一的资层级管理、精准的资源隔离等优点。但也导致了,写代码时,读取相关接口文件时路径不一样,需要做兼容处理。另外,一个思路就是,统一到一个 cgroup 版本。 Kubernetes 默认支持

NVIDIA DCGM 使用指南
· ☕ 9 分钟
1. 什么是 DCGM DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集,提供了以下功能: GPU 行为监控 GPU 配置管理 GPU 策略监督 GPU 健康和诊断 GPU 计费和进程统计 NVSwitch 配置和监控 2. 安装 DCGM 2.1 安装 libnvidia-nscq 一般都是 NVLink 连接 GPU,可以通过 nvidia-smi topo -m 查看是否有 NVSwitch 字样输出判断是否需要安