运维
推理应用故障排查清单
· ☕ 1 分钟
Pod 查看 1 号进程的子进程 1 ps --ppid 1 -f 查看 Time_Wait 连接 1 netstat -anp | grep TIME_WAIT Istio Ingress 1 kubectl -n istio-ingress logs -l app=istio-ingress |grep vlm-tag-v1 EastWestGateway 1 kubectl -n istio-ingress logs -l app=istio-eastwestgateway |grep vlm-tag-v1 Node 抓包 1 tcpdump -i bond0 -n -v -tttt 指定目标 IP 和端口 1 tcpdump -i bond0 -n -v -tttt host 10.10.10.10 AI 安装 Nodejs 1 2 3 4 5 6 7 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.3/install.sh | bash export NVM_DIR="$HOME/.nvm" [ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh" # This loads nvm [ -s "$NVM_DIR/bash_completion" ] && \. "$NVM_DIR/bash_completion" # This loads nvm bash_completion nvm install node 1

Elasticsearch troubleshooting
· ☕ 1 分钟
处理 Red 状态的 ES 索引 GET _cat/shards?v=true&h=index,shard,prirep,state,node,unassigned.reason&s=state 1 2 ops-pod-loggie-2026.06.11 0 p UNASSIGNED NODE_LEFT ops-pod-loggie-2026.06.11 0 r UNASSIGNED ALLOCATION_FAILED 尝试重新分配 1 POST _cluster/reroute?retry_failed=true 或者直接删除 1 DELETE ops-pod-loggie-2026.06.11

容器化部署 Hermes Agent
· ☕ 2 分钟
1. 启动容器 设置镜像 1 export IMAGE=nousresearch/hermes-agent:v2026.6.5 设置目录权限 1 2 mkdir -p hermes-agent-home chmod -R 777 hermes-agent-home 设置环境变量 1 2 3 cat <<EOF > hermes-agent-home/.env GATEWAY_ALLOW_ALL_USERS=true EOF 启动 hermes-agent 1 2 3 4 5 6 7 8 nerdctl run -d \ --name hermes-agent \ --restart always \ --user hermes \ --network host \ -v $(pwd)/hermes-agent-home:/opt/data \ -v $(pwd)/openclaw-home/.openclaw:/opt/data/.openclaw \ $IMAGE gateway run 启动 hermes-agent dashboard 1 2 3 4 5 6 7 nerdctl run -d \ --name hermes-dashboard \ --restart always \ -p 9119:9119 \ -v $(pwd)/hermes-agent-home:/opt/data \ -e GATEWAY_HEALTH_URL=http://${node_IP}:8642 \ $IMAGE dashboard --host 0.0.0.0 --insecure 删除容器 1 nerdctl rm

Loggie 部署与配置
· ☕ 2 分钟
1. 下载 Chart 包 1 git clone https://github.com/loggie-io/installation 2. 安装 loggie 1 cd installation/helm-chart 1 helm install loggie ./ -nloggie --create-namespace 3. 全局配置修改 移除标准输出前面的时间戳 1 kubectl -n loggie edit cm loggie-config-loggie 将 parseStdout 改为 true,移除标准输出前面的时间戳。 1 2 3 4 5 6 config: loggie: discovery: enabled: true kubernetes: parseStdout: true podlogs 改成 varlog 挂载 1 kubectl -n loggie edit ds loggie 1 2 3 4 5 6 7 8 9 volumeMounts: - mountPath: /var/log name: varlog readOnly: true volumes: - hostPath: path: /var/log

OpenClaw 运维 - 让飞轮转起来
· ☕ 2 分钟
1. 生产案例 清理节点 重启节点 删除异常 Pod 巡检集群 2. 两步快速配置 第一步,配置 mcp 将这段配置丢给 OpenClaw,OpenClaw 会帮你配置好。 1 2 3 4 5 6 7 8 { "mcpServers": { "ops-mcp-server": { "baseUrl": "http://ops-mcp-server/mcp", "headers": { "Authorization": "Bearer xxx" } } } } 第二步,安装 skills 告诉 OpenClaw 安装一个 ops-mcp-server 的 skills。 1 clawhub install ops-mcp-server 这样