1. 建立 SOPS 基本盘
SOPS,Standard Operating Procedures,标准化操作程序。在我们进行的生产活动中,经常会有一些基础的、重复的操作流程,这些操作就是 SOPS。
你需要建立一系列的 SOPS,通过排列组合 SOPS 能帮助你更快地完成任务。以前建立标准流程需要资深工程师才能完成,现在借助 AI 输出 SOPS 是一件非常容易的事。
既然都是 AI 制造,为什么不在解决问题时,动态创建 SOPS 呢?这是终极形态,目前 AI Agent 还没有达到这样的成熟度。有几个方面的原因:
- 每个公司的实践路线不一样,AI 提供的通用方案并不完全适用,SOPS 充当了 Prompt
- 有限集合的 SOPS 能避免 AI 太多发散性的思考,更快更准解决问题,SOPS 提供 few-shot 的样本
- AI 无法为我们承担物理世界的责任,SOPS 充当了守门员
2. 导出 MCP 协议
我在 MCP 篇 中有过阐述,MCP 最大的价值是,在模型大战快结束,AI 应用爆发前夕,让开发者们对模型之外的能力调用有了统一的标准。
不要被 OpenClaw 中普遍使用的 CLI 模式所迷惑。CLI 是打开旧世界的钥匙,Openclaw 通过 CLI 驱动了很多来不及拥抱 AI 的传统应用。CLI 的局限性在于与系统和处理器绑定。如果只是处理一些日常应用,倒是没什么问题,其他人已经帮你进行了兼容。但如果是对接内部系统呢,你会愿意给 Windows、Linux、Mac 组合 X86、ARM 各写一个 CLI 吗?
MCP 可以转为 CLI。在很多的 Skills 中,会借助工具 mcporter 来将 MCP Server 直接转为 CLI 命令使用,不需要进行额外开发。如果需要选择,MCP 是更好的选择,最好是一个 MCP Server 将能力集中起来。MCP Server 是新的应用范式,更多的功能、更多的调用次数意味着更高的价值输出。
3. 不要迷信 token
这并不是出于成本考虑,而是一条基本原则: 尽可能不要用 token。
你可能会很疑惑 AI Agent 不用 token 还能是 AI Agent 吗?事实上,工程实践面临的困境通常不是一个单点的技术问题,并不是只要模型能力够强就可以直接解决问题。
token 的使用会有以下几个问题:
- 额外成本,虽然 token 的单价越来越低,一轮动辄百万级别的 token 也会是一笔不小的开支
- 效率降低,调用模型接口需要时间,使用 token 会导致整体响应时间边长
- 不确定性,即使 temperature 为 0,也不能保障每次输出的内网完全一致,使用 token 需要面临这种不确定性
- 隐私泄露,一方面模型服务商可以直接获取到用户的输入,另一方面用户数据一旦被用于训练,还可能会泄露给其他用户
要祛魅模型,不要一股脑每个地方都用模型,这样会导致系统失去演化能力。系统不能够持续地获得高分容易失去其他人的信任,你也会开始怀疑自己。
4. 执行 SOPS 的范式
4.1 通过页面下发·
在 AI Agent 时代,继续用页面点击执行 SOPS 的方式并不丢脸。有一个传统的 SOPS 入口,有很多好处:
- 以防没 token 时,降级采用人工操作
- 直接查看数据,用于对齐 AI Agent
- 作为公共存储后端,汇总全部 AI Agent
- 记录历史、审计数据,用于定责
我们还可以用 AI Agent 帮我们生成 SOPS 的项目,在运维领域,就是类似作业平台、流水线平台之类的项目,而我就是用的之前写的开源项目 https://www.chenshaowen.com/ops/ 。

图上图,Ops 提供了对集群的运维能力,而运维平台通过整合业务信息和业务场景对接业务系统,对生产运维事项提供直接的封装。
4.2 直接根据关键字
通过关键字匹配,能够很快匹配上某种具体的模式,自动化地执行某个预设的 SOPS。

如上图,我们实现了一个 ops-sops-keyword 的应用,对接异常事件和 Copilot 消息的 SOPS 处理流程。主要实现了以下功能:
- 通过正则匹配提取参数
- 通过 action 匹配选中 SOPS
- 添加额外参数,可以借助模型完成上面两件事
对于一些意图非常明显的任务,我们完全可以基于规则进行处理。

上图是生产中的一个案例,通过添加 cordon-node 禁用异常的节点。这种处理方式重来没有失败过,而之前基于模型的驱动方式,时不时就会跑错 SOPS。
4.3 分流高危操作
今年,我们接入了 OpenClaw 用于故障的自动化定位和处理,目前也取得了一些效果。

如上图,各种 AI Agent 会通过 ops mcp server 对接 SOPS 能力。在任务执行道 Ops 时,我们会对其分流。主要是两类:
- 常规、安全操作,直接执行,效率非常高
- 高危、复杂操作,通过对接业务信息的运维平台,走审批流程执行


上图是生产的一个真实示例。在 OA 端,直接回复消息给 Agent,Agent 基于模型选择合适的 SOPS 执行触发运维平台的重启节点操作。运维平台立即下发审批通知,准备重启节点,
