从 CPU 到网络记录一次排查应用慢的过程📅 2023年11月08日 · ☕ 7 分钟1. 现象 业务反馈应用 app-a 的接口慢,查看日志发现是某一个 Pod 慢,删除该 Pod 让其更换节点就好。 从监控指标可以看到,Pod 的 CPU 使用率确实有剧增。 但该 Pod 没有达到 Limit 的限制,没有被限流 CPU。 接着看节点的 CPU 监控,发现节点的 CPU 使用率也有剧增。 并且增加的部分是 System C
源码分析 Kubernetes 对 Pod IP 的管理📅 2023年11月02日 · ☕ 9 分钟1. kube-controller-manager 对网段的管理 在 kube-controller-manager 有众多控制器,与 Pod IP 相关的是 NodeIpamController。 NodeIpamController 控制器主要是管理节点的 podcidr,当有新节点加入集群时,分配一个子网段给节点;当节点删除时,回收子网段。 每个节点的子网段不会重叠,每个节点都能够独立
我在给 Ops 工具写 Copilot📅 2023年09月23日 · ☕ 4 分钟1. 什么是 Ops 工具 https://www.chenshaowen.com/ops/ 是我日常运维最频繁使用的工具之一。 运维机器,我可以复用之前的脚本,批量进行操作。 运维集群,我可以复用之前的脚本,不用登录节点也可以操作机器。 如果遇到新的运维问题,我会马上编写 Task Yaml 对操作进行固化,方便下一次复用。 Ops 的核心操作是
使用 CPU 推理 llama 结构的大模型📅 2023年09月16日 · ☕ 4 分钟1. 本地容器运行 启动 LLM 1 docker run --rm -p 8000:8000 shaowenchen/chinese-alpaca-2-7b-gguf:Q2_K 在 http://localhost:8000/docs 页面即可看到接口文档,如下图: 部署一个简单的 Chat UI 这里需要注意的是 OPENAI_API_HOST 参数,需要设置为你的宿主机 IP 地址,而不是 localhost 127.0.0.1,否则无法访问。 1 docker run -e OPENAI_API_HOST=http://{YOUR_HOST_IP}:8000 -e OPENAI_API_KEY=random -p 3000:3000 ghcr.io/mckaywrigley/chatbot-ui:main 页面效果如下: 2. K8s 快速部署 部署 LLM 应用 kubectl create
使用云上基础设施遇到的一些坑📅 2023年08月23日 · ☕ 4 分钟1. 配额限制 每种云上的资源,能用多少是有限制的。 这是云厂为了防止资源滥用,降低租户之间的相互影响。 比如,一个账户下的企业项目数、弹性主机的数量、弹性公网 IP 的数量、弹性公网 IP 带宽的大小等。 因配额不够导致的资源申请失败,很常见;但在弹性业务高峰期