事故 – 陈少文的网站

Kubernetes Job 创建了近 3W Pod，差点导致严重事故

📅 2022年08月17日 · ☕ 3 分钟

1. 相关背景早上 10:00 因同事需求，我通过工具在集群上创建 Kubernetes Job 执行任务。工具创建 Job 时，会拿到集群上的全部节点，然后逐个绑定节点创建 Job。例如，如下集群: 1 2 3 4 5 6 7 8 9 10 kubectl get node NAME STATUS ROLES AGE VERSION node2 Ready control-plane,master,worker 64d v1.16.11 node3 Ready control-plane,master,worker 64d v1.16.11 node4 Ready control-plane,master,worker 64d v1.16.11 node5 Ready worker 64d v1.16.11 node6 Ready worker 64d v1.16.11 node7 NotReady,SchedulingDisabled worker 64d