故障排查

拉取大镜像报错

📅 2022年09月10日 · ☕ 3 分钟

1，接上一回，共享存储优化海外镜像的拉取在基于 Harbor 和 Registry 的镜像管理分发方案的基础上，最近又做了一个优化。之前的方案是，在每个区域，使用一台低配大磁盘的机器，部署一个 Mirror Cache 缓存镜像。这样带来一个问题，就是每个区域都需要拉取一个镜像，如果有 N 个区域，

1. 安装方式 1 2 kubectl apply -f https://openebs.github.io/charts/openebs-operator.yaml kubectl patch storageclass openebs-hostpath -p '{"metadata": {"annotations":{"storageclass.kubernetes.io/is-default-class":"true"}}}' OpenEBS 主要用来给 Tekton 流水线作为默认的存储使用。之前，我也试过 Longhorn，但是高峰期扛不住，流水线 Pending。而卸载 Longhorn 之后有残留，导致 kube-apiserver 一直报错，最后花了很大力气才删除。 2. Kubernetes 集群证书过期之后，OpenE

使用 Linux TC 进行流量限制

📅 2022年08月20日 · ☕ 3 分钟

1. Linux 下的流量控制原理通过对包的排队，我们可以控制数据包的发送方式。这种控制，称之为数据整形，shape the data，包括对数据的以下操作: 增加延时丢包重新排列重复、损坏速率控制在 qdisc-class-filter 结构下，对流量进行控制需要进行三个步骤: 创建 qdisc 队列上面提到 Linux 是

Kubernetes Job 创建了近 3W Pod，差点导致严重事故

📅 2022年08月17日 · ☕ 3 分钟

1. 相关背景早上 10:00 因同事需求，我通过工具在集群上创建 Kubernetes Job 执行任务。工具创建 Job 时，会拿到集群上的全部节点，然后逐个绑定节点创建 Job。例如，如下集群: 1 2 3 4 5 6 7 8 9 10 kubectl get node NAME STATUS ROLES AGE VERSION node2 Ready control-plane,master,worker 64d v1.16.11 node3 Ready control-plane,master,worker 64d v1.16.11 node4 Ready control-plane,master,worker 64d v1.16.11 node5 Ready worker 64d v1.16.11 node6 Ready worker 64d v1.16.11 node7 NotReady,SchedulingDisabled worker 64d

如何更新 Kubernetes 证书

📅 2022年06月10日 · ☕ 1 分钟

在默认情况下，Kubernetes 的证书每隔一年需要 renew 一次，下面是记录的一次证书更新过程。 1. 查看证书在 Master 节点上查看证书过期时间: 1 kubeadm certs check-expiration 低版本的集群下，执行命令会报错，可以执行命令: kubeadm alpha certs check-expiration 2. 备份相关文件这里可以直接备份整个 Kubernetes 配置文件 1 cp -r