Etcd – 陈少文的网站

使用集群内 Prometheus 采集 Etcd 指标

📅 2023年02月09日 · ☕ 1 分钟

1. 跳过证书校验无法获取监控如果指标抓取时，能跳过 TLS 认证是最便捷的。其 Prometheus 的 ConfigMap 配置如下: 1 2 3 4 5 6 7 8 9 - job_name: etcd metrics_path: /metrics scheme: https tls_config: insecure_skip_verify: true static_configs: - targets: ["1.1.1.1:2379"] - targets: ["2.2.2.2:2379"] - targets: ["3.3.3.3:2379"] 但 Prometheus Targets 报错 Get "https://3.3.3.3:2379/metrics": remote error: tls: bad certificate 在 targets 页面的报错如下图: 2. curl 验证抓取请求跳过证书 1 2 3 curl https://1.1.1.1:2379/metrics -k curl: (35) error:1401E412:SSL routines:CONNECT_CR_FINISHED:sslv3 alert bad certificate 这

如何修复重装系统后的 Kubernetes Master 节点

📅 2023年01月17日 · ☕ 3 分钟

最近碰到两次，因故障需要重装主机系统。其中一次 Etcd 只剩下一个节点，导致整个集群宕机半个小时才恢复。本篇主要记录的是新系统 Ubuntu 20.04 初始化的过程，完成初始化之后采用优秀的集群安装工具 Kubekey 的 add nodes 命令，无需修改配置文件，一键就将节点重新加入了集群。 1. 恢复 Etcd

如何修复变更 IP 之后的 Kubernetes 集群

📅 2022年10月25日 · ☕ 4 分钟

记录一次因为 IP 变更导致集群故障的修复过程。有两个集群，一个是单节点(allinone)，另一个是四节点(3 master 1 node)的集群。 1. 更新 Etcd 证书【在每个 Etcd 节点】备份 Etcd 证书 1 cp -R /etc/ssl/etcd/ssl /etc/ssl/etcd/ssl-bak 查看 Etcd 证书中的域 1 2 3 openssl x509 -in /etc/ssl/etcd/ssl/node-node1.pem -noout -text|grep DNS DNS:etcd, DNS:etcd.kube-system, DNS:etcd.kube-system.svc, DNS:etcd.kube-system.svc.cluster.local, DNS:localhost, DNS:node1, IP Address:127.0.0.1, IP Address:0:0:0:0:0:0:0:1, IP Address:x.x.x.1 需要

Kubernetes 平台管理软件压力测试方案

📅 2020年09月17日 · ☕ 3 分钟

Kubernetes 平台管理软件运行在 Kubernetes ，用于管理运行在 Kubernetes 上的资源对象。 1. 测试思路测试在一定负载一定集群规模下，平台软件的管理能力，而不是 Kubernetes 的管理能力。平台软件的管理能力主要体现在能通过 UI 对负载、PV 进行增删改查，在 UI 上能够直接查看负载的监控和日志。明确测试

Etcd、Etcdctl 应用实践

📅 2020年08月11日 · ☕ 5 分钟

1. Etcd 基本介绍 Etcd 是一个分布式 Key/Value 的存储系统，通过分布式锁、leader 选举、写屏障(write barriers) 实现了分布式协作，提供高可用、持久化数据存储和检索服务。工作原理每个 Etcd 节点都存储了一份完整的数据，任意时刻至多存在一个主节点。主节点处理所有来自客户