学习 – 陈少文的网站

如何在无 GPU 的 macOS 上运行 Stable Diffusion

📅 2023年02月10日 · ☕ 1 分钟

1. 运行 Stable Diffusion 推荐配置内存: 不低于 16 GB DDR4 或 DDR5 存储: 不低于 10 GB 可用空间 GPU: 不低于 6 GB 显存 N 卡如果硬件达不到要求，也可以使用各种优化 fork 兼容更低配置的硬件，但生成时间会增长。当前的开发主机配置为: 2.9 GHz 8-Core Intel Core i7 16 GB 2666 MHz DDR4 250 GB SSD 由于没有 GPU，生成图片时，

如何修复重装系统后的 Kubernetes Master 节点

📅 2023年01月17日 · ☕ 3 分钟

最近碰到两次，因故障需要重装主机系统。其中一次 Etcd 只剩下一个节点，导致整个集群宕机半个小时才恢复。本篇主要记录的是新系统 Ubuntu 20.04 初始化的过程，完成初始化之后采用优秀的集群安装工具 Kubekey 的 add nodes 命令，无需修改配置文件，一键就将节点重新加入了集群。 1. 恢复 Etcd

如何估算 Prometheus 的本地存储和内存消耗

📅 2022年11月02日 · ☕ 2 分钟

1. 本地存储容量所需磁盘大小（GB） = 数据保留时长 _ 每秒获取指标数量 _ 指标数据大小 / 1024 / 1024 / 1024 其中每秒获取指标数量 rate(prometheus_tsdb_head_samples_appended_total[1d]) 一个小时内样本的平均大小 rate(prometheus_tsdb_compaction_chunk_size_bytes_sum[1d])/rate(prometheus_tsdb_compaction_chunk_samples_sum[1d]) 一天（86400 秒）的磁盘消耗，可以在 Prometheus 中直接查询: 86400 * (rate(prometheus_tsdb_head_samples_appended_total[1d]) * (rate(prometheus_tsdb_compaction_chunk_size_bytes_sum[1d]) / rate(prometheus_tsdb_compaction_chunk_samples_sum[1d]))) / 1024 /1024 / 1024 例如，返回 {instance="localhost:9090", job="prometheus"} 4.437

Kubernetes 应用 troubleshooting

📅 2022年11月01日 · ☕ 3 分钟

设置合理的 Req 和 Limit 不设置 Req 和 Limit，当应用的 CPU、MEM 暴涨时，会危害同一节点上的其他 Pod，甚至导致集群节点一个接一个被压垮。 Req 和 Limit 一共有四个值，如果只设置部分值，当节点资源使用率达到 Kubelet 预设值时，Kubelet 会驱逐 Pod，驱逐的顺序

Kubernetes 集群 troubleshooting

📅 2022年11月01日 · ☕ 7 分钟

FailedCreatePodSandBox 错误 Error response from daemon: OCI runtime create failed: container_linux.go:380: starting container process caused: process_linux.go:402: getting the final child's pid from pipe caused: EOF: unknown 处理清理 cache 1 echo 3 > /proc/sys/vm/drop_caches 原因内存碎片过多 calico-node 不停重启 increase max user 错误 runtime: failed to create new OS thread (have 11 already; errno=11)，runtime: may need to increase max user processes (ulimit -u) 处理增加 ulimit 限制额度 1 ulimit -u unlimited 原因用户进程数耗尽 calico-node BIRD is not ready 错