运维 – 陈少文的网站

为什么 top node、free、Grafana 的数据对不上

📅 2024年07月26日 · ☕ 3 分钟

1. top 查看节点资源使用率超过 100% 1 2 3 4 5 6 kubectl top node NAME CPU(cores) CPU% MEMORY(bytes) MEMORY% master-1 995m 16% 13760Mi 118% master-2 827m 13% 10672Mi 92% master-3 889m 14% 10244Mi 88% 这是由于在计算使用率时，默认使用的是可分配的资源，排除了 Kubelet 保留的部分。在 kubectl 源码中可以看到: 1 2 3 4 5 6 7 for _, n := range nodes { if !o.ShowCapacity { availableResources[n.Name] = n.Status.Allocatable } else { availableResources[n.Name] = n.Status.Capacity } } 如果需要

如何查看服务器上的设备信息

📅 2024年07月25日 · ☕ 1 分钟

1. 查看 CPU 查看 CPU 型号 1 lscpu 查看指令集 1 cat /proc/cpuinfo | grep -iE "flags|instruction set" 2. 查看内存内存使用及大小 1 free -h 内存条型号 1 dmidecode -t memory 3. 查看磁盘查看磁盘挂载 1 lsblk -o NAME,TYPE,SIZE,MODEL,UUID,MOUNTPOINT 查看磁盘使用率 1 df -H | grep -vE '^Filesystem|tmpfs|cdrom|loop|udev' | awk '{ print $5 "/" $2 " " $1 }' |grep " "/ 查看磁盘速度 1 hdparm -t /dev/sda3 查看硬盘温度等 1 apt install smartmontools 1 (for disk in /dev/sd?; do sudo smartctl

模型研发过程中的存储系统建设思路

📅 2024年07月23日 · ☕ 4 分钟

本文内容整理自我在一次内部分享的部分内容。 1. 存储系统的核心要素 1.1 安全对象存储桶的凭证、使用存储 PVC 时的授权、对访问来源的控制，这些都是安全需要关注的问题。但这些又非常容易被忽视，出了问题就是大问题。 1.2 生命周期管理存储系统是为业务使用数据服务的

如何预热 Juicefs 数据

📅 2024年06月09日 · ☕ 2 分钟

1. 关于 JuiceFS 的缓存在主机上，预热的缓存是直接放在主机上的。在集群中，分为两级缓存: Worker，提供集群级别共享的缓存 Fuse，提供仅当前节点级别的缓存 2. 使用 JuiceFS 客户端预热数据需要注意的是在 Fuse 层预热，仅对当前节点有效，如果需要预热整个集群，需要在

高频 IO 的 POD 并不适合设置 Limit

📅 2024年06月03日 · ☕ 2 分钟

1. 现象基于 Kubernetes 的 Elasticsearch 频繁重启，导致服务几乎不可用。在导入数据过程中，Pod 的内存使用持续增长 Pod 内存使用接近 Limit 之后，继续导入就会触发 Pod 异常退出，错误日志 ERROR: Elasticsearch exited unexpectedly Pod 内存使用率并不会下降，而是维持在 Limit 附近，不久又异常退出 Elasticsearch Pod 内存限制在 64GB，而 JVM 内