故障排查 – 陈少文的网站

如何查看服务器上的设备信息

📅 2024年07月25日 · ☕ 1 分钟

1. 查看 CPU 查看 CPU 型号 1 lscpu 查看指令集 1 cat /proc/cpuinfo | grep -iE "flags|instruction set" 2. 查看内存内存使用及大小 1 free -h 内存条型号 1 dmidecode -t memory 3. 查看磁盘查看磁盘挂载 1 lsblk -o NAME,TYPE,SIZE,MODEL,UUID,MOUNTPOINT 查看磁盘使用率 1 df -H | grep -vE '^Filesystem|tmpfs|cdrom|loop|udev' | awk '{ print $5 "/" $2 " " $1 }' |grep " "/ 查看磁盘速度 1 hdparm -t /dev/sda3 查看硬盘温度等 1 apt install smartmontools 1 (for disk in /dev/sd?; do sudo smartctl

常用 GPU 运维及故障处理

📅 2024年03月18日 · ☕ 10 分钟

处理故障时，参考或者记录下的内容，持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码，可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障，下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问

Pod 的健康检查耗尽 /run 存储空间，差点卷铺盖走人

📅 2024年01月23日 · ☕ 3 分钟

使用 nvidia-container-runtime 的朋友可以重点关注下，特别是还有 JuiceFS 的情况。 1. 突然收到告警，我慌了周末，学习 TensorRT LLM，顺便给线上最大的正式集群安装了一下 Dragonfly，然后就去买菜了。下午发现有个节点的 Dragonfly Daemon 没起来，一直告警，就去所在节点重启了下 Kubelet。大约

从 CPU 到网络记录一次排查应用慢的过程

📅 2023年11月08日 · ☕ 7 分钟

1. 现象业务反馈应用 app-a 的接口慢，查看日志发现是某一个 Pod 慢，删除该 Pod 让其更换节点就好。从监控指标可以看到，Pod 的 CPU 使用率确实有剧增。但该 Pod 没有达到 Limit 的限制，没有被限流 CPU。接着看节点的 CPU 监控，发现节点的 CPU 使用率也有剧增。并且增加的部分是 System C

使用 Alpine 镜像常见问题

📅 2023年08月04日 · ☕ 1 分钟

1. DNS 请求超时原因: alpine 使用的是 musl 库，在 DNS 解析上会有一些限制[1] 解决方式：不使用 apline 镜像，并在容器 resolv.conf 文件中增加 options single-request-reopen 配置。因为 single-request-reopen 配置项只对 glibc 库生效，但是 apline 镜像使用的是 musl 库 2. Docker 下无法解析 hosts 原因: alpine 没有 /etc/nsswitch.conf，导致依赖 hosts