Pod 的健康检查耗尽 /run 存储空间,差点卷铺盖走人
· ☕ 3 分钟
使用 nvidia-container-runtime 的朋友可以重点关注下,特别是还有 JuiceFS 的情况。 1. 突然收到告警,我慌了 周末,学习 TensorRT LLM,顺便给线上最大的正式集群安装了一下 Dragonfly,然后就去买菜了。 下午发现有个节点的 Dragonfly Daemon 没起来,一直告警,就去所在节点重启了下 Kubelet。 大约

使用 Dragonfly V2 分发集群的镜像
· ☕ 7 分钟
1. Dragonfly 简介 Dragonfly 的相关文档在社区 https://d7y.io/zh/docs/ 已经有详细说明。这里只是简单介绍一下,V2 版本的主要组件: Manager,提供 UI 界面、用户管理、集群监控、任务管理等功能 Scheduler,调度 Peer 之间的流量、提供预热等功能 Seed Peer,回源节点,用于从源站(Har

Nydus 懒加载镜像配置与实践
· ☕ 5 分钟
据统计容器中的大部分文件不会被使用。根据这一特征,Nydus 自定义了 Rafs 格式的文件系统,实现了镜像文件的按需加载,以解决大镜像导致的启动慢和占用存储的问题。而在 AI 场景下,无论是推理还是训练,镜像常常都是几个 G 起步,甚至几十个 G,Nydus 非常

增量不再,混沌当立
· ☕ 8 分钟
1. 高速前进的轮子才能保持平衡 1.1 C 端红利期已经过去 截至 2023 年 6 月,我国网民规模达 10.79 亿人,较 2022 年 12 月增长 1109 万人,互联网普及率达 76.4%。C 端人口红利期已过,上网时长也增长缓慢,各类存量场景下的应用增长空间已经不大。 在经历了 C 端的 easy 模式之后,很多

NVIDIA GPU 驱动安装
· ☕ 5 分钟
1. 格式化磁盘 查看新磁盘 1 fdisk -l Disk /dev/nvme0n1: 3.91 TiB, 4294967296000 bytes, 8388608000 sectors 创建文件系统 1 mkfs.xfs -f /dev/nvme0n1 xfs 适合大文件处理, ext4 适合中小文件处理。 创建挂载目录 1 mkdir -p /data 获取 UUID 1 2 UUID=$(blkid -s UUID -o value /dev/nvme0n1) echo $UUID 配置 fstab 1 grep -q "$UUID" /etc/fstab || echo "UUID=$UUID /data xfs defaults,nofail 0 2" >> /etc/fstab 挂载存储 1 mount -a 查看挂载点 1 2 3 df -h |grep data /dev/nvme0n1 4.0T 28G 3.9T 1% /data 2. 安装