AI
常用 GPU 运维及故障处理
· ☕ 10 分钟
处理故障时,参考或者记录下的内容,持续更新中 1. XID 错误事件 XID 是 NVIDIA 的错误码,可以通过命令: 1 dmesg -T | grep -i "NVRM: Xid" 或者 1 journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`|grep Xid 根据 XID 可以定位故障,下面是一些常见的 XID 事件 XID 说明 13 Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问

用了一个月,终于找到点写 AI Agent 的思路
· ☕ 9 分钟
1. 不断尝试落地 AI 应用端 基于对运维的认知,我开发了一个开源的运维工具 https://github.com/shaowenchen/ops 。 Ops 工具将运维操作划分为脚本执行、文件分发两类,而运维对象主机和 Kubernetes 集群分别都实现了这两种运维操作。 Ops 对外提供的能力有,Ops Cli 命令行终端,Ops Server 服务端 API 接口,Ops Controller 集群

在 Kubernetes 下创建后端为 JuiceFS 的 PVC(企业版)
· ☕ 2 分钟
本篇主要记录创建企业版 JuiceFS PVC 的脚本,方便快速配置。 1. 设置环境变量 1.1 基础配置 1 2 3 export NAMESPACE= export PVC_NAME= export JUICEFS_VOLUME= 1.2 JuiceFS 认证信息 1 2 3 export TOKEN= export ACCESS_KEY= export SECRET_KEY= 1.3 JuiceFS 服务配置 1 2 export BASE_URL=http://x.x.x.x:8080/static export CFG_URL=http://x.x.x.x:8080/volume/%s/mount 1.4 镜像配置 1 2 3 4 export JUICEFS_IMAGE=juicedata/mount export JUICEFS_IMAGE_TAG=ee-5.2.13-7a0eb79 export DEMO_IMAGE=ubuntu 1.5 Worker 配置 1 2 3 export WORKER_REPLICAS=1 export NODE_SELECTOR_KEY= export NODE_SELECTOR_VALUE="true" 1.6 缓存配置 1 2 3 export CACHE_GROUP="${PVC_NAME}-cache-group" export CACHE_PATH=/data/jfs-cache export CACHE_QUOTA=2Ti 不同网络分区

在 Kubernetes 下创建后端为 JuiceFS 的 PVC(社区版)
· ☕ 2 分钟
本篇主要记录创建社区版 JuiceFS PVC 的脚本,方便快速配置。组件部署可以参考 使用 Fluid 和 JuiceFS 在 Kubernetes 管理数据 。 1. 设置环境变量 桶的配置 1 2 3 4 5 6 export ACCESS_KEY= export SECRET_KEY= export BUCKET= export ENDPOINT=ks3-cn-beijing-internal.ksyun.com export BUCKET_ENPOINT=$BUCKET.$ENDPOINT export PROVIDER=ks3 Workload 的配置 1 2 3 4 5 export NAMESPACE= export PVC_NAME= export NODE_SELECTOR_KEY= export NODE_SELECTOR_VALUE= 镜像的配置 export JUICEFS_IMAGE=juicedata/juicefs-fuse export DEMO_IMAGE=shaowenchen/demo:ubuntu 元数据的配置 如果是 Redis 配置 1 2 3 4 export REDIS_PASSWORD= #ip:port/database export REDIS_ENDPOINT=

使用 TensorRT 加速模型推理
· ☕ 5 分钟
1. 什么是 TensorRT TensorRT 是一个 C++ 库,主要用在 NVIDIA GPU 进行高性能的推理加速上,提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe,TensorRT 可以直接读取 prototxt 格式 TensorFlow,需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch,需要将 PyTorch 的 pth 格式转