AI
NVIDIA DCGM 使用指南
· ☕ 9 分钟
1. 什么是 DCGM DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集,提供了以下功能: GPU 行为监控 GPU 配置管理 GPU 策略监督 GPU 健康和诊断 GPU 计费和进程统计 NVSwitch 配置和监控 2. 安装 DCGM 2.1 安装 libnvidia-nscq 一般都是 NVLink 连接 GPU,可以通过 nvidia-smi topo -m 查看是否有 NVSwitch 字样输出判断是否需要安

使用 VLLM Benchmark 进行模型性能测试
· ☕ 3 分钟
VLLM Benchmark 是 VLLM 提供的一个用于测试模型性能的工具,支持多种推理后端。本文主要记录一些使用 VLLM Benchmark 进行模型性能测试的过程。 1. 启动模型服务 1 2 3 4 5 6 7 8 9 10 11 12 13 14 python -m vllm.entrypoints.openai.api_server \ --model /models/Qwen2.5-7B-Instruct \ --served-model-name /models/Qwen2.5-7B-Instruct \ --host 0.0.0.0 \ --port 8000 \ --trust-remote-code \ --dtype bfloat16 \ --gpu-memory-utilization 0.90 \ --max-model-len 4096 \ --max-seq-len-to-capture 8192 \ --max-num-seqs 128 \ --disable-log-stats \ --tensor-parallel-size 1 \ --no-enable-prefix-caching 2. 启动客户端

AI 相关论文
· ☕ 3 分钟
2025 Intrinsic Fingerprint of LLMs [发布日期: 07-04] 点击查看 论文提出了一种基于注意力参数矩阵(Q/K/V/O)层间标准差分布模式的鲁棒指纹识别方法,用于检测大型语言模型(LLM)的血缘关系(如是否通过继续训练/微调/升级再造衍生自另一模型),并声称该方法揭示了华为 Pangu Pro

在服务器上使用 Gemini CLI
· ☕ 3 分钟
1. 获取项目 ID 和 API 密钥 访问 https://aistudio.google.com/apikey 获取项目 ID 和 API 密钥,并设置为环境变量 1 2 echo "export GOOGLE_CLOUD_PROJECT=" >> ~/.bashrc echo "export GEMINI_API_KEY=" >> ~/.bashrc 1 source ~/.bashrc 2. 准备 node.js 环境 安装 nvm 1 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.3/install.sh | bash 1 2 echo 'export NVM_DIR="$([ -z "${XDG_CONFIG_HOME-}" ] && printf %s "${HOME}/.nvm" || printf %s "${XDG_CONFIG_HOME}/nvm")"' >> ~/.bashrc echo '[ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh"' >> ~/.bashrc 1 source ~/.bashrc 查看 nvm 版本 1 nvm --version 安装 node.js 1 nvm install 20 升级 npm 1 npm install -g npm 3. 安装 gemini 1

Ascend DMI 工具使用指南
· ☕ 2 分钟
1. 安装依赖 MindCluster ToolBox 是一套面向集群运维与硬件管理的系统级工具集,主要用于设备监控、性能测试、日志收集等运维操作。 MindCluster ToolBox 中包括 Ascend DMI 工具、日志收集工具和 Ascend Cert 工具。 MindCluster ToolBox 工具的原理是,通过调用底层 DCMI(设备控制管理接口)以及 AscendCL(Ascen