AI
Cursor 之下,何以立足
· ☕ 4 分钟
1. AI IDE 引起的量变 AI 生成了大量代码引入工程。AI IDE 实在太好用,从之前的命名补全,到函数实现的生成,再到现在整个功能代码的交付。甚至你不需要会写代码,通过聊天对话,也能完成很多的软件迭代任务,代码交付从未如此简单。 激进的团队已经拥抱 AI IDE。全

常见的几种 LLM Agent 架构
· ☕ 1 分钟
1. 链式提示系统(Prompt chaining) 提示链将任务分解为一系列步骤,其中每个 LLM 调用都会处理前一个步骤的输出。 2. 路由系统(Routing) 路由会对输入进行分类,并将其定向到专门的后续任务。 3. 并行化系统(Parallelization)

使用 lmcache 能显著改善模型推理的 TTFT
· ☕ 5 分钟
1. LMCache 简介 TTFT 是指从请求发出到模型生成第一个 token 的时间。由于 Prefill 阶段需要把输入的上下文编码成 KV Cache,才能开始生成,在生成第一个 token 时需要大量的计算从而导致 TTFT 很高。 为了降低 TTFT,有一个思路就是将 Prefill 阶段计算出来的 KV Cache 缓存起来,下次遇到相同的上下

什么是 Prefix Cache
· ☕ 2 分钟
1. 什么是 Prefix Cache 在模型推理场景下,经常会使用缓存机制来提升吞吐和性能。常见的有两种缓存机制: Key-Value Cache (KV Cache),面向的是单次请求的内部,将 Transformer 模型中间计算结果(Key 和 Value)缓存起来,避免重复计算 Prefix Cache,面向的是多次请求时,利用 Prompt 的公

NVIDIA RTX 5090 推理测试
· ☕ 3 分钟
1. 安装驱动 下载驱动 访问 https://www.nvidia.com/en-us/drivers/ 选择对应的驱动版本下载 1 wget https://us.download.nvidia.com/XFree86/Linux-x86_64/580.76.05/NVIDIA-Linux-x86_64-580.76.05.run 安装驱动 1 bash NVIDIA-Linux-x86_64-580.76.05.run 查看显卡 1 nvidia-smi 1 2 3 GPU 0: NVIDIA GeForce RTX 5090 (UUID: GPU-92fcdc58-4754-73c7-af6c-56740936817d) GPU 1: NVIDIA GeForce RTX 5090 (UUID: GPU-e05cb455-7dd3-0db5-ac39-70794aa19d4e) ... 开启持久模式 1 nvidia-smi -pm 1 查看拓扑结构 1 nvidia-smi topo -m 1 2 3 4 5 6 7 8 9 GPU0 GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 CPU Affinity NUMA Affinity GPU NUMA ID GPU0 X PIX NODE NODE SYS SYS SYS SYS 0-47,96-143 0 N/A GPU1 PIX X NODE NODE