vLLM 部署 PD 分离应用📅 2025年09月20日 · ☕ 5 分钟1.为什么要 PD 分离部署大模型应用 在大模型推理的过程中,有两个串行阶段: 处理全量的输入上下文,生成 KV Cache(Prefill 阶段) 增量生成新的 token(Decode 阶段) 这两个阶段对资源的需求不一样。Prefill 阶段要计算大量的 KV Cac
如何利用 CDN 进一步的前后端分离 - CI 脚本📅 2018年09月15日 · ☕ 3 分钟在团队中,开发流程相关的调整一定要相应的自动化工具配合。如果没有足够低的使用成本,这种调整将会是无意义的,因为根本就不会有人去使用。上一篇,我们提到 如何利用 CDN 进一步的前后端分离 , 这一篇主要讲,如何将这个流程结合到 CI 中。后端的配置,之前的 博客
如何利用 CDN 进一步的前后端分离📅 2018年09月13日 · ☕ 4 分钟最近在优化一下项目,梳理整个链路之后,开始逐步优化,发现了很多可以改进的点。下面是对开发模式、部署方式的一些思考,希望对你有所启发。 1. 开发背景 1.1 部署方式 如上图,简单描述一下应用的架构。 采用的是经典三层架构,接入层,逻辑层,存储层。其中,接入
怎样打包一个 Python 包,并上传到 PyPi📅 2017年10月06日 · ☕ 2 分钟最近笔者在思考,怎样提高开发效率。从网络爬虫到数据处理,然后到人工智能。Python 的强大之处在于:拥有一大批开箱即用的工具包,不必重复造轮子,极大地提高了开发的效率。那么为何不将项目中的功能模块化,打包成可复用的 Python 包呢?本文主要讲的是怎样