大模型 – 陈少文的网站

使用 TensorRT 加速模型推理

📅 2024年02月06日 · ☕ 5 分钟

1. 什么是 TensorRT TensorRT 是一个 C++ 库，主要用在 NVIDIA GPU 进行高性能的推理加速上，提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe，TensorRT 可以直接读取 prototxt 格式 TensorFlow，需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch，需要将 PyTorch 的 pth 格式转

容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理

📅 2024年02月03日 · ☕ 8 分钟

1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介使用 TensorRT 时，通常需要将模型转换为 ONNX 格式，再将 ONNX 转换为 TensorRT 格式，然后在 TensorRT、Triton Server 中进行推理。但这个转换过程并不简单，经常会遇到各种报错，需要对模型结构、平台算子有一定的掌握，具备转换和调试能力。而 TensorRT-LLM 的目标

微信、公众号接入 GPT 服务

📅 2023年12月26日 · ☕ 4 分钟

提供有偿接入服务，200 RMB/年；另外，提供技术支持 200 RMB/次，不超过 1 hour；关注公众号，可获得联系方式。 1. 需要提供的信息进入 https://mp.weixin.qq.com/ 在左侧菜单栏【设置与开发】-> 【基本设置】，就能找到下面的信息 AppID 开发者 ID，可以明文直接查看到。 AppSecret

大模型应用设计与实现指南

📅 2023年12月23日 · ☕ 9 分钟

1. 直接使用大模型面临的问题输出不稳定性生成式 AI 的特点之一，输出结果的多样性。同样一个问题，问大模型多次，可能会得到不同的答案。这种输出的不确定性，在对话、创作场景下，会给用户带来惊喜。但在确定性要求比较高的场景下，大模型进入不了采纳阶段。数

我的 Restful API 规范

📅 2023年12月07日 · ☕ 2 分钟

主要用来规范自己写的 API，也是为了让 LLM 更好理解我的 API。 1. Domain 尽量单独使用一个域名，例如 api.example.com 。 2. Path 统一使用小写字母。不用包含 /api 前缀。不要包含扩展名。 / 不要出现在末尾。对于 Restful API，/ 用来划分资源层级，末尾的 / 会导致混淆。使用带版本的路径 /v1 。