用了一个月,终于找到点写 AI Agent 的思路📅 2024年03月16日 · ☕ 9 分钟1. 不断尝试落地 AI 应用端 基于对运维的认知,我开发了一个开源的运维工具 https://github.com/shaowenchen/ops 。 Ops 工具将运维操作划分为脚本执行、文件分发两类,而运维对象主机和 Kubernetes 集群分别都实现了这两种运维操作。 Ops 对外提供的能力有,Ops Cli 命令行终端,Ops Server 服务端 API 接口,Ops Controller 集群
使用 TensorRT 加速模型推理📅 2024年02月06日 · ☕ 5 分钟1. 什么是 TensorRT TensorRT 是一个 C++ 库,主要用在 NVIDIA GPU 进行高性能的推理加速上,提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe,TensorRT 可以直接读取 prototxt 格式 TensorFlow,需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch,需要将 PyTorch 的 pth 格式转
容器下使用 Triton Server 和 TensorRT-LLM 进行大模型推理📅 2024年02月03日 · ☕ 8 分钟1. TensorRT-LLM 编译模型 1.1 TensorRT-LLM 简介 使用 TensorRT 时,通常需要将模型转换为 ONNX 格式,再将 ONNX 转换为 TensorRT 格式,然后在 TensorRT、Triton Server 中进行推理。 但这个转换过程并不简单,经常会遇到各种报错,需要对模型结构、平台算子有一定的掌握,具备转换和调试能力。而 TensorRT-LLM 的目标
微信、公众号接入 GPT 服务📅 2023年12月26日 · ☕ 4 分钟提供有偿接入服务,200 RMB/年;另外,提供技术支持 200 RMB/次,不超过 1 hour;关注公众号,可获得联系方式。 1. 需要提供的信息 进入 https://mp.weixin.qq.com/ 在左侧菜单栏 【设置与开发】-> 【基本设置】,就能找到下面的信息 AppID 开发者 ID,可以明文直接查看到。 AppSecret
大模型应用设计与实现指南📅 2023年12月23日 · ☕ 9 分钟1. 直接使用大模型面临的问题 输出不稳定性 生成式 AI 的特点之一,输出结果的多样性。同样一个问题,问大模型多次,可能会得到不同的答案。 这种输出的不确定性,在对话、创作场景下,会给用户带来惊喜。但在确定性要求比较高的场景下,大模型进入不了采纳阶段。 数