推理
使用 TensorRT 加速模型推理
· ☕ 5 分钟
1. 什么是 TensorRT TensorRT 是一个 C++ 库,主要用在 NVIDIA GPU 进行高性能的推理加速上,提供了 C++ API 和 Python API 用于集成。 TensorRT 支持的主流深度学习框架有: Caffe,TensorRT 可以直接读取 prototxt 格式 TensorFlow,需要将 TensorFlow 的 pb 转换为 uff 格式 PyTorch,需要将 PyTorch 的 pth 格式转

使用 CPU 推理 llama 结构的大模型
· ☕ 4 分钟
1. 本地容器运行 启动 LLM 1 docker run --rm -p 8000:8000 shaowenchen/chinese-alpaca-2-7b-gguf:Q2_K 在 http://localhost:8000/docs 页面即可看到接口文档,如下图: 部署一个简单的 Chat UI 这里需要注意的是 OPENAI_API_HOST 参数,需要设置为你的宿主机 IP 地址,而不是 localhost 127.0.0.1,否则无法访问。 1 docker run -e OPENAI_API_HOST=http://{YOUR_HOST_IP}:8000 -e OPENAI_API_KEY=random -p 3000:3000 hubimage/chatbot-ui:main 页面效果如下: 2. K8s 快速部署 部署 LLM 应用 kubectl create