研发
以 Qwen 为例,学习大模型的结构
· ☕ 6 分钟
1. Qwen 模型介绍 2023 年 4 月,阿里巴巴推出 Qwen 的测试版。 2023 年 12 月,阿里巴巴开源了 Qwen 的第一个版本。 2024 年 9 月,阿里巴巴发布了 Qwen2.5。 2025 年 1 月,阿里巴巴发布了 Qwen 2.5-Max。 Qwen 2.5 是 Qwen 大语言模型的目前最新系列。之所以说是系列,是因为在训练完一个预训

AI 应用开发技术栈
· ☕ 4 分钟
Embedding 模型 Embedding 模式将高维度的数据映射到低维度的空间,这样有利于数据的处理和分析。 文本模型 这里有一个排行榜,https://huggingface.co/spaces/mteb/leaderboard 在上面的排行榜中,会给出模型的评分,模型的参数量

使用 TensorBoard 可视化 PyTorch 训练过程
· ☕ 4 分钟
1. 什么是 TensorBoard TensorBoard 主要是用来监控模型的各种指标的变化,比如 accuracy、loss、各种层的权重分布等。 TensorBoard 是 TensorFlow 的一个可视化工具,支持标量、文本、图像、音频、视频和 Embedding 等多种数据可视化,但是 PyTorch 也可以使用 TensorBoard。 2. 安装 tensorboard 1 pip install tensorboard 3. 使用

什么是 MLOps
· ☕ 4 分钟
1. 什么是 MLOps MLOps 是 Machine Learning Operations 的缩写,描述的是围绕模型研发整个生命周期过程的标准化和工程化。 MLOps 包括以下几个关键步骤: 数据管理,数据的存储、访问、清洗、转换 模型开发,算法开发、模型构建 模型训练与调优,使用数据训练模型,调整超参数优化模型,微调模型 模型评

常用 AI 基础镜像及启动命令
· ☕ 2 分钟
1. 镜像 Tag 标识的含义 base/cuda: 包括 CUDA 运行时 runtime: 在 base 的基础上,新增了 CUDA math 库和 NCCL、cuDNN 运行时 devel: 在 runtime 的基础上,新增了头文件和用于构建 CUDA 镜像的开发工具,对于多阶段构建特别有用 cuddn: 在上面基础上,新增了 cuDNN 神经网络加速库 py3: Python 3 环境 2. CUDA 镜像 镜像 AMD64 镜像大小 ARM64 镜