Transformer

以 Qwen 为例，学习大模型的结构

📅 2025年02月09日 · ☕ 6 分钟

1. Qwen 模型介绍 2023 年 4 月，阿里巴巴推出 Qwen 的测试版。 2023 年 12 月，阿里巴巴开源了 Qwen 的第一个版本。 2024 年 9 月，阿里巴巴发布了 Qwen2.5。 2025 年 1 月，阿里巴巴发布了 Qwen 2.5-Max。 Qwen 2.5 是 Qwen 大语言模型的目前最新系列。之所以说是系列，是因为在训练完一个预训

transformers 是由 Hugging Face 开发的 Python 库，用于在自然语言处理（NLP）任务中使用和训练预训练的 Transformer 模型。它提供了许多强大的工具和功能，使得处理文本数据和构建 NLP 模型变得更加容易。该库广泛应用于各种 NLP 任务，如文本分类、命名实体识别、问答、文本生成等。 1. transformers 中的 pipeline pipeline 提供

HuggingFace 的模型和数据操作

📅 2023年08月21日 · ☕ 3 分钟

HuggingFace 通过提供共享模型 model、数据集 dataset、在线托管 space 等服务，为 AI 研究人员和开发者提供了一个完整的生态。本篇文章将介绍如何使用 HuggingFace 的模型和数据集。 1. 模型操作与使用 1.1 自定义存储目录 1 export HF_HOME=/Volumes/Data/HuggingFace 否则默认在 ~/.cache/huggingface 目录下。 1.2 模型的下载第一种方法，页面上

Transformer 学习笔记

📅 2023年08月20日 · ☕ 4 分钟

1. 为什么是 Transformer 全连接的自注意以往的 RNN 模型，每个单词只能和邻近的单词产生联系，而 Transformer 模型中的 Attention 机制，单词可以和任意位置的单词产生联系，这样就可以捕捉到全局的上下文信息。没有梯度消失问题 RNN 作用在同一个权值矩阵上，使得其最大的特征值小于 1 时，就会出现