什么是 Token📅 2024年09月10日 · ☕ 2 分钟Token 是一个与数据紧密相关的单位,可以用来度量训练模型所需的语料量,还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词,甚至是一个字符。在语言模型中,文本被拆分为若干个 token,模型逐一处理这些 token 来生成预测或生成新文
transformers 库的使用📅 2023年08月22日 · ☕ 4 分钟transformers 是由 Hugging Face 开发的 Python 库,用于在自然语言处理(NLP)任务中使用和训练预训练的 Transformer 模型。它提供了许多强大的工具和功能,使得处理文本数据和构建 NLP 模型变得更加容易。该库广泛应用于各种 NLP 任务,如文本分类、命名实体识别、问答、文本生成等。 1. transformers 中的 pipeline pipeline 提供
Transformer 学习笔记📅 2023年08月20日 · ☕ 4 分钟1. 为什么是 Transformer 全连接的自注意 以往的 RNN 模型,每个单词只能和邻近的单词产生联系,而 Transformer 模型中的 Attention 机制,单词可以和任意位置的单词产生联系,这样就可以捕捉到全局的上下文信息。 没有梯度消失问题 RNN 作用在同一个权值矩阵上,使得其最大的特征值小于 1 时,就会出现