深度学习 – 陈少文的网站

Transformer 学习笔记

📅 2023年08月20日 · ☕ 4 分钟

1. 为什么是 Transformer 全连接的自注意以往的 RNN 模型，每个单词只能和邻近的单词产生联系，而 Transformer 模型中的 Attention 机制，单词可以和任意位置的单词产生联系，这样就可以捕捉到全局的上下文信息。没有梯度消失问题 RNN 作用在同一个权值矩阵上，使得其最大的特征值小于 1 时，就会出现