2026-01-30 07:13:52
通过交叉注意力机制,我们了解到注意力模块中有三个矩阵:Q K V。K和V矩阵是输入矩阵的投影版本。如果Q矩阵也是从输入中投影出来的呢?视频截图这就是我们所说的自注意力机制。它构成了 Transformer 模型的架构基础。Self-Attention 的可视化,从这里就便是我们重点讲解的transformer模型的自注意力机制了,如何来做注意力机制
评论于: 通过7个版本的attention的变形,搞懂transformer多头注意力机制