高频技术题目:
Transformer架构实现:从零实现multi-head attention机制,重点考察对scaled dot-product attention的理解。公式Attention(Q,K,V) = softmax(QK^T/√d_k)V,需要处理attention mask和positional
9999