Sliding attention mask:代表滑动窗口分支只在某个局部窗口(通常是 query 紧邻的一段 token)里计算注意力,远处的 token 被忽略。 图中的绿色区域表示“真正进行注意力计. Attention 机制的实质其实就是一个寻址(addressing)的过程,如上图所示:给定一个和任务相关的查询 query 向量 q,通过计算与 key 的注意力分布并附加在 value 上,从而计算 attention.
什么是Transformer模型?如何解释Transformer模型?CSDN博客



