自Transformer架构成为自然语言处理(NLP)的主流框架,注意力机制便被赋予了“可解释性窗口”的期待——那些直观的热力图的高亮区域,似乎在告诉我们模型“关注”了哪些词元,进而让人推测:模型是否通过注意力权重,真正掌握了人类语言的句法规则与语义关联?然而,从2019年《Attention is not Explanation》的警示,到2026年最新研究揭示的“可视化幻象”,学界逐渐意识到:注意力的“相关性”不等于“因果性”,其表面的关注模式,未必是模型掌握句法/语义的真实证据。这场关于注意力可解释性的争论,本质上是在追问:我们究竟该如何判断模型是“学会了理解”,还是“记住了关联”?