Transformer 是 2017 年由 Google 团队在《Attention Is All You Need》论文中提出的深度学习模型架构,它彻底摒弃了传统循环神经网络(RNN)、长短期记忆网络(LSTM)的“序列式计算”逻辑,采用全并行的自注意力机制(Self-Attention)作为核心,成为当前自然语言处理(NLP)、计算机视觉(CV)等领域的基础架构。其核心思想是以“注意力机制”为核心,让模型在处理每一个输入单元时,能同时关注到序列中所有其他单元的信息,打破了RNN类模型“按顺序处理、无法并行”的限制,关键组件包含编码器(Encoder)和解码器(Decoder)两大模块,以及自注意力机制、多头注意力、前馈神经网络和层归一化,核心优势是能更高效地捕捉输入序列中的长距离语义依赖,且计算过程可全并行,大幅提升了训练速度和模型性能。