What is Transformer?

几乎所有现代大语言模型的基础神经网络架构，使用自注意力机制并行处理序列。

Definition

Transformer 是 Vaswani 等人在 2017 年标志性论文《Attention Is All You Need》中提出的神经网络架构。它用完全基于注意力的设计取代了此前主导自然语言处理的循环神经网络（RNN）和 LSTM，同时而非顺序地处理序列中的所有 token。这种并行性使 Transformer 能够扩展到更大的数据集和模型规模，直接推动了大语言模型革命。

Transformer 由堆叠的层组成，每层包含两个主要子组件：多头自注意力机制和逐位置前馈网络。自注意力机制允许输入序列中的每个 token 关注其他每个 token，计算加权相关性分数以确定每个 token 对其他每个 token 的表示产生多大影响。前馈网络随后对每个 token 的表示独立应用非线性变换。层归一化和残差连接在多层堆叠中稳定训练。

现代 LLM 如 GPT、Llama、Mistral 和 Phi 都是仅解码器的 Transformer——它们以自回归方式训练，根据所有先前 token 预测下一个 token。仅编码器的 Transformer（如 BERT）和编码器-解码器 Transformer（如 T5）用于分类和翻译等其他任务。仅解码器变体已被证明对生成任务最为有效，这就是为什么它主导了当前的 LLM 领域。

Why It Matters

Transformer 架构是整个现代 AI 生态系统构建的基础。理解 Transformer 对于做出关于模型选择、微调策略和部署的明智决策至关重要。关键的架构选择——如层数、隐藏维度、注意力头数量和上下文窗口长度——直接决定模型的能力、内存需求和推理速度。当从业者讨论模型大小（7B、13B、70B 参数）时，他们描述的是 Transformer 权重矩阵的规模。

How It Works

输入文本首先被分词并转换为嵌入。位置编码（或现代模型如 Llama 中的旋转位置嵌入）被添加，使模型能够区分 token 顺序。嵌入随后通过 N 个相同的 Transformer 层。在每一层中，自注意力机制为每个 token 计算查询、键和值的投影，以查询和键的缩放点积计算注意力分数，应用 softmax 归一化，并产生值的加权和。多个注意力头在嵌入的不同子空间上并行操作，捕获不同类型的关系。注意力输出与残差连接组合，归一化后传递给前馈网络，然后进入下一层。

Example Use Case

一个研究团队在构建领域特定助手时需要在 7B 和 13B 的 Transformer 模型之间进行选择。他们分析了架构差异：13B 模型有更多层和更宽的隐藏维度，赋予它更大的表示复杂模式的能力。然而，它推理时也需要 2 倍的 VRAM。在他们的领域任务上对两者进行基准测试后，他们发现 13B 模型在评估套件上得分高出 8%——对于他们对准确性要求严格的医学应用来说，这是一个有意义的改进，值得付出额外的基础设施成本。

Key Takeaways

Transformer 使用自注意力并行处理所有 token，实现大规模扩展。
现代 LLM（GPT、Llama、Mistral）是为下一个 token 预测训练的仅解码器 Transformer。
每个 Transformer 层包含多头自注意力和前馈网络。
模型大小（参数数量）由 Transformer 的深度、宽度和注意力头数量决定。
Transformer 架构是当前所有大语言模型的通用基础。

How Ertas Helps

通过 Ertas Studio 微调的每个模型都基于 Transformer 架构。Ertas 抽象了架构复杂性，允许用户按名称和大小选择模型，而无需配置 Transformer 特定参数。在底层，Ertas 的训练管道将 LoRA 适配器应用于 Transformer 的注意力层——最能从任务特定适配中受益的组件——确保对任何领域的高效微调。