What is Transformer?

幾乎所有現代大型語言模型底層的神經網路架構，使用自注意力機制並行處理序列。

Definition

Transformer 是 Vaswani 等人在 2017 年里程碑式的論文「Attention Is All You Need」中提出的神經網路架構。它以完全基於注意力的設計取代了先前主導自然語言處理的循環神經網路（RNN）和 LSTM，同時而非依序處理序列中的所有 token。這種並行性使 Transformer 能夠擴展到更大的資料集和模型規模，直接導致了大型語言模型的革命。

Transformer 由堆疊的層組成，每一層包含兩個主要子組件：多頭自注意力機制和逐位置前饋網路。自注意力機制允許輸入序列中的每個 token 關注其他所有 token，計算加權的相關性分數來確定每個 token 對其他每個 token 表示的影響程度。前饋網路然後對每個 token 的表示獨立應用非線性變換。層正規化和殘差連接穩定跨多層堆疊的訓練。

像 GPT、Llama、Mistral 和 Phi 等現代 LLM 是純解碼器 Transformer——它們被自回歸地訓練以在給定所有先前 token 的情況下預測下一個 token。純編碼器 Transformer（如 BERT）和編碼器-解碼器 Transformer（如 T5）用於分類和翻譯等其他任務。純解碼器變體已被證明在生成任務上最有效，這就是它主導當前 LLM 格局的原因。

Why It Matters

Transformer 架構是整個現代 AI 生態系統構建的基礎。理解 Transformer 對於做出關於模型選擇、微調策略和部署的明智決策至關重要。關鍵的架構選擇——如層數、隱藏維度、注意力頭數量和上下文視窗長度——直接決定模型的能力、記憶體需求和推論速度。當實踐者討論模型大小（7B、13B、70B 參數）時，他們描述的是 Transformer 權重矩陣的規模。

How It Works

輸入文字首先被分詞並轉換為嵌入。添加位置編碼（或在 Llama 等現代模型中使用旋轉位置嵌入），使模型能夠區分 token 順序。嵌入然後通過 N 個相同的 Transformer 層。在每一層中，自注意力機制為每個 token 計算查詢、鍵和值投射，將注意力分數計算為查詢和鍵的縮放點積，應用 softmax 正規化，並產生值的加權總和。多個注意力頭在嵌入的不同子空間上並行操作，捕獲不同類型的關係。注意力輸出與殘差連接組合、正規化，並通過前饋網路後進入下一層。

Example Use Case

一個構建領域特定助手的研究團隊需要在 7B 和 13B Transformer 模型之間做出選擇。他們分析架構差異：13B 模型有更多層和更寬的隱藏維度，賦予它更大的表示複雜模式的容量。然而，它也需要 2 倍的 VRAM 進行推論。在其領域任務上對兩者進行基準測試後，他們發現 13B 模型在其評估套件上得分高 8%——對於其準確度至關重要的醫療應用來說，這是一個有意義的改進，值得額外的基礎設施成本。

Key Takeaways

Transformer 使用自注意力並行處理所有 token，實現大規模擴展。
現代 LLM（GPT、Llama、Mistral）是為下一個 token 預測訓練的純解碼器 Transformer。
每個 Transformer 層包含多頭自注意力和前饋網路。
模型大小（參數數量）由 Transformer 的深度、寬度和注意力頭數量決定。
Transformer 架構是所有當前大型語言模型的通用基礎。

How Ertas Helps

透過 Ertas Studio 微調的每個模型都建立在 Transformer 架構之上。Ertas 抽象化了架構複雜性，允許使用者按名稱和大小選擇模型，無需配置 Transformer 特定的參數。在底層，Ertas 的訓練管線將 LoRA 適配器應用於 Transformer 的注意力層——從特定任務適應中受益最大的組件——確保對任何領域的高效且有效的微調。