What is KV Cache（鍵值快取）?

儲存先前計算的注意力鍵和值張量的記憶體緩衝區，避免自回歸生成期間的冗餘計算。

Definition

KV 快取（鍵值快取）是在 Transformer 模型的自回歸文字生成期間使用的記憶體優化技術。當模型逐 token 生成文字時，每個新 token 都需要透過注意力機制關注所有先前的 token，這涉及為序列中的每個 token 計算鍵（K）和值（V）張量。如果不進行快取，模型將在每個生成步驟重新計算所有先前 token 的 K 和 V 張量——這是一種隨序列長度呈二次方增長的冗餘計算。

KV 快取儲存每個 token 生成時計算的 K 和 V 張量，因此後續生成步驟只需為新 token 計算 K 和 V，並從快取中讀取所有先前 token 的值。這將每步的 K/V 計算從 O(n) 降低到 O(1)，大幅加速生成。代價是記憶體：KV 快取隨序列長度線性增長，對於長上下文或大批次大小，它可能消耗比模型權重本身更多的 GPU 記憶體。

對於典型的 FP16 7B 參數模型，KV 快取中每個 token 大約需要 1 MB 的記憶體（跨所有層）。因此 4096 token 的上下文大約需要 4 GB 的 KV 快取記憶體。對於 128K 的上下文視窗，僅 KV 快取就需要大約 128 GB——遠超模型權重的記憶體。這就是為什麼高效的 KV 快取管理是 LLM 服務中最重要的挑戰之一。

Why It Matters

KV 快取管理是大規模 LLM 服務的關鍵瓶頸。快取決定了 GPU 可以服務多少個並行請求（批次大小）、上下文可以有多長（最大序列長度），以及有多少記憶體可用於模型權重。高效的 KV 快取系統直接轉化為更高的吞吐量、更低的延遲和更低的服務成本。

KV 快取管理的創新——例如 PagedAttention（由 vLLM 使用），它像作業系統管理虛擬記憶體分頁一樣管理快取記憶體——已經大幅提高了 LLM 服務效率。在 PagedAttention 出現之前，服務系統因碎片化浪費高達 60% 的 KV 快取記憶體。這些創新對實際部署經濟性的影響與模型架構改進一樣大。

How It Works

在預填充階段（處理初始提示），模型為所有輸入 token 計算 K 和 V 張量並將它們儲存在快取中。在解碼階段（生成新 token），每個生成步驟只為新 token 計算 K 和 V，將它們附加到快取中，並使用完整快取進行注意力計算。

進階 KV 快取技術包括：量化 KV 快取（以 INT8 或 INT4 而非 FP16 儲存快取張量，在品質影響最小的情況下減少 2-4 倍記憶體）；分組查詢注意力（GQA，使用比查詢頭更少的 K/V 頭，減少快取大小）；滑動視窗注意力（只快取最近的 N 個 token 而非完整歷史）；以及 PagedAttention（以固定大小的分頁管理快取記憶體，消除碎片化並實現跨請求的高效記憶體共享）。

Example Use Case

一個服務平台在 4 張 A100-80GB GPU 上處理 200 個並行聊天會話，每個會話最多 8K token 上下文。沒有 PagedAttention 時，KV 快取碎片化將其限制在 80 個並行會話。使用 vLLM 的 PagedAttention 管理 KV 快取後，他們以 95% 的記憶體利用率服務所有 200 個會話，將 GPU 需求從 10 張減少到 4 張——基礎設施成本降低了 60%。