What is KV Cache(鍵值快取)?

    儲存先前計算的注意力鍵和值張量的記憶體緩衝區,避免自回歸生成期間的冗餘計算。

    Definition

    KV 快取(鍵值快取)是在 Transformer 模型的自回歸文字生成期間使用的記憶體優化技術。當模型逐 token 生成文字時,每個新 token 都需要透過注意力機制關注所有先前的 token,這涉及為序列中的每個 token 計算鍵(K)和值(V)張量。如果不進行快取,模型將在每個生成步驟重新計算所有先前 token 的 K 和 V 張量——這是一種隨序列長度呈二次方增長的冗餘計算。

    KV 快取儲存每個 token 生成時計算的 K 和 V 張量,因此後續生成步驟只需為新 token 計算 K 和 V,並從快取中讀取所有先前 token 的值。這將每步的 K/V 計算從 O(n) 降低到 O(1),大幅加速生成。代價是記憶體:KV 快取隨序列長度線性增長,對於長上下文或大批次大小,它可能消耗比模型權重本身更多的 GPU 記憶體。

    對於典型的 FP16 7B 參數模型,KV 快取中每個 token 大約需要 1 MB 的記憶體(跨所有層)。因此 4096 token 的上下文大約需要 4 GB 的 KV 快取記憶體。對於 128K 的上下文視窗,僅 KV 快取就需要大約 128 GB——遠超模型權重的記憶體。這就是為什麼高效的 KV 快取管理是 LLM 服務中最重要的挑戰之一。

    Why It Matters

    KV 快取管理是大規模 LLM 服務的關鍵瓶頸。快取決定了 GPU 可以服務多少個並行請求(批次大小)、上下文可以有多長(最大序列長度),以及有多少記憶體可用於模型權重。高效的 KV 快取系統直接轉化為更高的吞吐量、更低的延遲和更低的服務成本。

    KV 快取管理的創新——例如 PagedAttention(由 vLLM 使用),它像作業系統管理虛擬記憶體分頁一樣管理快取記憶體——已經大幅提高了 LLM 服務效率。在 PagedAttention 出現之前,服務系統因碎片化浪費高達 60% 的 KV 快取記憶體。這些創新對實際部署經濟性的影響與模型架構改進一樣大。

    How It Works

    在預填充階段(處理初始提示),模型為所有輸入 token 計算 K 和 V 張量並將它們儲存在快取中。在解碼階段(生成新 token),每個生成步驟只為新 token 計算 K 和 V,將它們附加到快取中,並使用完整快取進行注意力計算。

    進階 KV 快取技術包括:量化 KV 快取(以 INT8 或 INT4 而非 FP16 儲存快取張量,在品質影響最小的情況下減少 2-4 倍記憶體);分組查詢注意力(GQA,使用比查詢頭更少的 K/V 頭,減少快取大小);滑動視窗注意力(只快取最近的 N 個 token 而非完整歷史);以及 PagedAttention(以固定大小的分頁管理快取記憶體,消除碎片化並實現跨請求的高效記憶體共享)。

    Example Use Case

    一個服務平台在 4 張 A100-80GB GPU 上處理 200 個並行聊天會話,每個會話最多 8K token 上下文。沒有 PagedAttention 時,KV 快取碎片化將其限制在 80 個並行會話。使用 vLLM 的 PagedAttention 管理 KV 快取後,他們以 95% 的記憶體利用率服務所有 200 個會話,將 GPU 需求從 10 張減少到 4 張——基礎設施成本降低了 60%。

    Key Takeaways

    • KV 快取儲存先前計算的注意力鍵/值張量以避免冗餘計算。
    • 它對高效的自回歸生成至關重要——沒有它,計算量會呈二次方增長。
    • KV 快取記憶體隨序列長度線性增長,對於長上下文可能超過模型權重的記憶體。
    • PagedAttention、GQA 和快取量化等技術優化記憶體效率。
    • KV 快取管理直接決定服務吞吐量、延遲和基礎設施成本。

    How Ertas Helps

    在 Ertas Studio 中微調的模型繼承其基礎架構的 KV 快取效率特性。Studio 支援具有分組查詢注意力(GQA)的模型,可減少 KV 快取記憶體需求,使使用 GGUF 匯出進行本地推論時能支援更長的上下文。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.