What is Effective Context Length(有效脈絡長度)?
模型在所宣稱脈絡視窗中,實際仍能維持高檢索準確度的部分——通常遠短於宣稱上限,目前多數模型在脈絡中段的資訊損失可達 10-25%。
Definition
有效脈絡長度是指模型在所宣稱的脈絡視窗中,仍能在檢索與推理任務上維持可用準確度的部分。雖然「1M token」、「10M token」等顯眼數字描述了模型在技術上能接受的最大輸入長度,但隨著脈絡增長,實際表現會劣化——往往相當劇烈。一個宣稱支援 1M token 的模型,其有效脈絡(定義為在大海撈針測試中檢索準確度 >90%)可能僅有 100K-300K token。超過此範圍後,檢索準確度下降,且模型越來越無法使用長脈絡中段的資訊。
此現象常被稱為「lost in the middle」(迷失於中段),在幾乎所有目前前沿與開源權重模型中皆有完整文獻記錄。長脈絡開頭與結尾的資訊比中段資訊更易被可靠檢索——視模型與任務而定,準確度落差通常在 10-25% 之間。具備有效架構創新(DeepSeek 稀疏注意力、滑動視窗機制、位置內插法)的長脈絡模型一般能比樸素 RoPE 延伸的模型更好地保留有效脈絡 ,但目前尚無模型完全弭平宣稱脈絡與有效脈絡之間的落差。
Why It Matters
若僅憑宣稱的脈絡視窗選擇模型卻不了解有效脈絡,是常見的量產部署錯誤。一個基於 1M token 宣稱選擇模型來「全程式碼庫分析」的團隊,可能會發現模型實際上只用到前後各 50K token,中間的內容形同看不見。在設計提示結構時納入「lost-in-the-middle」效應——將關鍵資訊放在開頭與結尾、以摘要而非串接方式整理來源——產生的結果會遠勝於把宣稱脈絡當作實際可用視窗的做法。
Key Takeaways
- 有效脈絡通常遠短於宣稱的脈絡視窗上限
- 目前多數模型在脈絡中段的資訊損失約為 10-25%
- 具備可學習稀疏注意力(如 DeepSeek 的 DSA)的模型一般能更好地保留有效脈絡
- 將關鍵資訊放在長提示的開頭與結尾;中段最容易遺失
- 在採信宣稱數字前,務必為您的特定使用情境量測有效脈絡
How Ertas Helps
在 Ertas Studio 為長脈絡使用情境微調模型時,於訓練範例中加入需檢索中段資訊的例子,可以緩解(雖無法消除)lost-in-the-middle 效應。對於確實需要真正長脈絡推理的量產部署,針對您的特定文件樣式進行微調,相較於基礎模型可顯著提升真實世界中的有效脈絡。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.