每用戶 LoRA 適配器：大規模個人化 AI，無需按 Token 計費

每位用戶都希望 AI 能理解他們的情境：他們的術語、偏好、領域特點、溝通風格。一個熟悉其產品的支援客服助理。一個符合其寫作風格的寫作助手。一個了解其資料結構的分析師。

目前個人化的方案各有問題：

每用戶系統提示： 將用戶情境塞入冗長的系統提示中。對於輕度個人化有效，但每次請求都要為這些情境 Token 付費。在 GPT-4o 上，一個 2,000 Token 的系統提示每次請求花費 $0.005——乘以每用戶每月 1,000 次請求、500 位用戶，光是系統提示 Token 就要花費 $2,500/月。此外，系統提示有字數限制，2,000 個 Token 無法編碼深層行為模式。

每用戶 RAG： 為每位用戶維護獨立的知識庫，在推理時擷取相關情境。對於事實性個人化效果更好，但仍需按 Token 付費擷取的內容。再加上運營開銷：每位用戶需要獨立的向量資料庫、嵌入管道、擷取品質監控。對於 1,000 位用戶，就意味著需要維護 1,000 個向量資料庫。

每用戶完整微調： 為每位用戶完整微調一個模型。個人化程度深，但實際上完全不可行。一個 7B 模型量化後約 4GB。1,000 位用戶意味著 4TB 的模型儲存空間和 1,000 個獨立模型實例需要管理。

LoRA 適配器優雅地解決了這個問題。

LoRA 個人化架構

一個基礎模型常駐記憶體。每用戶 LoRA 適配器存放在磁碟上。當用戶發出請求時，載入對應的適配器。提供回應。卸載適配器。準備好接受下一位用戶的請求。

讓這一切得以運作的數字：

基礎模型（Llama 3.1 8B，Q4）：GPU 記憶體中佔 4GB
每用戶 LoRA 適配器：磁碟上佔 50-200MB
適配器載入時間：50-200ms（從 SSD）
1,000 位用戶 × 平均 100MB 適配器：總儲存空間 100GB
100GB SSD 儲存費用：雲端每月約 $8

相比之下，1,000 份完整模型副本共 4TB，或 1,000 個獨立 RAG 管道。經濟效益根本不在同一個量級。

熱切換的運作方式

每用戶適配器架構的推理流程：

請求到達，帶有用戶 ID
檢查用戶適配器是否已載入記憶體
若未載入：從磁碟載入適配器（50-200ms）
將適配器權重與基礎模型合併
執行推理
回傳回應
將適配器保留在記憶體快取中（非活躍用戶以 LRU 演算法淘汰）

記憶體管理

您不需要同時將所有適配器保留在記憶體中。LRU（最近最少使用）快取可以自然處理這個問題：

活躍用戶（5 分鐘內有請求）：適配器保留在 GPU 記憶體中
近期用戶（1 小時內）：適配器在 CPU 記憶體中，快速重新載入
非活躍用戶： 適配器在磁碟上，200ms 重新載入

24GB 的 GPU 可以同時容納基礎模型（4GB）加上 15-30 個適配器（取決於適配器大小和量化方式）。對於大多數應用程式來說，80-90% 的請求會命中已載入的適配器，因為用戶活躍度遵循冪次分佈：少數用戶產生了大部分流量。

使用 vLLM 實作

vLLM 自 2025 年底起原生支援 LoRA 適配器熱切換：

from vllm import LLM, SamplingParams
from vllm.lora.request import LoRARequest

llm = LLM(
    model="meta-llama/Llama-3.1-8B-Instruct",
    enable_lora=True,
    max_lora_rank=64,
    max_loras=20,  # GPU 記憶體中同時最多的適配器數量
)

# 使用用戶專屬適配器提供服務
output = llm.generate(
    prompts=["Help me draft a proposal for..."],
    sampling_params=SamplingParams(temperature=0.7, max_tokens=1024),
    lora_request=LoRARequest(
        lora_name="user_12345",
        lora_int_id=12345,
        lora_local_path="/adapters/user_12345/",
    ),
)

vLLM 自動處理適配器的載入、快取和淘汰。您只需在每次請求時傳入適配器路徑。

每用戶適配器實際學習的內容

在用戶 200-500 個互動範例上訓練的每用戶適配器會學習：

溝通風格

用戶偏好的回應格式。簡短直接還是詳盡全面。條列式還是段落式。技術術語還是平易近人的語言。微調後，模型無需系統提示中的風格指南，就能產出符合用戶偏好風格的輸出。

領域知識

用戶的特定術語、產品名稱、內部行話、專案名稱、團隊成員和縮寫。適配器直接將這些情境編碼進去，而不是在每次系統提示中解釋「Q3 OKR」或「Project Lighthouse」是什麼意思。

任務模式

用戶重複執行的任務類型。如果用戶總是要求 AI 以特定格式將會議記錄轉換為行動項目，適配器會學習這個模式。由於行為已內建，模型每次請求所需的指示更少。

偏好傾向

當存在多個有效回應時，適配器會學習用戶偏好哪一種。保守還是積極的建議。正式還是輕鬆的語氣。詳細說明注意事項還是自信地斷言。

使用場景

代理商每客戶模型

一個服務 50 個客戶的 AI 代理商可以在單一基礎模型上維護 50 個適配器。每個客戶都能獲得了解其品牌聲音、產品、客戶群和偏好輸出格式的 AI。代理商只需執行一台伺服器、一個基礎模型，並按客戶請求切換適配器。

儲存空間：50 個客戶 × 150MB = 7.5GB。這比兩份完整模型副本還少。請參閱我們的 LoRA 適配器代理商指南，了解詳細的代理商架構。

每租戶 SaaS

提供 AI 功能的 SaaS 平台可以為每個客戶帳戶個人化 AI。一個 AI 理解每個團隊工作流程的專案管理工具。一個 AI 了解每家公司銷售流程的 CRM。一個 AI 符合每家公司寫作風格的文件平台。

每租戶適配器方案可線性擴展：新增客戶、從其使用情況收集 200-500 個範例、微調適配器、部署。客戶在第一個月的使用期內即可獲得個人化 AI。

企業每部門

大型企業中不同部門以不同方式使用 AI。法律部門需要正式、精確的語言，並有引用要求。行銷部門需要有創意、符合品牌的文案。工程部門需要技術性、簡潔的文件。人力資源部門需要具同理心、符合政策的溝通。

四個部門、四個適配器、一個基礎模型。每個部門都能獲得感覺專為其量身打造的 AI。

個人 AI 助理

每位用戶都能獲得隨時間學習其偏好的 AI 的消費者應用程式。從通用適配器開始。隨著用戶互動，收集範例。定期（每週或每月）微調。AI 逐漸變得更加個人化，而無需將用戶資料傳送至雲端 API。

從互動歷史訓練每用戶適配器

每用戶適配器的訓練資料來自用戶自身的互動。以下是收集和訓練管道：

第一步：記錄互動

捕捉每次用戶互動：輸入、模型的輸出，以及任何反饋訊號（明確的點讚/點踩、隱性訊號如「用戶接受了這份草稿未作修改」或「用戶重寫了這份草稿的 80%」）。

第二步：篩選正面範例

選擇結果良好的互動：

用戶接受輸出且未大幅修改
用戶給予明確的正面反饋
任務成功完成（通過下游指標衡量）

對於有修正的負面範例，建立訓練配對，其中輸入是原始請求，輸出是用戶修正後的版本——這能教模型用戶實際上想要什麼。

第三步：格式化和平衡

轉換為標準對話格式。在任務類型之間平衡資料集，使適配器不會過度擬合於最常見的任務而犧牲較少見的任務。

最小可行資料集：200 個範例可達到明顯的個人化效果。500 個範例可達到強效個人化。1,000 個以上範例可達到深度行為對齊。

第四步：微調

上傳至 Ertas，選擇您的基礎模型，配置 LoRA rank（根據個人化深度選擇 16-64），然後訓練。在 8B 模型上訓練 500 個範例：30-60 分鐘。輸出：一個可立即部署的 LoRA 適配器檔案。

第五步：迭代

每月（或每 200 次新互動後）以擴充的資料集重新訓練適配器。每次迭代都能加深個人化程度。經過 3-4 個周期後，用戶通常會反映 AI「就是懂他們」。

擴展數學運算

讓我們來計算一個擁有 10,000 位用戶的 SaaS 平台的數字：

儲存空間

10,000 個適配器 × 平均 100MB = 1TB
雲端儲存費用（S3/GCS）：每月約 $23
活躍適配器的快速 SSD 儲存：1TB NVMe 每月約 $100

運算

基礎模型：1× A10G GPU（$0.60-$1.00/小時）可處理每秒 50-100 個請求
對於 10,000 位用戶，典型使用模式下（80% 的流量來自 20% 的用戶），任何時候需要約 2,000 位活躍用戶的適配器
vLLM 快取 20-30 個適配器在 GPU 記憶體中，適配器切換開銷低於 200ms

訓練

初始適配器訓練：每位用戶 30-60 分鐘
10,000 位用戶：使用排程 GPU 時間，分 2-4 週批次訓練
每月重新訓練：優先處理活躍用戶（前 2,000 名），其他人每季重新訓練
訓練費用：每次訓練每個適配器約 $0.50-$1.00

每月總費用

項目	費用
推理 GPU（A10G，全天候）	$440-$730
儲存空間（1TB SSD + 備份）	$123
每月重新訓練（2,000 位用戶）	$1,000-$2,000
總計	$1,563-$2,853

這相當於每位用戶每月 $0.16-$0.29 即可獲得完全個人化的 AI。相比之下，在 GPT-4o 上使用系統提示方案，每位用戶每月費用超過 $2.50（假設每用戶每月 500 次請求，每次含 2K Token 系統提示）。

適配器版本控制與回滾

每用戶適配器需要與任何生產成品相同的版本控制規範：

為每個適配器標記版本，包含時間戳記和訓練資料雜湊值
保留上一個版本，以便在重新訓練產生較差結果時可以回滾
對新適配器進行 A/B 測試，將新版本提供給用戶 10% 的請求並比較品質指標
每次重新訓練後進行自動品質檢查：在用戶互動的保留集上執行新適配器，確認輸出品質未下降

一個簡單的文件結構即可：

/adapters/
  user_12345/
    v1_2026-01-15/
      adapter_model.safetensors
      adapter_config.json
      metadata.json  # 訓練資料統計、評估指標
    v2_2026-02-15/
      ...
    current -> v2_2026-02-15/  # 指向當前版本的符號連結

隱私考量

每用戶適配器將用戶行為模式直接編碼進模型權重中。這有隱私方面的影響：

適配器包含從用戶資料中學習的模式。 應與原始資料享有相同的安全級別。
適配器檔案應在靜態時加密，並按用戶進行存取控制。
用戶應能刪除其適配器（被遺忘的權利）。這比從 RAG 系統中清除資料更簡單——只需刪除適配器檔案即可。
適配器不像 RAG 那樣記憶逐字資料。 微調後的模型學習的是模式，而非確切的字串。但仍可能通過生成洩露敏感資訊，因此存取控制很重要。

相較於基於雲端的個人化，其優勢在於：適配器和所有用戶資料都保留在您的基礎設施上。沒有用戶互動資料被傳送至 OpenAI 或 Anthropic 進行處理。這對受監管行業和注重隱私的用戶至關重要。

每用戶適配器不適合的情況

某些情況下，複雜性並不值得：

互動次數少於 100 次的用戶： 沒有足夠的資料來訓練有意義的適配器。在積累足夠資料之前，請使用系統提示或 RAG。
高度統一的使用場景： 如果所有用戶以相同方式使用 AI，單一微調模型可服務所有人。每用戶適配器增加了複雜性而沒有收益。
快速變化的需求： 如果用戶對 AI 的需求每週都在變化，適配器無法跟上重新訓練的周期。
非常小的用戶群（少於 50 位用戶）： 適配器管理的基礎設施開銷超過了收益。有個別系統提示和 RAG 的方案更簡單。

對於擁有數百或數千位用戶，且每位用戶都有不同工作流程、溝通風格和領域知識的 SaaS 產品，每用戶 LoRA 適配器是實現深度個人化最具成本效益的途徑。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →