
每用戶 LoRA 適配器:大規模個人化 AI,無需按 Token 計費
LoRA 適配器每個僅 50-200MB。您可以依請求熱切換適配器,從單一基礎模型提供個人化 AI 體驗,而不會讓推理成本倍增。
每位用戶都希望 AI 能理解他們的情境:他們的術語、偏好、領域特點、溝通風格。一個熟悉其產品的支援客服助理。一個符合其寫作風格的寫作助手。一個了解其資料結構的分析師。
目前個人化的方案各有問題:
每用戶系統提示: 將用戶情境塞入冗長的系統提示中。對於輕度個人化有效,但每次請求都要為這些情境 Token 付費。在 GPT-4o 上,一個 2,000 Token 的系統提示每次請求花費 $0.005——乘以每用戶每月 1,000 次請求、500 位用戶,光是系統提示 Token 就要花費 $2,500/月。此外,系統提示有字數限制,2,000 個 Token 無法編碼深層行為模式。
每用戶 RAG: 為每位用戶維護獨立的知識庫,在推理時擷取相關情境。對於事實性個人化效果更好,但仍需按 Token 付費擷取的內容。再加上運營開銷:每位用戶需要獨立的向量資料庫、嵌入管道、擷取品質監控。對於 1,000 位用戶,就意味著需要維護 1,000 個向量資料庫。
每用戶完整微調: 為每位用戶完整微調一個模型。個人化程度深,但實際上完全不可行。一個 7B 模型量化後約 4GB。1,000 位用戶意味著 4TB 的模型儲存空間和 1,000 個獨立模型實例需要管理。
LoRA 適配器優雅地解決了這個問題。
LoRA 個人化架構
一個基礎模型常駐記憶體。每用戶 LoRA 適配器存放在磁碟上。當用戶發出請求時,載入對應的適配器。提供回應。卸載適配器。準備好接受下一位用戶的請求。
讓這一切得以運作的數字:
- 基礎模型(Llama 3.1 8B,Q4):GPU 記憶體中佔 4GB
- 每用戶 LoRA 適配器:磁碟上佔 50-200MB
- 適配器載入時間:50-200ms(從 SSD)
- 1,000 位用戶 × 平均 100MB 適配器:總儲存空間 100GB
- 100GB SSD 儲存費用:雲端每月約 $8
相比之下,1,000 份完整模型副本共 4TB,或 1,000 個獨立 RAG 管道。經濟效益根本不在同一個量級。
熱切換的運作方式
每用戶適配器架構的推理流程:
- 請求到達,帶有用戶 ID
- 檢查用戶適配器是否已載入記憶體
- 若未載入:從磁碟載入適配器(50-200ms)
- 將適配器權重與基礎模型合併
- 執行推理
- 回傳回應
- 將適配器保留在記憶體快取中(非活躍用戶以 LRU 演算法淘汰)
記憶體管理
您不需要同時將所有適配器保留在記憶體中。LRU(最近最少使用)快取可以自然處理這個問題:
- 活躍用戶(5 分鐘內有請求):適配器保留在 GPU 記憶體中
- 近期用戶(1 小時內):適配器在 CPU 記憶體中,快速重新載入
- 非活躍用戶: 適配器在磁碟上,200ms 重新載入
24GB 的 GPU 可以同時容納基礎模型(4GB)加上 15-30 個適配器(取決於適配器大小和量化方式)。對於大多數應用程式來說,80-90% 的請求會命中已載入的適配器,因為用戶活躍度遵循冪次分佈:少數用戶產生了大部分流量。
使用 vLLM 實作
vLLM 自 2025 年底起原生支援 LoRA 適配器熱切換:
from vllm import LLM, SamplingParams
from vllm.lora.request import LoRARequest
llm = LLM(
model="meta-llama/Llama-3.1-8B-Instruct",
enable_lora=True,
max_lora_rank=64,
max_loras=20, # GPU 記憶體中同時最多的適配器數量
)
# 使用用戶專屬適配器提供服務
output = llm.generate(
prompts=["Help me draft a proposal for..."],
sampling_params=SamplingParams(temperature=0.7, max_tokens=1024),
lora_request=LoRARequest(
lora_name="user_12345",
lora_int_id=12345,
lora_local_path="/adapters/user_12345/",
),
)
vLLM 自動處理適配器的載入、快取和淘汰。您只需在每次請求時傳入適配器路徑。
每用戶適配器實際學習的內容
在用戶 200-500 個互動範例上訓練的每用戶適配器會學習:
溝通風格
用戶偏好的回應格式。簡短直接還是詳盡全 面。條列式還是段落式。技術術語還是平易近人的語言。微調後,模型無需系統提示中的風格指南,就能產出符合用戶偏好風格的輸出。
領域知識
用戶的特定術語、產品名稱、內部行話、專案名稱、團隊成員和縮寫。適配器直接將這些情境編碼進去,而不是在每次系統提示中解釋「Q3 OKR」或「Project Lighthouse」是什麼意思。
任務模式
用戶重複執行的任務類型。如果用戶總是要求 AI 以特定格式將會議記錄轉換為行動項目,適配器會學習這個模式。由於行為已內建,模型每次請求所需的指示更少。
偏好傾向
當存在多個有效回應時,適配器會學習用戶偏好哪一種。保守還是積極的建議。正式還是輕鬆的語氣。詳細說明注意事項還是自信地斷言。
使用場景
代理商每客戶模型
一個服務 50 個客戶的 AI 代理商可以在單一基礎模型上維護 50 個適配器。每個客戶都能獲得了解其品牌聲音、產品、客戶群和偏好輸出格式的 AI。代理商只需執行一台伺服器、一個基礎模型,並按客戶請求切換適配器。
儲存空間:50 個客戶 × 150MB = 7.5GB。這比兩份完整模型副本還少。請參閱我們的 LoRA 適配器代理商指南,了解詳細的代理商架構。
每租戶 SaaS
提供 AI 功能的 SaaS 平台可以為每個客戶帳戶個人化 AI。一個 AI 理解每個團隊工作流程的專案管理工具。一個 AI 了解每家公司銷售流程的 CRM。一個 AI 符合每家公司寫作風格的文件平台。
每租戶適配器方案可線性擴展:新增客戶、從其使用情況收集 200-500 個範例、微調適配器、部署。客戶在第一個月的使用期內即可獲得個人化 AI。
企業每部門
大型企業中不同部門以不同方式使用 AI。法律部門需要正式、精確的語言,並有引用要求。行銷部門需要有創意、符合品牌的文案。工程部門需要技術性、簡潔的文件。人力資源部門需要具同理心、符合政策的溝通。
四個部門、四個適配器、一個基礎模型。每個部門都能獲得感覺專為其量身打造的 AI。
個人 AI 助理
每位用戶都能獲得隨時間學習其偏好的 AI 的消費者應用程式。從通用適配器開始。隨著用戶互動,收集範例。定期(每週或每月)微調。AI 逐漸變得更加個人化,而無需將用戶資料傳送至雲端 API。
從互動歷史訓練每用戶適配器
每用戶適配器的訓練資料來自用戶自身的互動。以下是收集和訓練管道:
第一步:記錄互動
捕捉每次用戶互動:輸入、模型的輸出,以及任何反饋訊號(明確的點讚/點踩、隱性訊號如「用戶接受了這份草稿未作修改」或「用戶重寫了這份草稿的 80%」)。
第二步:篩選正面範例
選擇結果良好的互動:
- 用戶接受輸出且未大幅修改
- 用戶給予明確的正面反饋
- 任務成功完成(通過下游指標衡量)
對於有修正的負面範例,建立訓練配對,其中輸入是原始請求,輸出是用戶修正後的版本——這能教模型用戶實際上想要什麼。
第三步:格式化和平衡
轉換為標準對話格式。在任務類型之間平衡資料集,使適配器不會過度擬合於最常見的任務而犧牲較少見的任務。
最小可行資料集:200 個範例可達到明顯的個人化效果。500 個範例可達到強效個人化。1,000 個以上範例可達到深度行為對齊。
第四步:微調
上傳至 Ertas,選擇您的基礎模型,配置 LoRA rank(根據個人化深度選擇 16-64),然後訓練。在 8B 模型上訓練 500 個範例:30-60 分鐘。輸出:一個可立即部署的 LoRA 適配器檔案。
第五步:迭代
每月(或每 200 次新互動後)以擴充的資料集重新訓練適配器。每次迭代都能加深個人化程度。經過 3-4 個周期後,用戶通常會反映 AI「就是懂他們」。
擴展數學運算
讓我們來計算一個擁有 10,000 位用戶的 SaaS 平台的數字:
儲存空間
- 10,000 個適配器 × 平均 100MB = 1TB
- 雲端儲存費用(S3/GCS):每月約 $23
- 活躍適配器的快速 SSD 儲存:1TB NVMe 每月約 $100
運算
- 基礎模型:1× A10G GPU($0.60-$1.00/小時)可處理每秒 50-100 個請求
- 對於 10,000 位用戶,典型使用模式下(80% 的流量來自 20% 的用戶),任何時候需要約 2,000 位活躍用戶的適配器
- vLLM 快取 20-30 個適配器在 GPU 記憶體中,適配器切換開銷低於 200ms
訓練
- 初始適配器訓練:每位用戶 30-60 分鐘
- 10,000 位用戶:使用排程 GPU 時間,分 2-4 週批次訓練
- 每月重新訓練:優先處理活躍用戶(前 2,000 名),其他人每季重新訓練
- 訓練費用:每次訓練每個適配器約 $0.50-$1.00
每月總費用
| 項目 | 費用 |
|---|---|
| 推理 GPU(A10G,全天候) | $440-$730 |
| 儲存空間(1TB SSD + 備份) | $123 |
| 每月重新訓練(2,000 位用戶) | $1,000-$2,000 |
| 總計 | $1,563-$2,853 |
這相當於每位用戶每月 $0.16-$0.29 即可獲得完全個人化的 AI。相比之下,在 GPT-4o 上使用系統提示方案,每位用戶每月費用超過 $2.50(假設每用戶每月 500 次請求,每次含 2K Token 系統提示)。
適配器版本控制與回滾
每用戶適配器需要與任何生產成品相同的版本控制規範:
- 為每個適配器標記版本,包含時間戳記和訓練資料雜湊值
- 保留上一個版本,以便在重新訓練產生較差結果時可以回滾
- 對新適配器進行 A/B 測試,將新版本提供給用戶 10% 的請求並比較品質指標
- 每次重新訓練後進行自動品質檢查:在用戶互動的保留集上執行新適配器,確認輸出品質未下降
一個簡單的文件結構即可:
/adapters/
user_12345/
v1_2026-01-15/
adapter_model.safetensors
adapter_config.json
metadata.json # 訓練資料統計、評估指標
v2_2026-02-15/
...
current -> v2_2026-02-15/ # 指向當前版本的符號連結
隱私考量
每用戶適配器將用戶行為模式直接編 碼進模型權重中。這有隱私方面的影響:
- 適配器包含從用戶資料中學習的模式。 應與原始資料享有相同的安全級別。
- 適配器檔案應在靜態時加密,並按用戶進行存取控制。
- 用戶應能刪除其適配器(被遺忘的權利)。這比從 RAG 系統中清除資料更簡單——只需刪除適配器檔案即可。
- 適配器不像 RAG 那樣記憶逐字資料。 微調後的模型學習的是模式,而非確切的字串。但仍可能通過生成洩露敏感資訊,因此存取控制很重要。
相較於基於雲端的個人化,其優勢在於:適配器和所有用戶資料都保留在您的基礎設施上。沒有用戶互動資料被傳送至 OpenAI 或 Anthropic 進行處理。這對受監管行業和注重隱私的用戶至關重要。
每用戶適配器不適合的情況
某些情況下,複雜性並不值得:
- 互動次數少於 100 次的用戶: 沒有足夠的資料來訓練有意義的適配器。在積累足夠資料之前,請使用系統提示或 RAG。
- 高度統一的使用場景: 如果所有用戶以相同方式使用 AI,單一微調模型可服務所有人。每用戶適配器增加了複雜性而沒有收益。
- 快速變化的需求: 如果用戶對 AI 的需求每週都在變化,適配器無法跟上重新訓練的周期。
- 非常小的用戶群(少於 50 位用戶): 適配器管理的基礎設施開銷超過了收益。有個別系統提示和 RAG 的方案更簡單。
對於擁有數百或數千位用戶,且每位用戶都有不同工作流程、溝通風格和領域知識的 SaaS 產品,每用戶 LoRA 適配器是實現深度個人化最具成本效益的途徑。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- LoRA Adapters for AI Agency Owners (No ML Degree Required) — 面向企業主的 LoRA 適配器基礎說明,介紹什麼是 LoRA 適配器以及它們如何為企業所用。
- Managing LoRA Adapters in Production at Scale — 版本控制、部署和監控數百個適配器的運營指南。
- Multi-Tenant Fine-Tuning for SaaS — 從共享基礎設施向多個租戶提供微調模型的架構模式。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

From Prompt Caching to Fine-Tuning: When to Make the Switch
Prompt caching cuts costs 60-90% for repetitive context. Fine-tuning eliminates per-token costs entirely. Here's how to know when you've outgrown caching and should fine-tune instead.
LoRA on Silicon: How Hardware Is Making Fine-Tuning a First-Class Citizen
From Taalas's HC1 to Tether Data's QVAC Fabric LLM, hardware vendors are building LoRA support directly into their platforms. Fine-tuning is no longer just a training technique — it's becoming a hardware deployment interface.

Optimizing LoRA Adapters for Edge Deployment: Size, Speed, and Quality Tradeoffs
How to tune LoRA rank, target modules, and adapter architecture for edge hardware constraints. Practical guidance for deploying fine-tuned adapters on devices with limited memory, from smartphones to dedicated silicon.