What is Multi-Tenant Inference（多租戶推論）?

透過按租戶 LoRA 適配器從單一模型部署服務多個客戶。

Definition

多租戶推論是一種基礎設施模式，其中單一基礎模型為多個不同的客戶（租戶）提供推論請求服務，每個客戶透過各自的 LoRA 適配器疊加在共用基礎權重之上來獲得客製化行為。這種架構不是為每個客戶部署單獨的模型實例（GPU 記憶體和成本會線性增長），而是只載入基礎模型一次，並根據租戶識別碼按請求交換輕量適配器（通常每個 10-100 MB）。

這種架構類似於多租戶 SaaS 應用程式共用單一資料庫引擎同時隔離每個客戶資料的方式。推論伺服器在 GPU 或 CPU 記憶體中維護一個已載入適配器的池，根據租戶 ID 標頭或 API 金鑰將傳入請求路由到正確的適配器，並在推論時將適配器權重與基礎模型合併。vLLM 和 LoRAX 等現代服務框架原生支援此功能，實現適配器熱交換，延遲開銷極小——與單租戶推論相比通常每個請求增加不到 5ms。

Why It Matters

對於服務多個客戶的 AI 代理商和 SaaS 平台，多租戶推論是可持續商業模式與被基礎設施成本壓垮之間的區別。以每小時 $1-3 為每個客戶運行專用 GPU 實例意味著 20 個客戶需要 20 個 GPU——大約每月 $15,000-45,000 的計算費用。多租戶推論將此縮減為 1-3 個 GPU 服務所有 20 個客戶，在維持每個客戶客製化的同時將基礎設施成本降低 80-95%。

除了成本之外，多租戶推論還解決了管理數十個獨立模型部署的營運複雜性。單一部署意味著一個健康檢查端點、一個擴展策略、一個升級路徑和一個監控儀表板。資料隔離在適配器和請求層級維護，而非基礎設施層級，這既更簡單也更安全——每個租戶的微調知識存在於其適配器檔案中，永遠不會與另一個租戶的訓練資料混合。這種模式對於任何需要以不同微調行為服務多個客戶的 AI 驅動產品的組織來說都是必不可少的。

How It Works

多租戶推論堆疊有三個核心組件：適配器註冊表、請求路由器和帶有適配器快取的推論引擎。適配器註冊表按租戶 ID 索引儲存所有租戶適配器——在生產中這通常是雲端儲存桶或從模型管理平台同步的本地目錄。請求路由器檢查每個傳入的 API 請求，提取租戶識別碼（從 API 金鑰、標頭或 URL 路徑），並將其對應到正確的適配器。

推論引擎在 GPU 記憶體中維護最近使用的適配器快取。當一個請求到達且其租戶的適配器已在快取中時，推論立即進行，幾乎沒有額外開銷。對於冷適配器（不在快取中），引擎從註冊表載入到 GPU 記憶體——對於典型的 LoRA 適配器，這個過程需要 50-200ms。複雜的實作使用 LRU（最近最少使用）淘汰來管理適配器快取、對具有已知流量模式的租戶進行預測性預載入，以及將來自同一租戶的請求分組的適配器批次處理。在調優良好的快取和 20 個活躍租戶的情況下，快取命中率通常超過 95%，意味著絕大多數請求完全不會看到適配器載入延遲。

Example Use Case

一家 AI 自動化代理商服務 20 個小型企業客戶，每個客戶都有一個在其公司知識庫上訓練的客製聊天機器人。代理商不是運行 20 個單獨的模型實例，而是在一張 A100 GPU 上部署單一 Llama 3 8B 基礎模型。每個客戶都有一個 LoRA 適配器（平均 50 MB），在其常見問題資料、產品目錄和品牌語調指南上微調。推論伺服器接收帶有客戶 API 金鑰標記的請求，將金鑰對應到正確的適配器，並提供該客戶品牌個性化的回應。代理商為一張 GPU 支付每小時 $2.50 而不是 20 張的每小時 $50——計算成本降低了 95%。在所有 20 個客戶同時活躍的尖峰時段，適配器快取順暢處理切換，平均回應延遲維持在 200ms 以下。新增客戶只需微調新的 LoRA 適配器並在系統中註冊——無需新的基礎設施配置。

Key Takeaways

多租戶推論在多個客戶之間共用單一基礎模型，每個租戶的 LoRA 適配器提供客製化行為。
與專用的每客戶模型部署相比，基礎設施成本降低 80-95%，使 AI 代理商和 SaaS 平台在經濟上可行。
帶有 GPU 層級快取的適配器熱交換將延遲開銷控制在快取租戶的 5ms 以下，冷載入的 200ms 以下。
資料隔離在適配器層級維護——每個租戶的微調知識包含在其適配器檔案中，永遠不與其他租戶混合。
vLLM 和 LoRAX 等現代服務框架原生支援多租戶 LoRA 服務，使這種模式在今天已可用於生產。

How Ertas Helps

Ertas 圍繞多租戶推論範式構建。平台在 Vault 中的適配器管理系統讓代理商以版本控制、存取權限和稽核軌跡組織每個客戶的 LoRA 適配器。Ertas Cloud 配置共用推論端點，其中多個客戶適配器註冊到單一基礎模型部署，具有自動適配器快取和按租戶 API 金鑰的請求路由。結合 Vault 的資料隔離——確保每個客戶的訓練資料和適配器權重嚴格分離——Ertas 為代理商和 SaaS 團隊提供了完整的基礎設施層，無需自行構建編排即可運行多租戶 AI 部署。