What is Multi-Tenant Inference(多租戶推論)?

    透過按租戶 LoRA 適配器從單一模型部署服務多個客戶。

    Definition

    多租戶推論是一種基礎設施模式,其中單一基礎模型為多個不同的客戶(租戶)提供推論請求服務,每個客戶透過各自的 LoRA 適配器疊加在共用基礎權重之上來獲得客製化行為。這種架構不是為每個客戶部署單獨的模型實例(GPU 記憶體和成本會線性增長),而是只載入基礎模型一次,並根據租戶識別碼按請求交換輕量適配器(通常每個 10-100 MB)。

    這種架構類似於多租戶 SaaS 應用程式共用單一資料庫引擎同時隔離每個客戶資料的方式。推論伺服器在 GPU 或 CPU 記憶體中維護一個已載入適配器的池,根據租戶 ID 標頭或 API 金鑰將傳入請求路由到正確的適配器,並在推論時將適配器權重與基礎模型合併。vLLM 和 LoRAX 等現代服務框架原生支援此功能,實現適配器熱交換,延遲開銷極小——與單租戶推論相比通常每個請求增加不到 5ms。

    Why It Matters

    對於服務多個客戶的 AI 代理商和 SaaS 平台,多租戶推論是可持續商業模式與被基礎設施成本壓垮之間的區別。以每小時 $1-3 為每個客戶運行專用 GPU 實例意味著 20 個客戶需要 20 個 GPU——大約每月 $15,000-45,000 的計算費用。多租戶推論將此縮減為 1-3 個 GPU 服務所有 20 個客戶,在維持每個客戶客製化的同時將基礎設施成本降低 80-95%。

    除了成本之外,多租戶推論還解決了管理數十個獨立模型部署的營運複雜性。單一部署意味著一個健康檢查端點、一個擴展策略、一個升級路徑和一個監控儀表板。資料隔離在適配器和請求層級維護,而非基礎設施層級,這既更簡單也更安全——每個租戶的微調知識存在於其適配器檔案中,永遠不會與另一個租戶的訓練資料混合。這種模式對於任何需要以不同微調行為服務多個客戶的 AI 驅動產品的組織來說都是必不可少的。

    How It Works

    多租戶推論堆疊有三個核心組件:適配器註冊表、請求路由器和帶有適配器快取的推論引擎。適配器註冊表按租戶 ID 索引儲存所有租戶適配器——在生產中這通常是雲端儲存桶或從模型管理平台同步的本地目錄。請求路由器檢查每個傳入的 API 請求,提取租戶識別碼(從 API 金鑰、標頭或 URL 路徑),並將其對應到正確的適配器。

    推論引擎在 GPU 記憶體中維護最近使用的適配器快取。當一個請求到達且其租戶的適配器已在快取中時,推論立即進行,幾乎沒有額外開銷。對於冷適配器(不在快取中),引擎從註冊表載入到 GPU 記憶體——對於典型的 LoRA 適配器,這個過程需要 50-200ms。複雜的實作使用 LRU(最近最少使用)淘汰來管理適配器快取、對具有已知流量模式的租戶進行預測性預載入,以及將來自同一租戶的請求分組的適配器批次處理。在調優良好的快取和 20 個活躍租戶的情況下,快取命中率通常超過 95%,意味著絕大多數請求完全不會看到適配器載入延遲。

    Example Use Case

    一家 AI 自動化代理商服務 20 個小型企業客戶,每個客戶都有一個在其公司知識庫上訓練的客製聊天機器人。代理商不是運行 20 個單獨的模型實例,而是在一張 A100 GPU 上部署單一 Llama 3 8B 基礎模型。每個客戶都有一個 LoRA 適配器(平均 50 MB),在其常見問題資料、產品目錄和品牌語調指南上微調。推論伺服器接收帶有客戶 API 金鑰標記的請求,將金鑰對應到正確的適配器,並提供該客戶品牌個性化的回應。代理商為一張 GPU 支付每小時 $2.50 而不是 20 張的每小時 $50——計算成本降低了 95%。在所有 20 個客戶同時活躍的尖峰時段,適配器快取順暢處理切換,平均回應延遲維持在 200ms 以下。新增客戶只需微調新的 LoRA 適配器並在系統中註冊——無需新的基礎設施配置。

    Key Takeaways

    • 多租戶推論在多個客戶之間共用單一基礎模型,每個租戶的 LoRA 適配器提供客製化行為。
    • 與專用的每客戶模型部署相比,基礎設施成本降低 80-95%,使 AI 代理商和 SaaS 平台在經濟上可行。
    • 帶有 GPU 層級快取的適配器熱交換將延遲開銷控制在快取租戶的 5ms 以下,冷載入的 200ms 以下。
    • 資料隔離在適配器層級維護——每個租戶的微調知識包含在其適配器檔案中,永遠不與其他租戶混合。
    • vLLM 和 LoRAX 等現代服務框架原生支援多租戶 LoRA 服務,使這種模式在今天已可用於生產。

    How Ertas Helps

    Ertas 圍繞多租戶推論範式構建。平台在 Vault 中的適配器管理系統讓代理商以版本控制、存取權限和稽核軌跡組織每個客戶的 LoRA 適配器。Ertas Cloud 配置共用推論端點,其中多個客戶適配器註冊到單一基礎模型部署,具有自動適配器快取和按租戶 API 金鑰的請求路由。結合 Vault 的資料隔離——確保每個客戶的訓練資料和適配器權重嚴格分離——Ertas 為代理商和 SaaS 團隊提供了完整的基礎設施層,無需自行構建編排即可運行多租戶 AI 部署。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.