
多租户 AI 部署:一个基础模型,数十个客户适配器
AI 代理机构如何使用 LoRA 适配器热切换从单个基础模型为数十个客户提供服务——可扩展、高性价比多租户 AI 背后的架构。
如果你经营一家 AI 代理机构,你已经知道这个矛盾:每个客户都想要一个为他们的领域、语气和边缘案例量身定制的模型。但为每个客户启动一个专用模型实例是走向 GPU 破产的快车道。这个数学在规模上根本行不通。
好消息是你不必在个性化和盈利之间做出选择。使用 LoRA 适配器热切换的多租户 AI 部署让你可以从单个基础模型为数十个客户提供服务——每个客户都获得真正定制的行为,而无需单独基础设施的成本。
多租户挑战
代理机构通常从一个在所有客户之间共享的微调模型开始。这在客户 A 需要正式的医学语言、客户 B 需要休闲的电商文案、客户 C 需要结构化的法律摘要之前都能运行。突然间,你的通用模型谁也不满意。
天真的解决方案是每个客户一个模型。为每个客户加载一个 7B 参数模型,你需要大约 14GB 的 VRAM。二十个客户意味着 280GB 的 GPU 显存——仅仅为了维持运行就需要多张 A100。托管成本暴涨,利润蒸发。
你需要的是一种以共享基础设施成本提供每客户定制的架构。
架构:基础模 型 + 每客户适配器
解决方案在概念上很简单:在 GPU 显存中保留一份基础模型,并按请求切换轻量级 LoRA 适配器。
LoRA 适配器通过在特定层注入小型可训练权重矩阵来修改模型的行为。关键洞察是这些适配器非常小——对于 7B 模型通常为 50-150MB,而基础模型为 14GB。基础模型处理通用语言理解的重活。适配器将输出引导向特定客户的风格、领域和需求。
在实践中,你的推理服务器始终将基础模型驻留在 GPU 显存中。当带有客户 ID 标签的请求到达时,服务器加载相应的适配器,运行推理,并返回结果。基础权重永远不动。
适配器热切换工作原理
适配器切换的机制出奇地高效。LoRA 适配器只修改模型权重矩阵的一小部分——通常是注意力层。加载适配器意味着在基础权重之上添加这些小的增量矩阵。卸载意味着移除它们。
在现代硬件上,这种切换只需个位数毫秒。基础模型始终驻留在 VRAM 中。没有模型加载,没有检查点反序列化,没有预热期。适配器只是插入和拔出。
这与加载完整模型有本质区别,后者根据大小和存储速度可能需要 30-60 秒。
存储计算
以下是多租户部署在电子表格层面变得令人心动的地方:
传统方案(每客户一个模型): 20 个客户 x 每模型 14GB = 总共需要 280GB VRAM
适配器方案: 1 x 14GB 基础模型 + 20 x 100MB 适配器 = 总共 16GB VRAM(适配器按需加载)
这是显存需求减少了 17 倍。你可以用传统方案需要多节点集群的单个 GPU 服务 20 个客户。50 个客户时,节省更加显著。
磁盘上的适配器存储同样很少。一百个适配器每个 100MB 总共 10GB 的 SSD 空间——无论怎么衡量都微不足道。
请求路由和推理流程
多租户推理的请求流程如下:
- 客户请求到达,附带 API 密钥或客户标识符
- 路由器解析客户 ID 到对应的适配器文件
- 适配器缓存检查 — 如果适配器已加载,跳到步骤 5
- 加载适配器 到 GPU 显存中与基础模型并存
- 运行推理 使用组合的基础 + 适配器权重
- 返回响应 给客户
对于拥有可管理数量活跃客户的代理机构(比如并发少于 20 个),你可以同时保持所有适配器加载。7B 基础模型加 20 个适配器可以轻松放入 24GB 的 VRAM——单个消费级 GPU。
对于更大的客户群,LRU(最近最少使用)缓存策略效果很好。保持最活跃客户的适配器加载,按需切换不活跃的。毫秒级的切换时间意味着即使缓存未命中对终端用户也是不可见的。
性能考虑
虽然架构很优雅,但有一些值得规划的实际细节:
适配器加载延迟。 从 SSD 冷加载适配器需要 10-50 毫秒。从 NVMe 更快。对于延迟敏感的应用,为具有可预测使用模式的客户预热适配器。
批量推理。 如果同一客户的多个请求同时到达,将它们批处理。如果不同客户的请求到达,你有两个选择:顺序处理(在请求之间切换适配器)或维护多个适配器 插槽并行处理。正确的选择取决于你的吞吐量要求。
适配器版本控制。 客户会迭代。三个月前的适配器可能已经过时。你需要一个适配器版本管理、回滚和对生产流量进行 A/B 测试新版本的系统。
基础设施规划
基础设施规划的粗略指南:
- 1-20 个并发客户: 单 GPU 服务器(24-48GB VRAM)。所有适配器保持加载。简单且高性价比。
- 20-100 个并发客户: 单个高端 GPU(80GB VRAM)或一对 48GB GPU。LRU 适配器缓存处理轮转。
- 100+ 并发客户: GPU 集群配负载均衡。按节点分片客户,每个节点运行相同的基础模型和一部分适配器。
大多数代理机构正好属于第一层。配备 RTX 4090 或 A6000 的单台服务器可以轻松处理 20 个以上的客户。
Ertas 如何融入此架构
Ertas 旨在使多租户 AI 部署对没有专用 ML 运维团队的代理机构变得实用。
每客户适配器管理。 通过统一界面训练、版本管理和部署每个客户的 LoRA 适配器。每个客户的训练数据和适配器历史都是隔离且可审计的。
Vault 数据隔离。 客户数据永远不会混合。Ertas Vault 在数据层强制执行严格的租户隔离——对于跨行业处理敏感客户信息的代理机构至关重要。
GGUF 导出。 当客户需要在本地或边缘设备上运行模型时,将他们的适配器与基础模型合并导出为单个 GGUF 文件。一键操作,他们就有了一个可在 Ollama 或 llama.cpp 上运行的独立模型。
结果是代理机构可以接入新客户、微调他们的适配器,并将其部署到多租户技术栈中——所有这些都无需接触基础设施代码。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
开始构建你的多租户技术栈
多租户 AI 部署不是未来的架构模式。它是如今最高效的 AI 代理机构的运营方式。共享基础模型和每客户 LoRA 适配器的组合以极低成本提供真正的定制化。
如果你准备好超越每客户一个模型并构建可扩展的 AI 代理机构,Ertas 提供训练、部署和数据管理基础设施来实现这一目标。
延伸阅读
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

AI 代理机构的模型版本管理和客户回滚指南
AI 代理机构应如何进行微调模型的版本管理、追踪和回滚——涵盖命名方案、变更日志、A/B 部署和紧急回滚程序。

面向代理机构的 OpenClaw:无 API 账单的每客户 AI Agent
AI 代理机构正在采用 OpenClaw 进行客户工作,但云 API 成本按客户扩展。以下是如何使用 LoRA 适配器的微调本地模型部署每客户 Agent。

利基 AI 代理机构 vs 通才:2026 年谁赢得客户
数据很清楚:利基 AI 代理机构成交更快、收费更高、客户留存更长。以下是为什么利基定位在 AI 领域特别有效以及如何找到你的利基。