What is 多租户推理(Multi-Tenant Inference)?
使用每个租户独立的 LoRA 适配器从单个模型部署中为多个客户或租户提供服务,通过共享基础模型降低基础设施成本,同时为每个租户提供定制的 AI 行为。
Definition
多租户推理是一种基础设施模式,其中单个基础模型为多个不同客户(租户)提供推理服务,每个客户通过其自有的 LoRA 适配器叠加在共享基础权重之上来获得定制行为。与为每个客户部署单独模型实例(GPU 内存和成本呈线性增长)不同,基础模型只加载一次,而轻量级适配器(通常 10-100 MB 每个)根据租户标识符按请求进行切换。
这种架构类似于多租户 SaaS 应用共享单个数据库引擎同时隔离每个客户数据的方式。推理服务器在 GPU 或 CPU 内存中维护一个已加载适配器的池,根据租户 ID 头部或 API 密钥将传入请求路由到正确的适配器,并在推理时将适配器权重与基础模型合并。vLLM 和 LoRAX 等现代服务框架原生支持此功能,适配器热切换的延迟开销极小——与单租户推理相比通常增加不到 5ms。
Why It Matters
对于服务多个客户的 AI 代理商和 SaaS 平台来说,多租户推理是可持续商业模式与被基础设施成本拖垮之间的区别。为每个客户运行专用 GPU 实例,每小时 1-3 美元,意味着 20 个客户需要 20 个 GPU——每月大约 15,000-45,000 美元的计算成本。多租户推理将此压缩到 1-3 个 GPU 服务所有 20 个客户,基础设施成本降低 80-95%,同时保持每客户定制。
除了成本之外,多租户推理解决了管理数十个独立模型部署的运营复杂性。单个部署意味着一个健康检查端点、一个扩缩策略、一个升级路径和一个监控面板。数据隔离在适配器和请求级别而非基础设施级别维护,这既更简单又更安全——每个租户的微调知识存在于其适配器文件中,永远不会与其他租户的训练数据混合。对于任何构建需要为具有不同微调行为的多个客户提供服务的 AI 产品的组织来说,这种模式是必不可少的。
How It Works
多租户推理技术栈有三个核心组件:适配器注册表、请求路由器和带适配器缓存的推理引擎。适配器注册表按租户 ID 索引存储所有租户适配器——在生产中这通常是一个云存储桶或从模型管理平台同步的本地目录。请求路由器检查每个传入的 API 请求,提取租户标识符(从 API 密钥、头部或 URL 路径),并将其映射到正确的适配器。
推理引擎在 GPU 内存中维护一个最近使用的适配器缓存。当 某个租户的请求到达且其适配器已在缓存中时,推理立即进行,开销接近零。对于冷适配器(不在缓存中),引擎从注册表将其加载到 GPU 内存——对于典型的 LoRA 适配器,这个过程需要 50-200ms。复杂的实现使用 LRU(最近最少使用)淘汰策略来管理适配器缓存,对具有已知流量模式的租户进行预测性预加载,以及适配器批处理来将同一租户的请求分组在一起。在缓存调优良好且有 20 个活跃租户的情况下,缓存命中率通常超过 95%,这意味着绝大多数请求完全没有适配器加载延迟。
Example Use Case
一家 AI 自动化代理商为 20 个小型企业客户提供服务,每个客户都有基于其公司知识库训练的定制聊天机器人。代理商不是运行 20 个独立的模型实例,而是在一个 A100 GPU 上部署单个 Llama 3 8B 基础模型。每个客户都有一个 LoRA 适配器(平均 50 MB),基于其 FAQ 数据、产品目录和品牌语气指南微调。推理服务器接收带有客户 API 密钥标记的请求,将密钥映射到正确的适配器,并提供针对该客户品牌个性化的响应。代理商为一个 GPU 支付 2.50 美元/小时,而不是 20 个 GPU 的 50 美元/小时——计算成本降低了 95%。在所有 20 个客户同时活跃的高峰时段,适配器缓存平稳处理切换,平均响应延迟保持在 200ms 以下。添加新客户只需微调一个新的 LoRA 适配器并在系统中注册——无需新的基础设施配置。
Key Takeaways
- 多租户推理跨多个客户共享单个基础模型,通过每租户 LoRA 适配器提供定制行为。
- 与每客户专用模型部署相比,基础设施成本降低 80-95%,使 AI 代理商和 SaaS 平台在经济上可行。
- GPU 级缓存的适配器热切换将缓存租户的延迟开销保持在 5ms 以下,冷加载在 200ms 以下。
- 数据隔离在适配器级别维护——每个租户的微调知识包含在其适配器文件中,永远不会与其他租户混合。
- vLLM 和 LoRAX 等现代服务框架原生支持多租户 LoRA 服务,使这种模式在今天已可用于生产。
How Ertas Helps
Ertas 围绕多租户推理范式构建。平台 Vault 中的适配器管理系统让代理商通过版本控制、访问权限和审计跟踪来组织每客户 LoRA 适配器。Ertas Cloud 配置共享推理端点,在单个基础模型部署上注册多个客户适配器,具有自动适配器缓存和按租户 API 密钥的请求路由。结合 Vault 的数据隔离——确保每个客户的训练数据和适配器权重严格分离——Ertas 为代理商和 SaaS 团队提供完整的基础设施层,无需自行构建编排系统即可运行多租户 AI 部署。
Related Resources
Adapter
Fine-Tuning
GGUF
Inference
LoRA
Multi-Tenant AI Deployment: One Base Model, Dozens of Client Adapters
How to Cut Your AI Agency Costs by 90% with Fine-Tuned Local Models
White-Label AI: Build Custom Models for Every Client
llama.cpp
Ollama
vLLM
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for AI Automation Agencies
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.