What is 多租户推理（Multi-Tenant Inference）?

使用每个租户独立的 LoRA 适配器从单个模型部署中为多个客户或租户提供服务，通过共享基础模型降低基础设施成本，同时为每个租户提供定制的 AI 行为。

Definition

多租户推理是一种基础设施模式，其中单个基础模型为多个不同客户（租户）提供推理服务，每个客户通过其自有的 LoRA 适配器叠加在共享基础权重之上来获得定制行为。与为每个客户部署单独模型实例（GPU 内存和成本呈线性增长）不同，基础模型只加载一次，而轻量级适配器（通常 10-100 MB 每个）根据租户标识符按请求进行切换。

这种架构类似于多租户 SaaS 应用共享单个数据库引擎同时隔离每个客户数据的方式。推理服务器在 GPU 或 CPU 内存中维护一个已加载适配器的池，根据租户 ID 头部或 API 密钥将传入请求路由到正确的适配器，并在推理时将适配器权重与基础模型合并。vLLM 和 LoRAX 等现代服务框架原生支持此功能，适配器热切换的延迟开销极小——与单租户推理相比通常增加不到 5ms。

Why It Matters

对于服务多个客户的 AI 代理商和 SaaS 平台来说，多租户推理是可持续商业模式与被基础设施成本拖垮之间的区别。为每个客户运行专用 GPU 实例，每小时 1-3 美元，意味着 20 个客户需要 20 个 GPU——每月大约 15,000-45,000 美元的计算成本。多租户推理将此压缩到 1-3 个 GPU 服务所有 20 个客户，基础设施成本降低 80-95%，同时保持每客户定制。

除了成本之外，多租户推理解决了管理数十个独立模型部署的运营复杂性。单个部署意味着一个健康检查端点、一个扩缩策略、一个升级路径和一个监控面板。数据隔离在适配器和请求级别而非基础设施级别维护，这既更简单又更安全——每个租户的微调知识存在于其适配器文件中，永远不会与其他租户的训练数据混合。对于任何构建需要为具有不同微调行为的多个客户提供服务的 AI 产品的组织来说，这种模式是必不可少的。

How It Works

多租户推理技术栈有三个核心组件：适配器注册表、请求路由器和带适配器缓存的推理引擎。适配器注册表按租户 ID 索引存储所有租户适配器——在生产中这通常是一个云存储桶或从模型管理平台同步的本地目录。请求路由器检查每个传入的 API 请求，提取租户标识符（从 API 密钥、头部或 URL 路径），并将其映射到正确的适配器。

推理引擎在 GPU 内存中维护一个最近使用的适配器缓存。当某个租户的请求到达且其适配器已在缓存中时，推理立即进行，开销接近零。对于冷适配器（不在缓存中），引擎从注册表将其加载到 GPU 内存——对于典型的 LoRA 适配器，这个过程需要 50-200ms。复杂的实现使用 LRU（最近最少使用）淘汰策略来管理适配器缓存，对具有已知流量模式的租户进行预测性预加载，以及适配器批处理来将同一租户的请求分组在一起。在缓存调优良好且有 20 个活跃租户的情况下，缓存命中率通常超过 95%，这意味着绝大多数请求完全没有适配器加载延迟。

Example Use Case

一家 AI 自动化代理商为 20 个小型企业客户提供服务，每个客户都有基于其公司知识库训练的定制聊天机器人。代理商不是运行 20 个独立的模型实例，而是在一个 A100 GPU 上部署单个 Llama 3 8B 基础模型。每个客户都有一个 LoRA 适配器（平均 50 MB），基于其 FAQ 数据、产品目录和品牌语气指南微调。推理服务器接收带有客户 API 密钥标记的请求，将密钥映射到正确的适配器，并提供针对该客户品牌个性化的响应。代理商为一个 GPU 支付 2.50 美元/小时，而不是 20 个 GPU 的 50 美元/小时——计算成本降低了 95%。在所有 20 个客户同时活跃的高峰时段，适配器缓存平稳处理切换，平均响应延迟保持在 200ms 以下。添加新客户只需微调一个新的 LoRA 适配器并在系统中注册——无需新的基础设施配置。

Key Takeaways

多租户推理跨多个客户共享单个基础模型，通过每租户 LoRA 适配器提供定制行为。
与每客户专用模型部署相比，基础设施成本降低 80-95%，使 AI 代理商和 SaaS 平台在经济上可行。
GPU 级缓存的适配器热切换将缓存租户的延迟开销保持在 5ms 以下，冷加载在 200ms 以下。
数据隔离在适配器级别维护——每个租户的微调知识包含在其适配器文件中，永远不会与其他租户混合。
vLLM 和 LoRAX 等现代服务框架原生支持多租户 LoRA 服务，使这种模式在今天已可用于生产。

How Ertas Helps

Ertas 围绕多租户推理范式构建。平台 Vault 中的适配器管理系统让代理商通过版本控制、访问权限和审计跟踪来组织每客户 LoRA 适配器。Ertas Cloud 配置共享推理端点，在单个基础模型部署上注册多个客户适配器，具有自动适配器缓存和按租户 API 密钥的请求路由。结合 Vault 的数据隔离——确保每个客户的训练数据和适配器权重严格分离——Ertas 为代理商和 SaaS 团队提供完整的基础设施层，无需自行构建编排系统即可运行多租户 AI 部署。