Back to blog
    多租户 AI 部署:一个基础模型,数十个客户适配器
    agencymulti-tenantloradeploymentarchitecturesegment:agency

    多租户 AI 部署:一个基础模型,数十个客户适配器

    AI 代理机构如何使用 LoRA 适配器热切换从单个基础模型为数十个客户提供服务——可扩展、高性价比多租户 AI 背后的架构。

    EErtas Team·

    如果你经营一家 AI 代理机构,你已经知道这个矛盾:每个客户都想要一个为他们的领域、语气和边缘案例量身定制的模型。但为每个客户启动一个专用模型实例是走向 GPU 破产的快车道。这个数学在规模上根本行不通。

    好消息是你不必在个性化和盈利之间做出选择。使用 LoRA 适配器热切换的多租户 AI 部署让你可以从单个基础模型为数十个客户提供服务——每个客户都获得真正定制的行为,而无需单独基础设施的成本。

    多租户挑战

    代理机构通常从一个在所有客户之间共享的微调模型开始。这在客户 A 需要正式的医学语言、客户 B 需要休闲的电商文案、客户 C 需要结构化的法律摘要之前都能运行。突然间,你的通用模型谁也不满意。

    天真的解决方案是每个客户一个模型。为每个客户加载一个 7B 参数模型,你需要大约 14GB 的 VRAM。二十个客户意味着 280GB 的 GPU 显存——仅仅为了维持运行就需要多张 A100。托管成本暴涨,利润蒸发。

    你需要的是一种以共享基础设施成本提供每客户定制的架构。

    架构:基础模型 + 每客户适配器

    解决方案在概念上很简单:在 GPU 显存中保留一份基础模型,并按请求切换轻量级 LoRA 适配器。

    LoRA 适配器通过在特定层注入小型可训练权重矩阵来修改模型的行为。关键洞察是这些适配器非常小——对于 7B 模型通常为 50-150MB,而基础模型为 14GB。基础模型处理通用语言理解的重活。适配器将输出引导向特定客户的风格、领域和需求。

    在实践中,你的推理服务器始终将基础模型驻留在 GPU 显存中。当带有客户 ID 标签的请求到达时,服务器加载相应的适配器,运行推理,并返回结果。基础权重永远不动。

    适配器热切换工作原理

    适配器切换的机制出奇地高效。LoRA 适配器只修改模型权重矩阵的一小部分——通常是注意力层。加载适配器意味着在基础权重之上添加这些小的增量矩阵。卸载意味着移除它们。

    在现代硬件上,这种切换只需个位数毫秒。基础模型始终驻留在 VRAM 中。没有模型加载,没有检查点反序列化,没有预热期。适配器只是插入和拔出。

    这与加载完整模型有本质区别,后者根据大小和存储速度可能需要 30-60 秒。

    存储计算

    以下是多租户部署在电子表格层面变得令人心动的地方:

    传统方案(每客户一个模型): 20 个客户 x 每模型 14GB = 总共需要 280GB VRAM

    适配器方案: 1 x 14GB 基础模型 + 20 x 100MB 适配器 = 总共 16GB VRAM(适配器按需加载)

    这是显存需求减少了 17 倍。你可以用传统方案需要多节点集群的单个 GPU 服务 20 个客户。50 个客户时,节省更加显著。

    磁盘上的适配器存储同样很少。一百个适配器每个 100MB 总共 10GB 的 SSD 空间——无论怎么衡量都微不足道。

    请求路由和推理流程

    多租户推理的请求流程如下:

    1. 客户请求到达,附带 API 密钥或客户标识符
    2. 路由器解析客户 ID 到对应的适配器文件
    3. 适配器缓存检查 — 如果适配器已加载,跳到步骤 5
    4. 加载适配器 到 GPU 显存中与基础模型并存
    5. 运行推理 使用组合的基础 + 适配器权重
    6. 返回响应 给客户

    对于拥有可管理数量活跃客户的代理机构(比如并发少于 20 个),你可以同时保持所有适配器加载。7B 基础模型加 20 个适配器可以轻松放入 24GB 的 VRAM——单个消费级 GPU。

    对于更大的客户群,LRU(最近最少使用)缓存策略效果很好。保持最活跃客户的适配器加载,按需切换不活跃的。毫秒级的切换时间意味着即使缓存未命中对终端用户也是不可见的。

    性能考虑

    虽然架构很优雅,但有一些值得规划的实际细节:

    适配器加载延迟。 从 SSD 冷加载适配器需要 10-50 毫秒。从 NVMe 更快。对于延迟敏感的应用,为具有可预测使用模式的客户预热适配器。

    批量推理。 如果同一客户的多个请求同时到达,将它们批处理。如果不同客户的请求到达,你有两个选择:顺序处理(在请求之间切换适配器)或维护多个适配器插槽并行处理。正确的选择取决于你的吞吐量要求。

    适配器版本控制。 客户会迭代。三个月前的适配器可能已经过时。你需要一个适配器版本管理、回滚和对生产流量进行 A/B 测试新版本的系统。

    基础设施规划

    基础设施规划的粗略指南:

    • 1-20 个并发客户: 单 GPU 服务器(24-48GB VRAM)。所有适配器保持加载。简单且高性价比。
    • 20-100 个并发客户: 单个高端 GPU(80GB VRAM)或一对 48GB GPU。LRU 适配器缓存处理轮转。
    • 100+ 并发客户: GPU 集群配负载均衡。按节点分片客户,每个节点运行相同的基础模型和一部分适配器。

    大多数代理机构正好属于第一层。配备 RTX 4090 或 A6000 的单台服务器可以轻松处理 20 个以上的客户。

    Ertas 如何融入此架构

    Ertas 旨在使多租户 AI 部署对没有专用 ML 运维团队的代理机构变得实用。

    每客户适配器管理。 通过统一界面训练、版本管理和部署每个客户的 LoRA 适配器。每个客户的训练数据和适配器历史都是隔离且可审计的。

    Vault 数据隔离。 客户数据永远不会混合。Ertas Vault 在数据层强制执行严格的租户隔离——对于跨行业处理敏感客户信息的代理机构至关重要。

    GGUF 导出。 当客户需要在本地或边缘设备上运行模型时,将他们的适配器与基础模型合并导出为单个 GGUF 文件。一键操作,他们就有了一个可在 Ollama 或 llama.cpp 上运行的独立模型。

    结果是代理机构可以接入新客户、微调他们的适配器,并将其部署到多租户技术栈中——所有这些都无需接触基础设施代码。

    Ship AI that runs on your users' devices.

    Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

    开始构建你的多租户技术栈

    多租户 AI 部署不是未来的架构模式。它是如今最高效的 AI 代理机构的运营方式。共享基础模型和每客户 LoRA 适配器的组合以极低成本提供真正的定制化。

    如果你准备好超越每客户一个模型并构建可扩展的 AI 代理机构,Ertas 提供训练、部署和数据管理基础设施来实现这一目标。

    延伸阅读

    Ship AI that runs on your users' devices.

    Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

    Keep reading