Back to blog
    多租户 AI 部署:一个基础模型,数十个客户适配器
    agencymulti-tenantloradeploymentarchitecturesegment:agency

    多租户 AI 部署:一个基础模型,数十个客户适配器

    AI 代理机构如何使用 LoRA 适配器热切换从单个基础模型为数十个客户提供服务——可扩展、高性价比多租户 AI 背后的架构。

    EErtas Team·

    如果你经营一家 AI 代理机构,你已经知道这个矛盾:每个客户都想要一个为他们的领域、语气和边缘案例量身定制的模型。但为每个客户启动一个专用模型实例是走向 GPU 破产的快车道。这个数学在规模上根本行不通。

    好消息是你不必在个性化和盈利之间做出选择。使用 LoRA 适配器热切换的多租户 AI 部署让你可以从单个基础模型为数十个客户提供服务——每个客户都获得真正定制的行为,而无需单独基础设施的成本。

    多租户挑战

    代理机构通常从一个在所有客户之间共享的微调模型开始。这在客户 A 需要正式的医学语言、客户 B 需要休闲的电商文案、客户 C 需要结构化的法律摘要之前都能运行。突然间,你的通用模型谁也不满意。

    天真的解决方案是每个客户一个模型。为每个客户加载一个 7B 参数模型,你需要大约 14GB 的 VRAM。二十个客户意味着 280GB 的 GPU 显存——仅仅为了维持运行就需要多张 A100。托管成本暴涨,利润蒸发。

    你需要的是一种以共享基础设施成本提供每客户定制的架构。

    架构:基础模型 + 每客户适配器

    解决方案在概念上很简单:在 GPU 显存中保留一份基础模型,并按请求切换轻量级 LoRA 适配器。

    LoRA 适配器通过在特定层注入小型可训练权重矩阵来修改模型的行为。关键洞察是这些适配器非常小——对于 7B 模型通常为 50-150MB,而基础模型为 14GB。基础模型处理通用语言理解的重活。适配器将输出引导向特定客户的风格、领域和需求。

    在实践中,你的推理服务器始终将基础模型驻留在 GPU 显存中。当带有客户 ID 标签的请求到达时,服务器加载相应的适配器,运行推理,并返回结果。基础权重永远不动。

    适配器热切换工作原理

    适配器切换的机制出奇地高效。LoRA 适配器只修改模型权重矩阵的一小部分——通常是注意力层。加载适配器意味着在基础权重之上添加这些小的增量矩阵。卸载意味着移除它们。

    在现代硬件上,这种切换只需个位数毫秒。基础模型始终驻留在 VRAM 中。没有模型加载,没有检查点反序列化,没有预热期。适配器只是插入和拔出。

    这与加载完整模型有本质区别,后者根据大小和存储速度可能需要 30-60 秒。

    存储计算

    以下是多租户部署在电子表格层面变得令人心动的地方:

    传统方案(每客户一个模型): 20 个客户 x 每模型 14GB = 总共需要 280GB VRAM

    适配器方案: 1 x 14GB 基础模型 + 20 x 100MB 适配器 = 总共 16GB VRAM(适配器按需加载)

    这是显存需求减少了 17 倍。你可以用传统方案需要多节点集群的单个 GPU 服务 20 个客户。50 个客户时,节省更加显著。

    磁盘上的适配器存储同样很少。一百个适配器每个 100MB 总共 10GB 的 SSD 空间——无论怎么衡量都微不足道。

    请求路由和推理流程

    多租户推理的请求流程如下:

    1. 客户请求到达,附带 API 密钥或客户标识符
    2. 路由器解析客户 ID 到对应的适配器文件
    3. 适配器缓存检查 — 如果适配器已加载,跳到步骤 5
    4. 加载适配器 到 GPU 显存中与基础模型并存
    5. 运行推理 使用组合的基础 + 适配器权重
    6. 返回响应 给客户

    对于拥有可管理数量活跃客户的代理机构(比如并发少于 20 个),你可以同时保持所有适配器加载。7B 基础模型加 20 个适配器可以轻松放入 24GB 的 VRAM——单个消费级 GPU。

    对于更大的客户群,LRU(最近最少使用)缓存策略效果很好。保持最活跃客户的适配器加载,按需切换不活跃的。毫秒级的切换时间意味着即使缓存未命中对终端用户也是不可见的。

    性能考虑

    虽然架构很优雅,但有一些值得规划的实际细节:

    适配器加载延迟。 从 SSD 冷加载适配器需要 10-50 毫秒。从 NVMe 更快。对于延迟敏感的应用,为具有可预测使用模式的客户预热适配器。

    批量推理。 如果同一客户的多个请求同时到达,将它们批处理。如果不同客户的请求到达,你有两个选择:顺序处理(在请求之间切换适配器)或维护多个适配器插槽并行处理。正确的选择取决于你的吞吐量要求。

    适配器版本控制。 客户会迭代。三个月前的适配器可能已经过时。你需要一个适配器版本管理、回滚和对生产流量进行 A/B 测试新版本的系统。

    基础设施规划

    基础设施规划的粗略指南:

    • 1-20 个并发客户: 单 GPU 服务器(24-48GB VRAM)。所有适配器保持加载。简单且高性价比。
    • 20-100 个并发客户: 单个高端 GPU(80GB VRAM)或一对 48GB GPU。LRU 适配器缓存处理轮转。
    • 100+ 并发客户: GPU 集群配负载均衡。按节点分片客户,每个节点运行相同的基础模型和一部分适配器。

    大多数代理机构正好属于第一层。配备 RTX 4090 或 A6000 的单台服务器可以轻松处理 20 个以上的客户。

    Ertas 如何融入此架构

    Ertas 旨在使多租户 AI 部署对没有专用 ML 运维团队的代理机构变得实用。

    每客户适配器管理。 通过统一界面训练、版本管理和部署每个客户的 LoRA 适配器。每个客户的训练数据和适配器历史都是隔离且可审计的。

    Vault 数据隔离。 客户数据永远不会混合。Ertas Vault 在数据层强制执行严格的租户隔离——对于跨行业处理敏感客户信息的代理机构至关重要。

    GGUF 导出。 当客户需要在本地或边缘设备上运行模型时,将他们的适配器与基础模型合并导出为单个 GGUF 文件。一键操作,他们就有了一个可在 Ollama 或 llama.cpp 上运行的独立模型。

    结果是代理机构可以接入新客户、微调他们的适配器,并将其部署到多租户技术栈中——所有这些都无需接触基础设施代码。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    开始构建你的多租户技术栈

    多租户 AI 部署不是未来的架构模式。它是如今最高效的 AI 代理机构的运营方式。共享基础模型和每客户 LoRA 适配器的组合以极低成本提供真正的定制化。

    如果你准备好超越每客户一个模型并构建可扩展的 AI 代理机构,Ertas 提供训练、部署和数据管理基础设施来实现这一目标。

    延伸阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading