
为机构打造的按客户 AI Agent:LoRA + 工具调用实战手册
每个机构客户都得到同样的 GPT 封装。这就是问题所在。通过按客户 LoRA 适配器和自定义工具 schema,你可以交付了解每个客户 CRM、工作流和术语的 AI Agent——每个客户仅需 50-200MB。
2026 年的 AI 机构市场面临差异化问题。十家机构中有九家卖的是同样的东西:通过 Zapier 或 Make.com 连接到客户工具的 GPT-4 封装。客户得到一个勉强能用的聊天机器人,在边缘情况下崩溃,每次查询产生 $0.03 的 API 费用需要有人承担。
客户心知肚明。他们已经和三家机构交谈过,得到了三个一模一样的方案。价格成为唯一 的差异化因素,价格竞争扼杀利润。
替代方案是:在共享基础模型上使用单独的 LoRA 适配器构建按客户 AI Agent。每个客户的 Agent 了解他们的工具、他们的工作流、他们的术语。不是通用的。不是封装。是一个在他们的数据和工具 schema 上训练的模型。
这就是你如何收取 $3K-8K 的安装费而不是 $500。以及如何让客户保持 $500-2K/月的续费而不是 3 个月后流失。
架构:共享基础 + 按客户 LoRA
核心理念很简单:
基础模型(Qwen 2.5 7B 或 Llama 3.3 8B)
├── 客户 A LoRA 适配器(HubSpot 工具 + 电商工作流)
├── 客户 B LoRA 适配器(Salesforce 工具 + SaaS 入职工作流)
├── 客户 C LoRA 适配器(Pipedrive 工具 + 咨询接入工作流)
├── 客户 D LoRA 适配器(自定义 CRM API + 物流工作流)
└── 客户 E LoRA 适配器(HubSpot 工具 + 房地产工作流)
一个基础模型。五个适配器。每个适配器根据 rank 和量化为 50-200MB。基础模型约 4GB(Q4 量化)。5 个客户的总存储:不到 5GB。
在推理时,加载一次基础模型并按请求热交换 LoRA 适配器。适配器交换耗时 50-200ms——对终端用户不可见 。
每个客户的 Agent 有何不同
工具 Schema
客户 A 用 HubSpot。客户 B 用 Salesforce。客户 C 用 Pipedrive。函数签名完全不同。同样的业务意图(创建销售交易),完全不同的 schema。通用模型猜测参数名时有 20-30% 的错误率。微调适配器有 95%+ 的正确率,因为它见过你客户精确 schema 的数百个示例。
工作流模式
客户 A 的销售流程:潜在客户 → 资质确认电话 → 提案 → 谈判 → 成交。客户 C 的咨询接入:咨询 → 需求评估 → SOW 草拟 → 合同 → 启动。Agent 需要知道下一步是什么、每个阶段收集什么数据、何时升级到人工。
术语和语调
客户 A 称他们的客户为"accounts「。客户 D 称他们为」shippers"。适配器从训练数据中吸收这些细微差别,无需显式规则。
构建训练数据
每个客户需要 300-700 个训练样本,涵盖:
1. 工具选择(40% 的样本)
用户消息配对正确的工具调用。
2. 多工具序列(25% 的样本)
需要 2-3 个工具调用的顺序工作流。
3. 澄清和拒绝(20% 的样本)
用户请求模棱两可或超出范围时的处理。
4. 错误处理(15% 的样本)
工具调用失败时模型需要恢复的情况。
定价模型
安装费:$3,000 - $8,000
覆盖发现(4-8 小时)、数据收集和格式化(4-8 小时)、微调和评估(4-6 小时)、集成和测试(4-8 小时)。
月度续费:$500 - $2,000
覆盖托管和推理、监控和维护、每月重新训练、性能报告。
利润数学
| 项目 | 收入 | 成本 | 利润 |
|---|---|---|---|
| 安装(每客户) | $5,000 | $2,000(人工) | $3,000 |
| 月度续费(每客户) | $1,000 | $300(基础设施 + 人工) | $700 |
| 第一年每客户 | $17,000 | $5,600 | $11,400(67%) |
基础设施扩展
- 5 个客户:单服务器,16GB RAM,1 GPU。约 $150/月云或 $3K 一次性硬件。
- 20 个客户:单服务器,32GB RAM,1 GPU。热交换适配器。约 $300/月。
- 50+ 客户:两台服务器冗余。约 $600/月。
基础模型加载一次。适配器交换近乎即时。你不需要 50 个独立的模型实例——你需要一个模型和 50 个小适配器文件。
扩展路线图
阶段 1:前 3 个客户(手动)
一切定制。你与每个客户面对面,手动映射工作流,手动构建训练数据,逐个微调。
阶段 2:客户 4-10(模板化)
你已经看到足够的模式来创建模板。客户入职从 30 小时降到 12 小时。
阶段 3:客户 10+(产品化)
构建自助门户。客户连接 CRM,上传示例交互,选择工作流类型。系统自动生成训练数据、自动微调并部署适配器。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Client-Specific AI Agents as Recurring Revenue: The Agency Pricing Playbook
The most profitable AI agencies don't sell projects — they sell per-client AI agents on monthly retainers. Here's the pricing playbook that turns one-time builds into $2K-10K/month recurring revenue.

Managing 50+ LoRA Adapters in Production: Versioning and Organization
Practical systems for managing dozens of LoRA adapters across multiple clients, tasks, and base models — covering naming conventions, metadata, registries, multi-LoRA serving, and scaling milestones from 10 to 100+ adapters.

Building Reliable AI Agents with Fine-Tuned Local Models: Complete Guide
Most AI agents are just GPT-4 wrappers — expensive, unreliable at scale, and dependent on cloud APIs. Fine-tuned local models hit 98%+ accuracy on your specific tools at zero per-query cost. Here's the complete architecture.