
按用户 LoRA 适配器:大规模个性化 AI 无需按 Token 计费
LoRA 适配器每个仅 50-200MB。你可以按用户请求热交换,从单一基础模型提供个性化 AI 体验——无需倍增推理成本。
每个用户都希望 AI 理解他们的上下文。他们的术语、偏好、领域特点、沟通风格。当前的个性化方法都有问题:按用户系统提示词成本高,按用户 RAG 运维复杂,按用户完整微调不切实际。
LoRA 适配器优雅地解决了这个问题。
LoRA 个性化架构
一个基础模型在内存中。按用户 LoRA 适配器存储在磁盘上。用户发出请求时加载正确的适配器。提供响应。卸载适配器。准备好接待下一个用户。
关键数据:
- 基础模型(Llama 3.1 8B, Q4):GPU 内存中 4GB
- 按用户 LoRA 适配器:磁盘上 50-200MB
- 适配器加载时间:50-200ms(从 SSD)
- 1,000 用户 x 100MB 平均适配器:总存储 100GB
- 100GB SSD 存储成本:云上约 $8/月
热交换工作原理
- 带用户 ID 的用户请求到达
- 检查用户适配器是否已加载在内存中
- 如果没有:从磁盘加载适配器(50-200ms)
- 将适配器权重与基础模型合并
- 运行推理
- 返回响应
- 将适配器保留在内存缓存中(LRU 淘汰不活跃用户)
24GB GPU 可以同时容纳基础模型(4GB)加 15-30 个适配器。
按用户适配器学到什么
在 200-500 个用户交互样本上训练的适配器会学习:沟通风格、领域知识、任务模式和偏好倾向。
用例
- 按客户的机构模型:50 个客户在单一基础模型上,50 个适配器
- 按租户的 SaaS:每个客户账户的个性化 AI
- 按部门的企业:法务、市场、工程、人力资源各有适配器
- 个人 AI 助手:消费应用中每个用户随时间学习偏好
10,000 用户的规模数学
存储
- 10,000 适配器 x 100MB 平均 = 1TB
- 云存储成本:约 $23/月
计算
- 基础模型:1x A10G GPU 处理 50-100 请求/秒
- 任何时刻约 2,000 活跃用户需要适配器
每月总成本
| 组件 | 成本 |
|---|---|
| 推理 GPU(A10G,24/7) | $440-$730 |
| 存储(1TB SSD + 备份) | $123 |
| 月度重新训练(2,000 用户) | $1,000-$2,000 |
| 总计 | $1,563-$2,853 |
每用户每月 $0.16-$0.29 的完全个性化 AI。对比 GPT-4o 的系统提示词方案每用户每月 $2.50+。
隐私考虑
- 适配器包含从用户数据中学到的模式,应与原始数据同等安全对待
- 适配器文件应静态加密并按用户进行访问控制
- 用户应能删除其适配器(删除权)
- 适配器和所有用户数据留在你的基础设施上
何时按用户适配器不合适
- 交互少于 100 次的用户:数据不足
- 高度统一的用例:单一微调模型服 务所有人
- 快速变化的需求:适配器跟不上重新训练周期
- 非常小的用户群(少于 50 用户):运维开销超过收益
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning for App Developers: A Non-ML-Engineer's Guide
A practical guide to fine-tuning AI models for mobile app developers. Learn LoRA, QLoRA, and GGUF export without needing an ML background.

How Many Training Examples Do You Actually Need? The 100-Sample Myth
The real data requirements for fine-tuning AI models. Research shows 50-500 examples can be enough for many tasks. Here's what the papers say and how to build your dataset.

From Prompt Caching to Fine-Tuning: When to Make the Switch
Prompt caching cuts costs 60-90% for repetitive context. Fine-tuning eliminates per-token costs entirely. Here's how to know when you've outgrown caching and should fine-tune instead.