从原型到产品：用微调模型替代 API 调用

你的原型能用了。你用 Lovable 或 Bolt 或 Replit 构建了它，接入了 OpenAI API，用户开始注册了。产品市场匹配感觉是真的。

但问题来了：每次 AI 交互都花钱。2,000 用户每天 10 次 AI 请求，你每月烧 $600-$1,200 的 API 成本。原型能用。单位经济不行。

六个阶段

**阶段 1：审计 API 使用。**记录每次 API 调用 2 周。找出最大的支出在哪。

**阶段 2：识别微调候选。**高量、重复、领域专属、模板化输出的调用是最佳候选。

**阶段 3：从 API 日志收集训练数据。**提取 2,000-5,000 个输入-输出对。过滤质量。

**阶段 4：用 Ertas 微调。**每个功能训练一个单独的 LoRA 适配器。20-60 分钟/适配器。

**阶段 5：在应用旁边部署。**导出 GGUF，部署到运行 Ollama 的 VPS。Ollama 提供 OpenAI 兼容 API——代码几乎不需要改变。

**阶段 6：渐进式迁移。**第 1 周影子模式，第 2 周 10% 路由，第 3 周 50%，第 4 周全量切换。

之前：所有 AI → OpenAI API，$3,834/月。之后：$80/月（VPS）+ $14.50/月（Ertas）+ ~$120/月（复杂任务 API）= $214.50/月。节省 94%。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.