在你的 SaaS 中发布 AI 搜索而无按查询 API 成本

自然语言搜索是 SaaS 产品中需求最高的 AI 功能。问题：每次通过外部 API 的搜索查询都要花钱，而搜索是高频的。10,000 用户、每天 20 次搜索就是每天 200,000 次 API 调用。以 GPT-4o 定价，那是每年 $48,000——为了一个搜索框。

本教程介绍如何使用零按查询成本本地运行的微调模型构建自然语言搜索。

模型实际做什么

将自然语言查询翻译为你现有搜索基础设施可以执行的结构化搜索过滤器。

输入： "上季度成交的超过50K的交易"

输出：

{
  "filters": [
    { "field": "amount", "operator": "gt", "value": 50000 },
    { "field": "status", "operator": "eq", "value": "closed_won" },
    { "field": "close_date", "operator": "between", "value": ["2025-10-01", "2025-12-31"] }
  ]
}

步骤 1：获取训练数据

你需要 200-500 对自然语言查询映射到结构化过滤器。来源：搜索日志、支持工单、合成生成。

步骤 2：选择基础模型

推荐：从 Qwen 2.5 3B 开始。足够小以在最小硬件上运行，足够准确以在微调后用于生产。

步骤 3：微调

300 个示例，3B 模型：A100 上约 8 分钟。用 Ertas，上传你的 JSONL 训练文件，选择基础模型，平台处理其余。

步骤 4：通过 GGUF + Ollama 部署

步骤 5：延迟基准测试

场景	总延迟
OpenAI API（GPT-4o-mini）	281-551ms
本地 Ollama（3B Q4）	36-56ms
本地 Ollama（7B Q4）	71-101ms

本地模型比此任务的 API 快 5-15 倍。

硬件要求

并发用户	月成本（本地）	GPT-4o-mini API 成本	节省
500	$55	$450	88%
5,000	$110	$4,500	98%
50,000	$250	$45,000	99%

总实施时间：一名工程师 3-4 周。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

在你的 SaaS 中发布 AI 搜索而无按查询 API 成本

模型实际做什么

步骤 1：获取训练数据

步骤 2：选择基础模型

步骤 3：微调

步骤 4：通过 GGUF + Ollama 部署

步骤 5：延迟基准测试

硬件要求

Ship AI that runs on your users' devices.

Keep reading

用你的微调本地模型替换 OpenAI Agents SDK 中的 OpenAI

将 Claude/GPT 蒸馏到 7B 模型用于生产：逐步指南

如何合法蒸馏开源模型：逐步指南