
saassearchfine-tuningtutorialdeploymentcost-reduction
在你的 SaaS 中发布 AI 搜索而无按查询 API 成本
使用微调的 3B-7B 模型构建自然语言搜索的分步教程。包含训练数据获取、模型选择、通过 Ollama 的 GGUF 部署和延迟基准测试。
EErtas Team·
自然语言搜索是 SaaS 产品中需求最高的 AI 功能。 问题:每次通过外部 API 的搜索查询都要花钱,而搜索是高频的。10,000 用户、每天 20 次搜索就是每天 200,000 次 API 调用。以 GPT-4o 定价,那是每年 $48,000——为了一个搜索框。
本教程介绍如何使用零按查询成本本地运行的微调模型构建自然语言搜索。
模型实际做什么
将自然语言查询翻译为你现有搜索基础设施可以执行的结构化搜索过滤器。
输入: "上季度成交的超过50K的交易"
输出:
{
"filters": [
{ "field": "amount", "operator": "gt", "value": 50000 },
{ "field": "status", "operator": "eq", "value": "closed_won" },
{ "field": "close_date", "operator": "between", "value": ["2025-10-01", "2025-12-31"] }
]
}
步骤 1:获取训练数据
你需要 200-500 对自然语言查询映射到结构化过滤器。来源:搜索日志、支持工单、合成生成。
步骤 2:选择基础模型
推荐:从 Qwen 2.5 3B 开始。足够小以在最小硬件上运行,足够准确以在微调后用于生产。
步骤 3:微调
300 个示例,3B 模型:A100 上约 8 分钟。用 Ertas,上传你的 JSONL 训练文件,选择基础模型,平台处理其余。
步骤 4:通过 GGUF + Ollama 部署
步骤 5:延迟基准测试
| 场景 | 总延迟 |
|---|---|
| OpenAI API(GPT-4o-mini) | 281-551ms |
| 本地 Ollama(3B Q4) | 36-56ms |
| 本地 Ollama(7B Q4) | 71-101ms |
本地模型比此任务的 API 快 5-15 倍。
硬件要求
| 并发用户 | 月成本(本地) | GPT-4o-mini API 成本 | 节省 |
|---|---|---|---|
| 500 | $55 | $450 | 88% |
| 5,000 | $110 | $4,500 | 98% |
| 50,000 | $250 | $45,000 | 99% |
总实施时间:一名工程师 3-4 周。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.


