
tool-callingcost-reductionfine-tuninglocal-inferencen8nai-agentsgpt4
停止用GPT-4调用你的API:微调一个本地工具调用模型
你在为本质上是模式匹配和JSON生成的工作支付前沿模型价格。微调的8B模型以90%+的准确率处理工具调用,每次查询零成本。以下是计算和迁移路径。
EErtas Team·
目前生产中的每个AI代理都在做同样的事情:接收用户消息,决定调用哪个工具,生成结构化参数并执行。模型的工作是路由和格式化——不是创意写作,不是新颖推理,不是前沿智能。
然而,大多数团队为这项路由工作支付GPT-4价格。这就像雇一个博士来分拣邮件。
成本问题
让我们算一下典型AI代理工作流的数学。
一个电商客服代理处理:
- 每天500次对话
- 平均每次对话4次工具调用决策
- 每次决策约800 token(包含工具的系统提示 + 用户消息 + 模型响应)
月token量: 500 x 4 x 800 x 30 = 4,800万 token/月
| 模型 | 每1M token成本(输入+输出混合) | 月成本 |
|---|---|---|
| GPT-4o | ~$5.00 | $240 |
| GPT-4o mini | ~$0.30 | $14.40 |
| Claude 3.5 Haiku | ~$2.00 | $96 |
| 微调8B(自托管) | ~$0 | $0(仅电费) |
在平台规模下,GPT-4工具调用每月成本$240,000。自托管在硬件投资后实际免费。
硬件成本?一块RTX 4090($1,600)处理所有1,000个代理的工具调用决策。按GPT-4o mini定价,不到一个月就能回本。
为什么工具调用不需要GPT-4
工具调用有一个特定的、受限的输出空间。模型从固定的函数集合中选择并生成匹配预定义模式的参数。这是分类 + 结构化输出——微调小模型擅长的两个任务。
微调8B模型需要做到的是:
- 识别你特定5-20个工具的用户意图模式
- 从你的固定列表中选择正确的工具
- 生成匹配你特定参数 模式的有效JSON
- 知道何时不调用任何工具
这是一个狭窄、定义明确的任务。在你特定工具调用的300-500个示例上微调的8B模型可以可靠地处理它。
迁移路径
步骤1:记录你当前的工具调用
在改变任何东西之前,记录你当前GPT-4代理在2-4周内的每次工具调用。这个日志成为你的训练数据集。
步骤2:清洗和格式化数据集
过滤掉错误的工具调用。将剩余示例格式化为对话格式的JSONL。目标300-500个高质量示例。