Back to blog
    语音 AI 智能体微调:Vapi、ElevenLabs 和本地模型
    voice-aiagentsfine-tuningvapicost-reductionsegment:agency

    语音 AI 智能体微调:Vapi、ElevenLabs 和本地模型

    运行在 GPT-4 上的语音 AI 智能体每分钟对话花费 0.10-0.30 美元。微调本地模型将其降至接近零。以下是如何构建不会让每次通话破产的语音智能体。

    EErtas Team·

    语音 AI 智能体市场已经爆发。然后账单到了。

    单个语音 AI 智能体每月处理 1,000 通电话(平均 4 分钟/通),仅 LLM 骨干成本就达 $400-1,200/月。10,000 通/月则是 $4,000-12,000。

    LLM 骨干是昂贵的部分。对于绝大多数语音智能体用例,GPT-4 是严重过度配置。

    小模型的延迟优势

    设置首个 Token 时间完整响应
    GPT-4o API200-600ms800-2,000ms
    微调 8B(本地 RTX 4090)30-80ms150-400ms
    微调 3B(本地 RTX 3090)15-40ms80-250ms

    本地推理消除网络往返。智能体响应速度比人快——反直觉地听起来更自然。

    费用对比

    10,000 通/月

    组件GPT-4o 智能体微调 8B 智能体
    LLM 推理$4,000-$12,000$0(本地)
    STT$240$240
    TTS$330-$990$330-$990
    硬件/托管$0$150-$300
    月总计$4,570-$13,230$720-$1,530

    100,000 通/月

    GPT-4o:$45,700-$132,300 vs 微调:$6,200-$13,800。节省 $39,500-$118,500/月。

    训练注意事项

    1. 保持回复简短(1-3 句话)
    2. 包含填充词和对话标记
    3. 训练多轮对话
    4. 包含中断处理

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading