Ertas 助力语音代理微调

    微调语音代理的 LLM 骨干,实现更快、更准确的语音交互——具备领域特定理解和一致的对话模式。

    The Challenge

    语音代理——处理电话、免下车订餐、预约安排和客户服务对话的 AI 系统——正在快速取代传统的 IVR 系统。语言模型是每个语音代理的大脑,负责理解来电者意图、生成自然回复、做出关于呼叫路由的决策以及维持连贯的多轮对话。然而大多数语音代理构建者依赖通用语言模型,这些模型不理解其服务业务的特定领域、词汇或对话模式。

    使用通用模型的后果对来电者来说立即显而易见。代理误解行业特定术语,因为无法推断上下文而提出多余问题,生成对自然语音节奏来说太长的回复,无法遵循业务要求的特定呼叫脚本和升级程序。延迟是另一个关键因素——语音对话需要亚秒级响应时间,而向大型云模型发送请求会引入可感知的延迟,使对话感觉不自然。这些问题加剧了来电者的沮丧并推高了放弃率,削弱了语音 AI 的商业论证。

    The Solution

    Ertas 使语音代理构建者能够在领域特定的对话数据上微调紧凑、快速的语言模型。通过 Ertas Studio,团队在成功通话的转录本、获批的呼叫脚本和对话流上训练,捕捉来电者期望的精确模式。微调后的模型理解业务的术语,遵循其呼叫处理程序,并生成优化为口语表达的回复——简洁、自然且节奏恰当。

    由于 Ertas 以 GGUF 格式导出模型,微调后的模型可以部署在边缘基础设施上实现超低延迟推理。运行在本地 GPU 上的 7B 模型可以在 200 毫秒内提供回复——足以维持自然对话节奏。模型的紧凑大小也意味着与大型云模型 API 调用相比,每次通话的计算成本更低。通过 Ollama、vLLM 或 Ertas Cloud 部署,模型作为 Retell、Vapi、Bland 等语音代理平台或自定义电话集成背后的推理引擎。Ertas Vault 确保所有通话转录本和训练数据按照通话录音法规和隐私要求处理。

    Key Features

    Studio

    对话式微调

    使用 Studio 在通话转录本、获批脚本和多轮对话流上训练模型。通过回复长度控制和自然轮换模式优化口语表达。

    Hub

    紧凑型语音优化模型

    从 Hub 上在边缘硬件上提供快速推理的高效模型开始。微调这些紧凑模型产出具有低于 200 毫秒响应延迟的语音代理。

    Cloud

    低延迟推理端点

    通过 Cloud 或边缘基础设施部署,满足语音对话要求的亚秒级响应时间。根据并发通话量扩展端点。

    Vault

    通话数据合规

    Vault 确保所有通话录音、转录本和训练数据符合通话录音同意法律、用于支付处理的 PCI-DSS 要求以及用于医疗通话的 HIPAA。

    Example Workflow

    一家牙科诊所管理公司为 500 家牙科诊所构建处理预约安排的语音代理。他们收集 100,000 份成功安排交互的通话转录本——包括预约类型、保险验证问题、时间协商和取消处理——并上传到 Ertas Vault。使用 Ertas Studio,他们在牙科预约领域微调 7B 模型,训练它理解牙科术语(洁牙、牙周维护、牙冠预备)、保险计划名称,以及不同手术类型的特定排班逻辑。模型部署在其数据中心的 GPU 服务器上,达到 150 毫秒的平均响应延迟。微调后的语音代理端到端处理 75% 的预约通话而无需人工干预,比通用模型的 45% 大幅提升。通话时长减少 30%,因为模型更快理解来电者意图,患者满意度提高因为回复自然且上下文恰当。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.