Ertas 助力语音代理微调

微调语音代理的 LLM 骨干，实现更快、更准确的语音交互——具备领域特定理解和一致的对话模式。

The Challenge

语音代理——处理电话、免下车订餐、预约安排和客户服务对话的 AI 系统——正在快速取代传统的 IVR 系统。语言模型是每个语音代理的大脑，负责理解来电者意图、生成自然回复、做出关于呼叫路由的决策以及维持连贯的多轮对话。然而大多数语音代理构建者依赖通用语言模型，这些模型不理解其服务业务的特定领域、词汇或对话模式。

使用通用模型的后果对来电者来说立即显而易见。代理误解行业特定术语，因为无法推断上下文而提出多余问题，生成对自然语音节奏来说太长的回复，无法遵循业务要求的特定呼叫脚本和升级程序。延迟是另一个关键因素——语音对话需要亚秒级响应时间，而向大型云模型发送请求会引入可感知的延迟，使对话感觉不自然。这些问题加剧了来电者的沮丧并推高了放弃率，削弱了语音 AI 的商业论证。

The Solution

Ertas 使语音代理构建者能够在领域特定的对话数据上微调紧凑、快速的语言模型。通过 Ertas Studio，团队在成功通话的转录本、获批的呼叫脚本和对话流上训练，捕捉来电者期望的精确模式。微调后的模型理解业务的术语，遵循其呼叫处理程序，并生成优化为口语表达的回复——简洁、自然且节奏恰当。

由于 Ertas 以 GGUF 格式导出模型，微调后的模型可以部署在边缘基础设施上实现超低延迟推理。运行在本地 GPU 上的 7B 模型可以在 200 毫秒内提供回复——足以维持自然对话节奏。模型的紧凑大小也意味着与大型云模型 API 调用相比，每次通话的计算成本更低。通过 Ollama、vLLM 或 Ertas Cloud 部署，模型作为 Retell、Vapi、Bland 等语音代理平台或自定义电话集成背后的推理引擎。Ertas Vault 确保所有通话转录本和训练数据按照通话录音法规和隐私要求处理。

Key Features

Studio

对话式微调

使用 Studio 在通话转录本、获批脚本和多轮对话流上训练模型。通过回复长度控制和自然轮换模式优化口语表达。

Hub

紧凑型语音优化模型

从 Hub 上在边缘硬件上提供快速推理的高效模型开始。微调这些紧凑模型产出具有低于 200 毫秒响应延迟的语音代理。

Cloud

低延迟推理端点

通过 Cloud 或边缘基础设施部署，满足语音对话要求的亚秒级响应时间。根据并发通话量扩展端点。

Vault

通话数据合规

Vault 确保所有通话录音、转录本和训练数据符合通话录音同意法律、用于支付处理的 PCI-DSS 要求以及用于医疗通话的 HIPAA。

Example Workflow

一家牙科诊所管理公司为 500 家牙科诊所构建处理预约安排的语音代理。他们收集 100,000 份成功安排交互的通话转录本——包括预约类型、保险验证问题、时间协商和取消处理——并上传到 Ertas Vault。使用 Ertas Studio，他们在牙科预约领域微调 7B 模型，训练它理解牙科术语（洁牙、牙周维护、牙冠预备）、保险计划名称，以及不同手术类型的特定排班逻辑。模型部署在其数据中心的 GPU 服务器上，达到 150 毫秒的平均响应延迟。微调后的语音代理端到端处理 75% 的预约通话而无需人工干预，比通用模型的 45% 大幅提升。通话时长减少 30%，因为模型更快理解来电者意图，患者满意度提高因为回复自然且上下文恰当。