語音代理

建構用於語音代理和對話式 AI 應用的自訂語言模型

The Challenge

語音代理——處理電話通話、得來速點餐、預約排程和客戶服務對話的 AI 系統——正迅速取代傳統的 IVR 系統。語言模型是每個語音代理的大腦，負責理解來電者意圖、生成自然回覆、做出通話路由決策，以及維持連貫的多輪對話。然而大多數語音代理建構者依賴的通用語言模型不理解其所服務業務的特定領域、詞彙或對話模式。

使用通用模型在語音代理中的後果對來電者來說是立即可見的。代理誤解行業特定術語，因無法推斷上下文而提出多餘的問題，生成對自然語音時序來說太長的回覆，並且無法遵循業務要求的特定通話腳本和升級程序。延遲是另一個關鍵因素——語音對話需要亞秒級回應時間，而向大型雲端模型發送請求會引入可感知的延遲，使對話感覺不自然。這些問題加劇了來電者的沮喪，推高了放棄率，削弱了語音 AI 的商業理據。

The Solution

Ertas 使語音代理建構者能夠在特定領域的對話資料上微調緊湊、快速的語言模型。透過 Ertas Studio，團隊在成功通話的逐字稿、核准的通話腳本和對話流程上進行訓練，捕捉來電者期望的精確模式。微調模型理解業務的術語，遵循其通話處理程序，並生成為口語交付最佳化的回覆——簡潔、自然、時機適當。

由於 Ertas 以 GGUF 格式匯出模型，微調模型可以部署在邊緣基礎設施上進行超低延遲推論。在本地 GPU 上運行的 7B 模型在 200 毫秒以內交付回覆——足夠快以維持自然的對話節奏。模型的緊湊尺寸也意味著與大型雲端模型 API 呼叫相比，每通電話的計算成本更低。透過 Ollama、vLLM 或 Ertas Cloud 部署，模型作為 Retell、Vapi、Bland 等語音代理平台或自訂電話整合背後的推理引擎。Ertas Vault 確保所有通話逐字稿和訓練資料根據通話錄音法規和隱私要求處理。

Key Features

Studio

對話式微調

使用 Studio 在通話逐字稿、核准腳本和多輪對話流程上訓練模型。透過回覆長度控制和自然輪流模式為口語交付最佳化。

Hub

緊湊語音最佳化模型

從 Hub 上在邊緣硬體上提供快速推論的高效模型開始。微調這些緊湊模型產出具有低於 200ms 回應延遲的語音代理。

Cloud

低延遲推論端點

透過 Cloud 或邊緣基礎設施部署，滿足語音對話所需的亞秒級回應時間。根據同時通話量擴展端點。

Vault

通話資料合規

Vault 確保所有通話錄音、逐字稿和訓練資料符合通話錄音同意法律、PCI-DSS 支付處理要求和醫療保健通話的 HIPAA 規定。

Example Workflow

一家牙科診所管理公司為 500 家牙科診所建構處理預約排程的語音代理。他們從成功的排程互動中收集 100,000 份通話逐字稿——包括預約類型、保險驗證問題、排程協商和取消處理——並上傳至 Ertas Vault。使用 Ertas Studio，他們在牙科排程領域微調一個 7B 模型，訓練它理解牙科術語（洗牙、牙周維護、牙冠預備）、保險計劃名稱，以及不同治療程序類型的特定排程邏輯。模型部署在其資料中心的 GPU 伺服器上，達到 150ms 的平均回應延遲。微調語音代理端到端處理 75% 的排程通話而無需人工介入，相比通用模型的 45%。通話時長下降 30%，因為模型更快地理解來電者意圖，患者滿意度分數提升，因為回覆自然且符合上下文。