VOICE · 实时语音 Agent
中文实时语音助手,跑在生产里。
基于 Aliyun ASR + Qwen + CosyVoice TTS 的 STT → LLM → TTS 全链路 600 ms 级 TTFA,支持打断与多轮上下文。已在 3 个 vertical 场景部署。
LIVE DEMO
进入语音 Demo
直接在浏览器里跟它对话。
三个 vertical 都是可点击试听 — 餐厅、美发、诊所。真实管线,不是 mock。
~ 600 ms TTFA (Time To First Audio)
< 200 ms Barge-in 打断响应
zh · yue · en 支持语种
99.5%+ 生产环境识别准确率
同一套底座,三个生产场景。
每个场景都是从 0 到生产 4-6 周。给我们一个新场景 + 客户语料,我们的 FDE 团队复制同样的节奏。
底层是什么。
STT
Aliyun Paraformer (实时识别)中文 + 粤语 + 英文混合
LLM
Qwen-Max (默认)可切换 GPT / Claude / 国产模型场景 prompt 库 + tool calling
TTS
Aliyun CosyVoice可选音色 · 情感渲染
TRANSPORT
LiveKit Cloud AgentWebRTC + SSE 边缘 token