VOICE · 实时语音 Agent

中文实时语音助手,跑在生产里。

基于 Aliyun ASR + Qwen + CosyVoice TTS 的 STT → LLM → TTS 全链路 600 ms 级 TTFA,支持打断与多轮上下文。已在 3 个 vertical 场景部署。

LIVE DEMO

三个 vertical 都是可点击试听 — 餐厅、美发、诊所。真实管线,不是 mock。

~ 600 ms TTFA (Time To First Audio)

< 200 ms Barge-in 打断响应

zh · yue · en 支持语种

99.5%+ 生产环境识别准确率

DEPLOYED SCENARIOS · 3

同一套底座,三个生产场景。

每个场景都是从 0 到生产 4-6 周。给我们一个新场景 + 客户语料,我们的 FDE 团队复制同样的节奏。

TECHNICAL STACK

STT

Aliyun Paraformer (实时识别)中文 + 粤语 + 英文混合

LLM

Qwen-Max (默认)可切换 GPT / Claude / 国产模型场景 prompt 库 + tool calling

TTS

Aliyun CosyVoice可选音色 · 情感渲染

TRANSPORT

LiveKit Cloud AgentWebRTC + SSE 边缘 token

YOUR SCENARIO

常见适配场景:客服热线 · 销售拓展呼出 · 售后回访 · 行业咨询服务热线。FDE 团队 4–6 周交付一个新 vertical。