你正在开发一个跨国客服语音机器人。用户突然从英语切换到印地语,系统需要:先检测语言→切换模型→重新建立连接。整个过程可能要2-3秒,对话早已冷场。
Deepgram今天发布的Flux Multilingual,想把这套复杂流程压缩成一次模型调用。
![]()
一个模型塞了10种语言
Flux Multilingual把英语、西班牙语、法语、德语、印地语、俄语、葡萄牙语、日语、意大利语、荷兰语打包进单一模型和单一接口。Deepgram称其为"首个多语言对话语音识别模型",区别于传统自动语音识别(自动语音识别)——后者为转录优化,前者为对话流设计。
关键能力在于实时语言检测和通话中切换。系统可以接受开发者预设的语言提示,也能自动检测。当说话者在同一段对话中混用语言时,模型原生支持代码切换(code-switching),无需外部路由层介入。
传统方案需要开发者拼接多个转录模型、语言检测层和路由逻辑。这种架构的代价是延迟和脆弱的系统交接。Flux Multilingual用单一感知模型替代整个技术栈。
400毫秒内的对话节奏
模型采用基于模型的轮次检测(model-based turn detection),而非传统的静音检测来判断说话者是否结束发言。端到端决策时间在400毫秒以内。
Deepgram声称该系统在所有10种支持语言上达到单语言级别的准确率,并原生处理打断。发布版本与现有Flux接口向后兼容,可通过云端接口或私有化部署获取,提供欧盟节点和软件开发工具包。
「语音智能体很快将成为全球企业与客户互动的默认方式,」Deepgram联合创始人兼首席执行官Scott Stephenson表示,「Flux Multilingual让开发者能用单一感知模型构建全球语音智能体,具备通话中切换语言的能力。现在企业可以向任何市场、任何客户提供同样无缝的体验。」
20万开发者的选择
据Deepgram披露,超过20万名开发者和1300家组织使用其平台,覆盖语音转文本、文本转语音和完整语音对语音能力。该公司累计处理超过5万年的音频,转录超过1万亿词。
Deepgram为风险投资支持的创业公司,累计融资约2.16亿美元,包括今年1月的1.3亿美元轮次。投资方包括Madrona Venture Group、Tiger Global Management、Wing Venture Capital等。
Flux Multilingual现已全面可用。Deepgram正提供限时促销价,覆盖Flux Multilingual和Nova-3模型的流式语音转文本服务。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.