品玩12月5日讯,火山引擎近日正式推出豆包语音识别模型2.0,显著提升上下文理解与复杂场景识别能力。
模型整体关键词召回率提高20%,在专有名词、多音字等难点上表现更优,并首次引入多模态视觉识别能力,可结合图像内容辅助区分同音词(如“滑鸡”与“滑稽”)。该版本新增日语、韩语、德语、法语等13种语言支持,在保持中英文高精度基础上拓展全球化应用。技术上基于Seed混合专家架构与PPO强化学习,实现无需历史词汇的动态泛化推理,并通过Function Call策略优化跨语言识别效果。
模型现已上线火山方舟体验中心并开放API,适用于搜图描述、语音指令创作、多语言交互等场景。2025火山引擎FORCE原动力大会将于12月在上海举行。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.