5月9日,全球权威语音评测榜单Artificial Analysis Speech Arena Leaderboard更新。阶跃语音生成模型StepAudio 2.5 TTS跻身全球前三,成为当前榜单排名最高的中国大模型。
这个榜单的测试方式很有意思:用户不知道模型身份,直接对同一文本生成的两段语音进行听感判断。测试覆盖客户服务、知识分享、数字助手、娱乐等真实场景。换句话说,StepAudio 2.5 TTS的领先不是实验室参数好看,而是真人听下来觉得更自然、更像真人说话。
![]()
阶跃近期集中发布了StepAudio 2.5系列,包括三款模型:
1. TTS:高自然度语音生成
2. ASR:高速高精度语音识别
3. Realtime:实时语音交互,主打"活人感"的AI聊天体验
其中Realtime模型昨日刚上线,强调顶级副语言能力、千万人设自定义,以及"有温度、有灵魂、有态度"的交互体验。
AI语音被业内视为人机交互的核心入口,OpenAI、Google等巨头都在重金投入。阶跃在这个赛道布局已久:开源的Step Audio R1.1已连续4个月霸榜Artificial Analysis Speech Reasoning,目前仍是全球第一;开源的Step Audio EditX是全球首个迭代式情绪风格语音编辑模型,属于zero-shot TTS,仅用3秒复刻的音色就能打败不少闭源模型的主音色;在Artificial Analysis Speech Arena Leaderboard开源榜上,阶跃目前位列全球第二。
商业化层面,阶跃语音模型已实现规模化落地。搭载吉利银河M9,阶跃率先实现端到端语音大模型量产上车;为整车智能体超级Eva提供语音交互能力,首发搭载极氪8X也已量产上市。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.