东方网记者王佳妮9月1日报道:9月1日,阶跃星辰正式发布其最新的开源端到端语音大模型Step-Audio 2 mini,该模型在多个国际权威基准测试中取得了SOTA(State-of-The-Art,即当前最佳水平)成绩。
在技术架构上,Step-Audio 2 mini采用了真正的端到端设计,将语音理解、音频推理与声音生成进行统一建模。这一创新不仅显著降低了交互时延,提升了响应速度,更使其能够精准捕捉和理解情绪、语调等副语言信息以及环境音、音乐等非人声信号,大幅提升了人机语音交互的效率与智能上限。
随着语音交互成为主流,市场对模型的“智商”和“情商”都提出了更高要求。Step-Audio 2 mini为此首创了音频推理能力,能深刻理解人类语言中的“弦外之音”,并作出自然且符合情境的回应。同时,该模型率先支持语音原生的Tool Calling功能,可实现联网搜索等复杂操作,有效缓解了AI模型的幻觉问题,使其具备了比肩文本模型的强大知识储备与推理能力。
目前,这项前沿技术已成功落地。此前,吉利发布的全新车型吉利银河M9,便搭载了阶跃星辰的端到端语音大模型,成为行业内该技术路线首次实现量产上车的标杆案例。阶跃星辰方面表示,公司正与吉利、鲸鱼机器人、TCL等头部终端厂商深化合作,推动语音大模型在更多生活场景中落地。
作为多模态技术领域的积极贡献者,阶跃星辰今年以来已向全球开源社区贡献了8款覆盖语音、视频生成、图像编辑及3D等多个方向的先进模型。目前,Step-Audio 2 mini已在GitHub、Hugging Face等平台开放下载,供开发者与用户体验。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.